Fragment książki "
Przetwarzanie mowy"
To właśnie ludzkie wymagania często blokowały rozwój technologii mowy. Przykładowo, wiele lat temu, gdy rozważano opcję głosowego wybierania numeru telefonu, w jedne z czołowych telekomunikacyjnych firm padło pytanie, czy przy odpowiednich nakładach środków, można opracować metodę rozpoznawania mowy, która zapewni 100% poprawności wybieranych osób ze spisu w telefonie. Odpowiedź brzmiała “nie”, więc wstrzymano cały projekt. Również obecnie, jeśli udostępnilibyśmy oprogramowanie do automatycznej transkrypcji, wiele osób będzie oczekiwać, aby otrzymywany tekst był w pełni poprawny gramatycznie, nawet jeśli zapisywana wypowiedź taka nie była. Wynika to z faktu, że przywykliśmy do akceptowania o wiele wyższego poziomu błędów w wypowiedziach ustnych, niż pisemnych. W efekcie dajemy komputerowi wypowiedź ustną, a oczekujemy jakości wypowiedzi pisemnej. Są to wymagania bardzo trudne do spełnienia.
W komunikacji głosowej między ludźmi, często zdarza się, że przez chwilę nie rozumiemy się i prosimy o powtórzenie lub wyjaśnienia. Częstość takich sytuacji zależy od redundancji języka i rozbudowy dialektów. Zdarza się więc to częściej w angielskim i chińskim niż polskim. Przyjmujemy to naturalnie i nie oceniamy tego jako błędu w komunikacji. Jednakże, jeśli komputer przedstawi podobną prośbę, wówczas jesteśmy skłonni ocenić jego działanie jako nieskuteczne.
www.dsp.agh.edu.pl