Rozpoznawanie Mowy: Czego ludzie wymagają od technologii mowy?

28 kwi 2013

Czego ludzie wymagają od technologii mowy?

Fragment książki "Przetwarzanie mowy"

To właśnie ludzkie wymagania często blokowały rozwój technologii mowy. Przykładowo, wiele lat temu, gdy rozważano opcję głosowego wybierania numeru telefonu, w jedne z czołowych telekomunikacyjnych firm padło pytanie, czy przy odpowiednich nakładach środków, można opracować metodę rozpoznawania mowy, która zapewni 100% poprawności wybieranych osób ze spisu w telefonie. Odpowiedź brzmiała “nie”, więc wstrzymano cały projekt. Również obecnie, jeśli udostępnilibyśmy oprogramowanie do automatycznej transkrypcji, wiele osób będzie oczekiwać, aby otrzymywany tekst był w pełni poprawny gramatycznie, nawet jeśli zapisywana wypowiedź taka nie była. Wynika to z faktu, że przywykliśmy do akceptowania o wiele wyższego poziomu błędów w wypowiedziach ustnych, niż pisemnych. W efekcie dajemy komputerowi wypowiedź ustną, a oczekujemy jakości wypowiedzi pisemnej. Są to wymagania bardzo trudne do spełnienia.

W komunikacji głosowej między ludźmi, często zdarza się, że przez chwilę nie rozumiemy się i prosimy o powtórzenie lub wyjaśnienia. Częstość takich sytuacji zależy od redundancji języka i rozbudowy dialektów. Zdarza się więc to częściej w angielskim i chińskim niż polskim. Przyjmujemy to naturalnie i nie oceniamy tego jako błędu w komunikacji. Jednakże, jeśli komputer przedstawi podobną prośbę, wówczas jesteśmy skłonni ocenić jego działanie jako nieskuteczne.

www.dsp.agh.edu.pl