Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko
Technologie mowy mają zastosowanie wszędzie tam, gdzie potrzebna jest automatyczna analiza mowy lub istnieje głosowa interakcja pomiędzy człowiekiem a maszyną. Jednym z najbardziej oczywistych zastosowań jest komunikacja głosowa. Łączy ona w sobie kilka aspektów technologii mowy, głównie rozpoznawanie mowy i jej syntezę. O co chodzi, nie trzeba tłumaczyć miłośnikom filmów science-fiction z Odyseją Kosmiczną na czele, gdzie załoga mogła komunikować się głosowo z komputerem pokładowym.
Wracając do rzeczywistości, człowiek przeciętnie jest w stanie trzy razy szybciej mówić niż pisać na klawiaturze. Tak więc w teoretycznej sytuacji, po odrzuceniu uczestnictwa w aukcjach internetowych, wykonywaniu telefonów prywatnych i stawianiu pasjansów, każda praca biurowa mogłaby być wykonywana trzy razy szybciej. Pisanie książek mogłoby się stać tak łatwe, że ich nadmiar przyprawiłby wydawców i księgarzy o ból głowy.
Rozpoznawanie mowy jest już wykorzystywane, także w Polsce, w telefonicznych systemach informacyjnych zwanych również call centre. Istniejący system wyszukiwania połączeń w komunikacji miejskiej w Warszawie działa trzy razy wolniej niż odpowiednik opierający się na pracy ludzi, ale jest dziesięć razy tańszy w eksploatacji.
Rozpoznawanie i synteza mowy mogłyby stać się też niezwykle efektywnym sposobem kompresji. Przekazywany cyfrowy głos w wersji nieskompresowanej zajmuje co najmniej kilka tysięcy razy więcej bitów niż jego transkrypcja, a wersja skompresowana mowy, przy zastosowaniu obecnie używanych metod, kilkaset razy więcej niż tekst. Głos mógłby więc być zamieniany na tekst w nadajniku i syntezowany jako mowa w odbiorniku.
Byłoby to powiązane z utratą emocjonalnej treści przekazu, ale nie ma jej także w tak popularnych dziś smsach. Większą więc przeszkodą we wprowadzeniu takiego systemu byłoby zrujnowanie operatorów niż przystosowanie się użytkowników. Z drugiej strony, wyobraźmy sobie sytuację, w której jeden z operatorów zdecydowałby się na taką usługę i ograniczyłby koszt rozmowy jedynie 10-krotnie, przy powiedzmy uzyskiwanej 100-krotnej redukcji przepływu bitów. Czy taka opcja mogłaby wpłynąć na wybór sieci przez klientów?
Możliwość interakcji głosowej z komputerem pociągnęłaby za sobą całą masę usług związanych z symulacją dialogów. Rynek gier komputerowych, awatarów i wielu innych gadżetów przeżyłby rewolucję. Ludzka natura dyktuje nam dążenie do kontaktów z innymi ludźmi. Jeżeli są one nie do osiągnięcia w dzisiejszym izolowanym społeczeństwie, to szukamy środków zastępczych. Na przykład włączamy telewizor lub radio, nie mając konkretnej potrzeby ich użytkowania. Zwłaszcza osoby żyjące samotnie lubią słyszeć głos ludzki bez względu na treść przekazywanego komunikatu. Czasami używa się wyrażenia „dziecko wychowane przy radio” na określenie osoby, która spędzała dużo czasu w dzieciństwie w samotności i włączała radio, aby przerwać ciszę.
Istotnym odbiorcą usług technologii mowy są służby bezpieczeństwa i wymiaru sprawiedliwości. Potrzebują one systemów wykrywających zagrożenia na podstawie emocjonalnych wypowiedzi lub krzyków, automatycznie protokołujących posiedzenia sądowe (to zastosowanie staje się rzeczywistością w USA), analizatorów nagrań z podsłuchów, itd. Zastanówmy się jaki jest koszt sprawdzenia przez funkcjonariusza czy na nagraniu z całego tygodnia podsłuchu pojawiło się określone nazwisko. Załóżmy, że należy to sprawdzić w 100 podsłuchach. W takim przypadku człowiek nie ma szans z komputerem. Można także automatycznie sprawdzać, na podstawie cech głosu i sposobu mówienia, czy wypowiadająca się osoba jest na liście podejrzanych.