Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko
Istnieje kilka barier ograniczających rozwój technologii mowy. Pierwsza z nich jest powiązana z jedną z głównych barier rozwoju metod sztucznej inteligencji. Większość metod mniej lub bardziej opiera się na statystykach. Wiarygodność statystyki zależy od ilości danych użytych do ich wygenerowania. Z tego powodu ograniczeniem jakości metod technologii mowy są rozmiary dostępnych zbiorów mowy lub tekstu, zwanych korpusami. Teoretycznie, wiele z modeli działa perfekcyjnie jedynie przy nieskończenie wielkich zasobach szkoleniowych.
Drugim ograniczeniem jest to, że większość metod technologii mowy jest pewnego rodzaju symulacją procesów zachodzących w naszych zmysłach i mózgu. Szczególnie zrozumienie funkcjonowania mózgu jest jak na razie nieosiągalne. Potrafimy bowiem wytworzyć elektroniczne transplanty zastępujące ucho, syntezatory mowy są niemalże idealne. Jednak bardzo duża część przetwarzania informacji zachodzi w mózgu, w oparciu o połączenie danych otrzymywanych aktualnie z różnych zmysłów i porównanie z nabytym doświadczeniem. Proces słuchania jest dużo bliższy zgadywaniu i interpretacji, niż większość z nas podejrzewa. Przykładowo, gdy jesteśmy za granicą, często wydaje się nam, że słyszymy język polski, a po odwróceniu się widzimy osoby narodowości, które nigdy nie posługują się naszym językiem. Po uważniejszym przysłuchaniu, orientujemy się, że to zupełnie inny język.
Wyzwaniem jest również fakt, że użytkownicy nie będą korzystać z systemów, które nie spełniają wygórowanych oczekiwań. Powstrzymuje to rozwój technologii mowy, bo trudno rozwijać systemy bez użytkowników końcowych i ich komentarzy. Większość osób oczekuje od technologii mowy jakości co najmniej takiej, jak możliwości człowieka. Gdy takich nie ma, zniechęcają się do systemu.