Fragment książki "
Przetwarzanie mowy"
Bardzo ważnym czynnikiem w opracowaniu nowych technologii mowy są zasoby językowe. Prawie wszystkie metody wymagają zapisu mowy, bądź jako dźwięku, bądź tekstów, do statystycznego opracowania parametrów dla odpowiednich modeli. Proces ten zwyczajowo nazywamy szkoleniem. Co więcej, techniki wykorzystujące mowę są tym skuteczniejsze, im więcej materiałów zostało wykorzystanych. Wielu naukowców walczy o zdobywanie kolejnych materiałów, czasami jednocześnie czuwając nad tym, aby ich własne nie dostały się w ręce konkurentów. W ten sposób rywalizujące laboratoria strzegące zasobów językowych zaczynają przypominać zamki pilnujące księżniczek.
Duży, w jakimś sensie kompletny, zbiór danych językowych nazywamy korpusem. W tym rozdziale opiszemy najpopularniejsze korpusy, szczególnie języka polskiego oraz przybliżymy sposoby, w jakie się je gromadzi. Większość korpusów zawiera powieści lub artykuły prasowe. Zdarzają się jednak także stenogramy i strony internetowe. Do niektórych zastosowań potrzebne są zbiory nazw własnych, jak na przykład nazwiska lub nazwy ulic i miast.
Jedną z trudności w przeprowadzaniu badań nad technologiami mowy jest brak standardowych korpusów testowych. Bardzo utrudnia to porównywanie istniejących metod, gdyż wiele zespołów prowadzi badania z wykorzystaniem innych danych. Wynika to głównie z dwóch czynników. Po pierwsze badania te są prowadzone na różnych językach, więc i korpusy muszą składać się z danych pochodzących z różnych języków. Drugim powodem są wspomniane wyżej koszty związane z wytwarzaniem korpusów. Są to zwykle drogie zasoby. Z tego powodu, każdy zespół korzysta z zasobów, które uda mu się pozyskać.
www.dsp.agh.edu.pl