28 maj 2013

Zasoby językowe, część druga

Fragment książki "Przetwarzanie mowy"

Program do robienia korpusów mowy opracowany na AGH umożliwia kojarzenie istniejących nagrań (takich jak audiobooki) z istniejącymi tekstami. Pozwala to oszczędzić czas i środki finansowe na robienie nagrań. Program umożliwia pracę w tempie około 17 minut pracy operatora na jedną minutę korpusu dokładnie anotowanego na słowa. Przy stosowaniu innych programów, ten stosunek wynosi 20-40 minut pracy na minutę korpusu.

W wypadku korpusów tekstowych należy ustalić skąd pochodzą zebrane materiały. Jeśli są to opublikowane książki lub czasopisma, to można oczekiwać dużo mniejszej liczby błędów, niż w wypadku stron internetowych. Ponadto, w tym przypadku źródło materiałów ma wpływ na rodzaj używanych słów, co w wielu zastosowaniach jest istotne. Przykładowo, może być dość ryzykownym zajęciem projektowanie dowolnego systemu, mającego służyć pracy przy komputerze, na podstawie książek Sienkiewicza.

www.dsp.agh.edu.pl

Brak komentarzy: