24 paź 2008

HTK a rozpoznawanie mowy z dużym słownikiem

HTK wydaje się nie być aż tak LARGE vocabulary jak jest promowane. Oczywiście wynika to po części z tego, że nie wykorzystuję modelu językowego HTK. Jest on jednak moim zdaniem zbyt uzależniony od ustawień robionych ręcznie przez człowieka i poprzez swoją zależność od kolejności słów w strukturze zdania nie przystosowany do realiów języka polskiego. Gdy rozmawiałem z profesorem Woodlandem mówił o bardzo łatwym do wyszkoleniu modelu opartym na n-gramie. Nie potrafiłem go jednak odnaleźć i wydaje mi się, że miał on na myśli model który szkoli się na zdaniach testowych.

W moim nowym eksperymencie słownik jest za duży i poprawna wersja nie występuje nawet w liście 1000 najlepszych hipotez. Pojawiają się też problemy z samą pracą HTK. Przy 100 zdaniach testowych, rozpoznanie trwa długo i na niektórych, zwłaszcza dłuższych zdaniach zawiesza się, jeśli chcemy uzyskać długą listę możliwych hipotez z prawdopodobieństwami.

Porzuciłem więc na razie ten plan badań. Udało mi się uzyskać lepsze wyniki z wcześniejszym zestawem testowym poprzez użycie większego zestawu ćwiczeniowego. Zacząłem używać jako oceny jakości średniej pozycji poprawnego rozpoznania w liście hipotez. Wedle tej miary, korzystając z pełnej listy literatury do wyliczenia statystyk, uzyskałem następujące rezultaty: LSA obniżyło rozpoznanie o 19%, a moja metoda worka słów podniosła rozpoznanie o 14% w porównaniu do stosowania wyłącznie modelu akustycznego.

Brak komentarzy: