W piątek 21 listopada, mój kolega Pierre złożył w Yorku moją pracę doktorską. W ostatecznej wersji mój doktorat zawiera 3 rozdziały badawcze i analizę literatury.
Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.
W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.
Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.
W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.
Ostatni rozdział badawczy poświęciłem jest modelom językowym. Przedstawiłem propozycję modelu opartego o POS tagger dr Piaseckiego, który okazał się nieskuteczny w zastosowaniach do rozpoznawania mowy. Większość rozdziału opisuje model podobny do LSA, wykorzystujący macierz słowa-tematy, zawierającą dane statystyczne zdań w języku polskim. Macierz nie zachowuje informacji o kolejności słów w zdaniu, a jedynie o występowaniu konkretnych słów razem w jednym zdaniu. Nowa, konkurencyjna w stosunku do LSA, metoda rozmywania danych w macierzy jest główną nowością i sukcesem w tym modelu.
Brak komentarzy:
Prześlij komentarz