Rozpoznawanie Mowy

8 lut 2009

Oferta pracy

Stała praca naukowo-badawcza z zakresu przetwarzania sygnałów dla studenta V roku lub absolwenta Elektroniki AGH (ew. innego z dobrym przygotowaniem z DSP).

Wymagania:
- wysoka średnia ze studiów,
- biegła znajomość MATLABA,
- zamiłowanie do eksperymentów komputerowych.

Wynagrodzenie ponad 2,5 tysiąca zł miesięcznie.

Tel: +12 617 3048 lub email: ziolko na serwerze agh.

3 lut 2009

Przygotowania do obrony doktoratu

W Anglii tak jak i w Polsce ma się 2 recenzentów, jednego z własnej uczelni, drugiego zewnętrznego. Moi recenzenci zostali już potwierdzeni, a obrona jest zaplanowana na godzinę 2.00 czasu brytyjskiego 11 marca, 2009 roku.

Moim zewnętrznym recenzentem jest pracujący w Carnegie Mellon University Alan Black. Jest znany głównie z zagadnień związanych z syntezą mowy, choć zajmuje się również wieloma innymi projektami dotyczącymi mowy i języka naturalnego.

Wewnętrznym recenzentem jest Adrian Bors, zajmujący się obecnie głównie grafiką trójwymiarową. Prowadził wieloletnie badania w dziedzinie klasyfikacji wzorców, np. przy zastosowaniu sieci neuronowych.

Obrona w Anglii trwa zwykle około 3 godzin i jest egzaminem bez udziału kogokolwiek poza kandydatem i recenzentami. Teoretycznie kandydat ma prawo przynieść ze sobą dowolną ilość książek i artykułów, ale promotor powiedział mi, że raczej się tego nie praktykuje i żebym tak nie robił. Obrona doktoratu w Anglii uchodzi za jedną z najtrudniejszych na świecie, ale oczywiście jestem dobrej myśli.

28 sty 2009

Cyfronet

Coraz więcej naszych obliczeń przeprowadzanych jest na komputerach dużej mocy w Cyfronecie. W związku z tym postanowiłem przedstawić zakres naszej działalności i dowiedzieć się więcej na temat możliwości sprzętu Cyfronetu w trakcie Konferencji Użytkowników Komputerów Dużej Mocy 12-13 marca 2009 roku.

Zgłoszono na konferencję 32 prezentacje, które dotyczą obliczeń w najróżniejszych dziedzinach. Duża część prac jest z wydziału EAIiE AGH, ale będą też prezentowane prace np: chemików i geologów.

5 sty 2009

Modelowanie niepozycyjne

Mój artykuł "Bag-of-words Modelling for Speech Recognition" został przyjęty na konferencję International Conference on Future Computer and Communication (ICFCC 2009) w Kuala Lumpur. Lecę tam w kwietniu. Nigdy nie byłem jeszcze w Malezji, może więc uda mi się wziąć urlop i zostać tam trochę dłużej.

W artykule opisuję opracowaną przeze mnie metodę modelowania semantycznego przy użyciu macierzy opisującej relacje słowo - temat. Jest to rozwinięta wersja algorytmu zaprezentowanego na Speech Analysis, Synthesis and Recognition. Applications in Systems for Homeland Security w Piechowicach. Usprawnienia są nieznaczne i dotyczą normalizacji. Główną nowością jest zaprezentowanie pozytywnych wyników na praktycznych danych w dużej skali z w pełni rozdzielonymi zestawami do ćwiczenia i testowania, które potwierdzają, że moja metoda jest lepsza od LSA.

18 gru 2008

Konferencje dotyczące rozpoznawania mowy w nadchodzącym roku

15 gru 2008

Liczenie statystyk słów i trifonów

Moją główną działalnością badawczą jest obecnie nadzorowanie liczenia statystyk językowych. Zajmujemy się dwoma rodzajami statystyk. Pierwszy to wystąpienia trifonów, potrzebne do rozpoznawania słów nieistniejących w słowniku, takich jak nazwiska i adresy. Drugim zastosowaniem jest przydatność listy wszystkich możliwych trifonów przy szkoleniu modelów akustycznych.

Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.

Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.

Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.

26 lis 2008

Doktorat ukończony

W piątek 21 listopada, mój kolega Pierre złożył w Yorku moją pracę doktorską. W ostatecznej wersji mój doktorat zawiera 3 rozdziały badawcze i analizę literatury.

Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.

W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.

Ostatni rozdział badawczy poświęciłem jest modelom językowym. Przedstawiłem propozycję modelu opartego o POS tagger dr Piaseckiego, który okazał się nieskuteczny w zastosowaniach do rozpoznawania mowy. Większość rozdziału opisuje model podobny do LSA, wykorzystujący macierz słowa-tematy, zawierającą dane statystyczne zdań w języku polskim. Macierz nie zachowuje informacji o kolejności słów w zdaniu, a jedynie o występowaniu konkretnych słów razem w jednym zdaniu. Nowa, konkurencyjna w stosunku do LSA, metoda rozmywania danych w macierzy jest główną nowością i sukcesem w tym modelu.