Rozpoznawanie Mowy

3 lut 2009

Przygotowania do obrony doktoratu

W Anglii tak jak i w Polsce ma się 2 recenzentów, jednego z własnej uczelni, drugiego zewnętrznego. Moi recenzenci zostali już potwierdzeni, a obrona jest zaplanowana na godzinę 2.00 czasu brytyjskiego 11 marca, 2009 roku.

Moim zewnętrznym recenzentem jest pracujący w Carnegie Mellon University Alan Black. Jest znany głównie z zagadnień związanych z syntezą mowy, choć zajmuje się również wieloma innymi projektami dotyczącymi mowy i języka naturalnego.

Wewnętrznym recenzentem jest Adrian Bors, zajmujący się obecnie głównie grafiką trójwymiarową. Prowadził wieloletnie badania w dziedzinie klasyfikacji wzorców, np. przy zastosowaniu sieci neuronowych.

Obrona w Anglii trwa zwykle około 3 godzin i jest egzaminem bez udziału kogokolwiek poza kandydatem i recenzentami. Teoretycznie kandydat ma prawo przynieść ze sobą dowolną ilość książek i artykułów, ale promotor powiedział mi, że raczej się tego nie praktykuje i żebym tak nie robił. Obrona doktoratu w Anglii uchodzi za jedną z najtrudniejszych na świecie, ale oczywiście jestem dobrej myśli.

28 sty 2009

Cyfronet

Coraz więcej naszych obliczeń przeprowadzanych jest na komputerach dużej mocy w Cyfronecie. W związku z tym postanowiłem przedstawić zakres naszej działalności i dowiedzieć się więcej na temat możliwości sprzętu Cyfronetu w trakcie Konferencji Użytkowników Komputerów Dużej Mocy 12-13 marca 2009 roku.

Zgłoszono na konferencję 32 prezentacje, które dotyczą obliczeń w najróżniejszych dziedzinach. Duża część prac jest z wydziału EAIiE AGH, ale będą też prezentowane prace np: chemików i geologów.

5 sty 2009

Modelowanie niepozycyjne

Mój artykuł "Bag-of-words Modelling for Speech Recognition" został przyjęty na konferencję International Conference on Future Computer and Communication (ICFCC 2009) w Kuala Lumpur. Lecę tam w kwietniu. Nigdy nie byłem jeszcze w Malezji, może więc uda mi się wziąć urlop i zostać tam trochę dłużej.

W artykule opisuję opracowaną przeze mnie metodę modelowania semantycznego przy użyciu macierzy opisującej relacje słowo - temat. Jest to rozwinięta wersja algorytmu zaprezentowanego na Speech Analysis, Synthesis and Recognition. Applications in Systems for Homeland Security w Piechowicach. Usprawnienia są nieznaczne i dotyczą normalizacji. Główną nowością jest zaprezentowanie pozytywnych wyników na praktycznych danych w dużej skali z w pełni rozdzielonymi zestawami do ćwiczenia i testowania, które potwierdzają, że moja metoda jest lepsza od LSA.

18 gru 2008

Konferencje dotyczące rozpoznawania mowy w nadchodzącym roku

15 gru 2008

Liczenie statystyk słów i trifonów

Moją główną działalnością badawczą jest obecnie nadzorowanie liczenia statystyk językowych. Zajmujemy się dwoma rodzajami statystyk. Pierwszy to wystąpienia trifonów, potrzebne do rozpoznawania słów nieistniejących w słowniku, takich jak nazwiska i adresy. Drugim zastosowaniem jest przydatność listy wszystkich możliwych trifonów przy szkoleniu modelów akustycznych.

Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.

Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.

Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.

26 lis 2008

Doktorat ukończony

W piątek 21 listopada, mój kolega Pierre złożył w Yorku moją pracę doktorską. W ostatecznej wersji mój doktorat zawiera 3 rozdziały badawcze i analizę literatury.

Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.

W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.

Ostatni rozdział badawczy poświęciłem jest modelom językowym. Przedstawiłem propozycję modelu opartego o POS tagger dr Piaseckiego, który okazał się nieskuteczny w zastosowaniach do rozpoznawania mowy. Większość rozdziału opisuje model podobny do LSA, wykorzystujący macierz słowa-tematy, zawierającą dane statystyczne zdań w języku polskim. Macierz nie zachowuje informacji o kolejności słów w zdaniu, a jedynie o występowaniu konkretnych słów razem w jednym zdaniu. Nowa, konkurencyjna w stosunku do LSA, metoda rozmywania danych w macierzy jest główną nowością i sukcesem w tym modelu.

1 lis 2008

Nagrody Fundacji na rzecz Nauki Polskiej 2008

„Prof. Andrzej Jajszczyk urodził się w 1952 r. w Dęblinie. Jest absolwentem Politechniki Poznańskiej, a obecnie profesorem Akademii Górniczo-Hutniczej w Krakowie. Specjalizuje się w sieciach i węzłach telekomunikacyjnych. W swojej karierze pracował m.in. w University of Adelaide w Australii, Queen's University w Kanadzie oraz Ecole Nationale Supérieure des Télécommunications de Bretagne we Francji. Kierował bądź kieruje polskimi zespołami w kilkunastu projektach badawczych Unii Europejskiej. Jest ekspertem Komisji Europejskiej w obszarze telekomunikacji.

Nagrodę FNP otrzymał za wybitny wkład w rozwój technik budowy Internetu nowej generacji. Zdaniem jurorów, przyczynił się do uporządkowania teorii telekomunikacji przez pionierskie prace w zakresie budowy węzłów szybkich sieci telekomunikacyjnych, w tym sieci optycznych, dotyczące wykorzystania komutatorów scalonych w węzłach sieci telekomunikacyjnych, efektywnych algorytmów sterowania i nowej klasy pól komutacyjnych.”
- PAP

http://www.naukawpolsce.pap.pl