28 sty 2009
Cyfronet
Zgłoszono na konferencję 32 prezentacje, które dotyczą obliczeń w najróżniejszych dziedzinach. Duża część prac jest z wydziału EAIiE AGH, ale będą też prezentowane prace np: chemików i geologów.
5 sty 2009
Modelowanie niepozycyjne
W artykule opisuję opracowaną przeze mnie metodę modelowania semantycznego przy użyciu macierzy opisującej relacje słowo - temat. Jest to rozwinięta wersja algorytmu zaprezentowanego na Speech Analysis, Synthesis and Recognition. Applications in Systems for Homeland Security w Piechowicach. Usprawnienia są nieznaczne i dotyczą normalizacji. Główną nowością jest zaprezentowanie pozytywnych wyników na praktycznych danych w dużej skali z w pełni rozdzielonymi zestawami do ćwiczenia i testowania, które potwierdzają, że moja metoda jest lepsza od LSA.
18 gru 2008
Konferencje dotyczące rozpoznawania mowy w nadchodzącym roku
2009 International Conference on Future Computer and Communication (ICFCC 2009) 3-5.IV Kuala Lumpur, Malaysia 10.XII 30.XII
The 8th IEEE/ACIS International Conference on Computer and Information Science 1-3.VI Szanghaj 24.XII 23.I
2nd IEEE International Conference on Human System Interaction 21-23 V Catania, Italy 15.I 9.II
International Conference on Man-Machine Interactions 25-27 IX Kocierz 30.I 15.III
13th International Conference on Speech and Computer SPECOM'2009 21-25.VI St. Petersburg 1.II 1.III
EUSIPCO 2009 24-28 VII Glasgow 6.II 30.IV
International Joint Conference Intelligent Information Systems 16-18 VI Kraków 16.II 6.IV
International Conference on Signal Processing and Multimedia Applications 7-10 VII Milan 17.II 16.IV
The First International Conference on Advances in Multimedia 20-25 VII Colmar, France 20.II 25.III
The Second International Conference on Communication Theory, Reliability, and Quality of Service 20-25 VII Colmar, France 20.II 25.III
AN ISCA TUTORIAL AND RESEARCH WORKSHOP ON NON-LINEAR SPEECH PROCESSING 25-27 VI Vic 15.III 30.IV
2009 International Conference on
Affective Computing & Intelligent Interaction (ACII 2009) 10-12.IX Amsterdam 23.III 1.VI
IEEE Workshop on Statistical Signal Processing 31 VII- 3 IX Cardiff 14.IV 15.VI
Interspeech 2009 6-10 IX Brighton 17.IV 24.VI
RANLP-09 RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING Borovets, Bulgaria IV/V
Third IEEE International Conference on Semantic Computing 14-16.IX Berkeley, USA 1.V ?
KKZMwBiM 15-19 IX Szczyrk 9.V
International Conference on Signal and Image Processing 23-25 IX Heidelberg 25.V 22.VI
International Conference on Signal and Image Processing 23-25 IX Amsterdam 30.V 31.VI
The International Conference on Computer Science and Applications 2009 20-22.10 San Francisco 2.VI
ICASSP 2010 15-19.III.2010 Dallas, Texas USA
15 gru 2008
Liczenie statystyk słów i trifonów
Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.
Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.
Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.
26 lis 2008
Doktorat ukończony
Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.
W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.
Ostatni rozdział badawczy poświęciłem jest modelom językowym. Przedstawiłem propozycję modelu opartego o POS tagger dr Piaseckiego, który okazał się nieskuteczny w zastosowaniach do rozpoznawania mowy. Większość rozdziału opisuje model podobny do LSA, wykorzystujący macierz słowa-tematy, zawierającą dane statystyczne zdań w języku polskim. Macierz nie zachowuje informacji o kolejności słów w zdaniu, a jedynie o występowaniu konkretnych słów razem w jednym zdaniu. Nowa, konkurencyjna w stosunku do LSA, metoda rozmywania danych w macierzy jest główną nowością i sukcesem w tym modelu.
1 lis 2008
Nagrody Fundacji na rzecz Nauki Polskiej 2008
„Prof. Andrzej Jajszczyk urodził się w 1952 r. w Dęblinie. Jest absolwentem Politechniki Poznańskiej, a obecnie profesorem Akademii Górniczo-Hutniczej w Krakowie. Specjalizuje się w sieciach i węzłach telekomunikacyjnych. W swojej karierze pracował m.in. w University of Adelaide w Australii, Queen's University w Kanadzie oraz Ecole Nationale Supérieure des Télécommunications de Bretagne we Francji. Kierował bądź kieruje polskimi zespołami w kilkunastu projektach badawczych Unii Europejskiej. Jest ekspertem Komisji Europejskiej w obszarze telekomunikacji.
Nagrodę FNP otrzymał za wybitny wkład w rozwój technik budowy Internetu nowej generacji. Zdaniem jurorów, przyczynił się do uporządkowania teorii telekomunikacji przez pionierskie prace w zakresie budowy węzłów szybkich sieci telekomunikacyjnych, w tym sieci optycznych, dotyczące wykorzystania komutatorów scalonych w węzłach sieci telekomunikacyjnych, efektywnych algorytmów sterowania i nowej klasy pól komutacyjnych.”
- PAP
24 paź 2008
HTK a rozpoznawanie mowy z dużym słownikiem
W moim nowym eksperymencie słownik jest za duży i poprawna wersja nie występuje nawet w liście 1000 najlepszych hipotez. Pojawiają się też problemy z samą pracą HTK. Przy 100 zdaniach testowych, rozpoznanie trwa długo i na niektórych, zwłaszcza dłuższych zdaniach zawiesza się, jeśli chcemy uzyskać długą listę możliwych hipotez z prawdopodobieństwami.
Porzuciłem więc na razie ten plan badań. Udało mi się uzyskać lepsze wyniki z wcześniejszym zestawem testowym poprzez użycie większego zestawu ćwiczeniowego. Zacząłem używać jako oceny jakości średniej pozycji poprawnego rozpoznania w liście hipotez. Wedle tej miary, korzystając z pełnej listy literatury do wyliczenia statystyk, uzyskałem następujące rezultaty: LSA obniżyło rozpoznanie o 19%, a moja metoda worka słów podniosła rozpoznanie o 14% w porównaniu do stosowania wyłącznie modelu akustycznego.