Stała praca naukowo-badawcza z zakresu przetwarzania sygnałów dla studenta V roku lub absolwenta Elektroniki AGH (ew. innego z dobrym przygotowaniem z DSP).
Wymagania:
- wysoka średnia ze studiów,
- biegła znajomość MATLABA,
- zamiłowanie do eksperymentów komputerowych.
Wynagrodzenie ponad 2,5 tysiąca zł miesięcznie.
Tel: +12 617 3048 lub email: ziolko na serwerze agh.
google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
8 lut 2009
3 lut 2009
Przygotowania do obrony doktoratu
W Anglii tak jak i w Polsce ma się 2 recenzentów, jednego z własnej uczelni, drugiego zewnętrznego. Moi recenzenci zostali już potwierdzeni, a obrona jest zaplanowana na godzinę 2.00 czasu brytyjskiego 11 marca, 2009 roku.
Moim zewnętrznym recenzentem jest pracujący w Carnegie Mellon University Alan Black. Jest znany głównie z zagadnień związanych z syntezą mowy, choć zajmuje się również wieloma innymi projektami dotyczącymi mowy i języka naturalnego.
Wewnętrznym recenzentem jest Adrian Bors, zajmujący się obecnie głównie grafiką trójwymiarową. Prowadził wieloletnie badania w dziedzinie klasyfikacji wzorców, np. przy zastosowaniu sieci neuronowych.
Obrona w Anglii trwa zwykle około 3 godzin i jest egzaminem bez udziału kogokolwiek poza kandydatem i recenzentami. Teoretycznie kandydat ma prawo przynieść ze sobą dowolną ilość książek i artykułów, ale promotor powiedział mi, że raczej się tego nie praktykuje i żebym tak nie robił. Obrona doktoratu w Anglii uchodzi za jedną z najtrudniejszych na świecie, ale oczywiście jestem dobrej myśli.
Moim zewnętrznym recenzentem jest pracujący w Carnegie Mellon University Alan Black. Jest znany głównie z zagadnień związanych z syntezą mowy, choć zajmuje się również wieloma innymi projektami dotyczącymi mowy i języka naturalnego.
Wewnętrznym recenzentem jest Adrian Bors, zajmujący się obecnie głównie grafiką trójwymiarową. Prowadził wieloletnie badania w dziedzinie klasyfikacji wzorców, np. przy zastosowaniu sieci neuronowych.
Obrona w Anglii trwa zwykle około 3 godzin i jest egzaminem bez udziału kogokolwiek poza kandydatem i recenzentami. Teoretycznie kandydat ma prawo przynieść ze sobą dowolną ilość książek i artykułów, ale promotor powiedział mi, że raczej się tego nie praktykuje i żebym tak nie robił. Obrona doktoratu w Anglii uchodzi za jedną z najtrudniejszych na świecie, ale oczywiście jestem dobrej myśli.
28 sty 2009
Cyfronet
Coraz więcej naszych obliczeń przeprowadzanych jest na komputerach dużej mocy w Cyfronecie. W związku z tym postanowiłem przedstawić zakres naszej działalności i dowiedzieć się więcej na temat możliwości sprzętu Cyfronetu w trakcie Konferencji Użytkowników Komputerów Dużej Mocy 12-13 marca 2009 roku.
Zgłoszono na konferencję 32 prezentacje, które dotyczą obliczeń w najróżniejszych dziedzinach. Duża część prac jest z wydziału EAIiE AGH, ale będą też prezentowane prace np: chemików i geologów.
Zgłoszono na konferencję 32 prezentacje, które dotyczą obliczeń w najróżniejszych dziedzinach. Duża część prac jest z wydziału EAIiE AGH, ale będą też prezentowane prace np: chemików i geologów.
5 sty 2009
Modelowanie niepozycyjne
Mój artykuł "Bag-of-words Modelling for Speech Recognition" został przyjęty na konferencję International Conference on Future Computer and Communication (ICFCC 2009) w Kuala Lumpur. Lecę tam w kwietniu. Nigdy nie byłem jeszcze w Malezji, może więc uda mi się wziąć urlop i zostać tam trochę dłużej.
W artykule opisuję opracowaną przeze mnie metodę modelowania semantycznego przy użyciu macierzy opisującej relacje słowo - temat. Jest to rozwinięta wersja algorytmu zaprezentowanego na Speech Analysis, Synthesis and Recognition. Applications in Systems for Homeland Security w Piechowicach. Usprawnienia są nieznaczne i dotyczą normalizacji. Główną nowością jest zaprezentowanie pozytywnych wyników na praktycznych danych w dużej skali z w pełni rozdzielonymi zestawami do ćwiczenia i testowania, które potwierdzają, że moja metoda jest lepsza od LSA.
W artykule opisuję opracowaną przeze mnie metodę modelowania semantycznego przy użyciu macierzy opisującej relacje słowo - temat. Jest to rozwinięta wersja algorytmu zaprezentowanego na Speech Analysis, Synthesis and Recognition. Applications in Systems for Homeland Security w Piechowicach. Usprawnienia są nieznaczne i dotyczą normalizacji. Główną nowością jest zaprezentowanie pozytywnych wyników na praktycznych danych w dużej skali z w pełni rozdzielonymi zestawami do ćwiczenia i testowania, które potwierdzają, że moja metoda jest lepsza od LSA.
18 gru 2008
Konferencje dotyczące rozpoznawania mowy w nadchodzącym roku
Poniżej przedstawiam spis konferencji dotyczących rozpoznawania mowy, które udało mi się odszukać (Nazwa konferencji, Termin konferencji, Miejsce, Termin zgłoszenia, Termin akceptacji).
2009 International Conference on Future Computer and Communication (ICFCC 2009) 3-5.IV Kuala Lumpur, Malaysia 10.XII 30.XII
The 8th IEEE/ACIS International Conference on Computer and Information Science 1-3.VI Szanghaj 24.XII 23.I
2nd IEEE International Conference on Human System Interaction 21-23 V Catania, Italy 15.I 9.II
International Conference on Man-Machine Interactions 25-27 IX Kocierz 30.I 15.III
13th International Conference on Speech and Computer SPECOM'2009 21-25.VI St. Petersburg 1.II 1.III
EUSIPCO 2009 24-28 VII Glasgow 6.II 30.IV
International Joint Conference Intelligent Information Systems 16-18 VI Kraków 16.II 6.IV
International Conference on Signal Processing and Multimedia Applications 7-10 VII Milan 17.II 16.IV
The First International Conference on Advances in Multimedia 20-25 VII Colmar, France 20.II 25.III
The Second International Conference on Communication Theory, Reliability, and Quality of Service 20-25 VII Colmar, France 20.II 25.III
AN ISCA TUTORIAL AND RESEARCH WORKSHOP ON NON-LINEAR SPEECH PROCESSING 25-27 VI Vic 15.III 30.IV
2009 International Conference on
Affective Computing & Intelligent Interaction (ACII 2009) 10-12.IX Amsterdam 23.III 1.VI
IEEE Workshop on Statistical Signal Processing 31 VII- 3 IX Cardiff 14.IV 15.VI
Interspeech 2009 6-10 IX Brighton 17.IV 24.VI
RANLP-09 RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING Borovets, Bulgaria IV/V
Third IEEE International Conference on Semantic Computing 14-16.IX Berkeley, USA 1.V ?
KKZMwBiM 15-19 IX Szczyrk 9.V
International Conference on Signal and Image Processing 23-25 IX Heidelberg 25.V 22.VI
International Conference on Signal and Image Processing 23-25 IX Amsterdam 30.V 31.VI
The International Conference on Computer Science and Applications 2009 20-22.10 San Francisco 2.VI
ICASSP 2010 15-19.III.2010 Dallas, Texas USA
2009 International Conference on Future Computer and Communication (ICFCC 2009) 3-5.IV Kuala Lumpur, Malaysia 10.XII 30.XII
The 8th IEEE/ACIS International Conference on Computer and Information Science 1-3.VI Szanghaj 24.XII 23.I
2nd IEEE International Conference on Human System Interaction 21-23 V Catania, Italy 15.I 9.II
International Conference on Man-Machine Interactions 25-27 IX Kocierz 30.I 15.III
13th International Conference on Speech and Computer SPECOM'2009 21-25.VI St. Petersburg 1.II 1.III
EUSIPCO 2009 24-28 VII Glasgow 6.II 30.IV
International Joint Conference Intelligent Information Systems 16-18 VI Kraków 16.II 6.IV
International Conference on Signal Processing and Multimedia Applications 7-10 VII Milan 17.II 16.IV
The First International Conference on Advances in Multimedia 20-25 VII Colmar, France 20.II 25.III
The Second International Conference on Communication Theory, Reliability, and Quality of Service 20-25 VII Colmar, France 20.II 25.III
AN ISCA TUTORIAL AND RESEARCH WORKSHOP ON NON-LINEAR SPEECH PROCESSING 25-27 VI Vic 15.III 30.IV
2009 International Conference on
Affective Computing & Intelligent Interaction (ACII 2009) 10-12.IX Amsterdam 23.III 1.VI
IEEE Workshop on Statistical Signal Processing 31 VII- 3 IX Cardiff 14.IV 15.VI
Interspeech 2009 6-10 IX Brighton 17.IV 24.VI
RANLP-09 RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING Borovets, Bulgaria IV/V
Third IEEE International Conference on Semantic Computing 14-16.IX Berkeley, USA 1.V ?
KKZMwBiM 15-19 IX Szczyrk 9.V
International Conference on Signal and Image Processing 23-25 IX Heidelberg 25.V 22.VI
International Conference on Signal and Image Processing 23-25 IX Amsterdam 30.V 31.VI
The International Conference on Computer Science and Applications 2009 20-22.10 San Francisco 2.VI
ICASSP 2010 15-19.III.2010 Dallas, Texas USA
15 gru 2008
Liczenie statystyk słów i trifonów
Moją główną działalnością badawczą jest obecnie nadzorowanie liczenia statystyk językowych. Zajmujemy się dwoma rodzajami statystyk. Pierwszy to wystąpienia trifonów, potrzebne do rozpoznawania słów nieistniejących w słowniku, takich jak nazwiska i adresy. Drugim zastosowaniem jest przydatność listy wszystkich możliwych trifonów przy szkoleniu modelów akustycznych.
Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.
Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.
Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.
Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.
Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.
Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.
26 lis 2008
Doktorat ukończony
W piątek 21 listopada, mój kolega Pierre złożył w Yorku moją pracę doktorską. W ostatecznej wersji mój doktorat zawiera 3 rozdziały badawcze i analizę literatury.
Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.
W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.
Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.
W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.
Ostatni rozdział badawczy poświęciłem jest modelom językowym. Przedstawiłem propozycję modelu opartego o POS tagger dr Piaseckiego, który okazał się nieskuteczny w zastosowaniach do rozpoznawania mowy. Większość rozdziału opisuje model podobny do LSA, wykorzystujący macierz słowa-tematy, zawierającą dane statystyczne zdań w języku polskim. Macierz nie zachowuje informacji o kolejności słów w zdaniu, a jedynie o występowaniu konkretnych słów razem w jednym zdaniu. Nowa, konkurencyjna w stosunku do LSA, metoda rozmywania danych w macierzy jest główną nowością i sukcesem w tym modelu.
Subskrybuj:
Posty (Atom)