18 gru 2008
Konferencje dotyczące rozpoznawania mowy w nadchodzącym roku
2009 International Conference on Future Computer and Communication (ICFCC 2009) 3-5.IV Kuala Lumpur, Malaysia 10.XII 30.XII
The 8th IEEE/ACIS International Conference on Computer and Information Science 1-3.VI Szanghaj 24.XII 23.I
2nd IEEE International Conference on Human System Interaction 21-23 V Catania, Italy 15.I 9.II
International Conference on Man-Machine Interactions 25-27 IX Kocierz 30.I 15.III
13th International Conference on Speech and Computer SPECOM'2009 21-25.VI St. Petersburg 1.II 1.III
EUSIPCO 2009 24-28 VII Glasgow 6.II 30.IV
International Joint Conference Intelligent Information Systems 16-18 VI Kraków 16.II 6.IV
International Conference on Signal Processing and Multimedia Applications 7-10 VII Milan 17.II 16.IV
The First International Conference on Advances in Multimedia 20-25 VII Colmar, France 20.II 25.III
The Second International Conference on Communication Theory, Reliability, and Quality of Service 20-25 VII Colmar, France 20.II 25.III
AN ISCA TUTORIAL AND RESEARCH WORKSHOP ON NON-LINEAR SPEECH PROCESSING 25-27 VI Vic 15.III 30.IV
2009 International Conference on
Affective Computing & Intelligent Interaction (ACII 2009) 10-12.IX Amsterdam 23.III 1.VI
IEEE Workshop on Statistical Signal Processing 31 VII- 3 IX Cardiff 14.IV 15.VI
Interspeech 2009 6-10 IX Brighton 17.IV 24.VI
RANLP-09 RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING Borovets, Bulgaria IV/V
Third IEEE International Conference on Semantic Computing 14-16.IX Berkeley, USA 1.V ?
KKZMwBiM 15-19 IX Szczyrk 9.V
International Conference on Signal and Image Processing 23-25 IX Heidelberg 25.V 22.VI
International Conference on Signal and Image Processing 23-25 IX Amsterdam 30.V 31.VI
The International Conference on Computer Science and Applications 2009 20-22.10 San Francisco 2.VI
ICASSP 2010 15-19.III.2010 Dallas, Texas USA
15 gru 2008
Liczenie statystyk słów i trifonów
Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.
Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.
Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.
26 lis 2008
Doktorat ukończony
Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.
W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.
Ostatni rozdział badawczy poświęciłem jest modelom językowym. Przedstawiłem propozycję modelu opartego o POS tagger dr Piaseckiego, który okazał się nieskuteczny w zastosowaniach do rozpoznawania mowy. Większość rozdziału opisuje model podobny do LSA, wykorzystujący macierz słowa-tematy, zawierającą dane statystyczne zdań w języku polskim. Macierz nie zachowuje informacji o kolejności słów w zdaniu, a jedynie o występowaniu konkretnych słów razem w jednym zdaniu. Nowa, konkurencyjna w stosunku do LSA, metoda rozmywania danych w macierzy jest główną nowością i sukcesem w tym modelu.
1 lis 2008
Nagrody Fundacji na rzecz Nauki Polskiej 2008
„Prof. Andrzej Jajszczyk urodził się w 1952 r. w Dęblinie. Jest absolwentem Politechniki Poznańskiej, a obecnie profesorem Akademii Górniczo-Hutniczej w Krakowie. Specjalizuje się w sieciach i węzłach telekomunikacyjnych. W swojej karierze pracował m.in. w University of Adelaide w Australii, Queen's University w Kanadzie oraz Ecole Nationale Supérieure des Télécommunications de Bretagne we Francji. Kierował bądź kieruje polskimi zespołami w kilkunastu projektach badawczych Unii Europejskiej. Jest ekspertem Komisji Europejskiej w obszarze telekomunikacji.
Nagrodę FNP otrzymał za wybitny wkład w rozwój technik budowy Internetu nowej generacji. Zdaniem jurorów, przyczynił się do uporządkowania teorii telekomunikacji przez pionierskie prace w zakresie budowy węzłów szybkich sieci telekomunikacyjnych, w tym sieci optycznych, dotyczące wykorzystania komutatorów scalonych w węzłach sieci telekomunikacyjnych, efektywnych algorytmów sterowania i nowej klasy pól komutacyjnych.”
- PAP
24 paź 2008
HTK a rozpoznawanie mowy z dużym słownikiem
W moim nowym eksperymencie słownik jest za duży i poprawna wersja nie występuje nawet w liście 1000 najlepszych hipotez. Pojawiają się też problemy z samą pracą HTK. Przy 100 zdaniach testowych, rozpoznanie trwa długo i na niektórych, zwłaszcza dłuższych zdaniach zawiesza się, jeśli chcemy uzyskać długą listę możliwych hipotez z prawdopodobieństwami.
Porzuciłem więc na razie ten plan badań. Udało mi się uzyskać lepsze wyniki z wcześniejszym zestawem testowym poprzez użycie większego zestawu ćwiczeniowego. Zacząłem używać jako oceny jakości średniej pozycji poprawnego rozpoznania w liście hipotez. Wedle tej miary, korzystając z pełnej listy literatury do wyliczenia statystyk, uzyskałem następujące rezultaty: LSA obniżyło rozpoznanie o 19%, a moja metoda worka słów podniosła rozpoznanie o 14% w porównaniu do stosowania wyłącznie modelu akustycznego.
6 paź 2008
Model języka polskiego oparty na macierzy words-topics
W tej chwili moja praca badawcza skupia się na powtórzeniu eksperymentu z Yorku, który ma zakończyć mój doktorat. Celem jest utworzenie metody na modelowanie języka polskiego na potrzeby systemu rozpoznawania mowy. Założeniem podstawowym jest, że w języku polskim kolejność słów nie jest kluczowa i zdanie może być analizowane jako zbiór słów. Zawartość tego zbioru jest uzależniona od tematyki i form gramatycznych zdania i dlatego można przyporządkować prawdopodobieństwo wystąpienia konkretnego słowa w zdaniu na podstawie innych słów w tym zdaniu.
Eksperyment który teraz zaczynam, będzie przeprowadzony dla 100 testowych zdań, słownika słów zawartych w tych zdaniach i około 2,5 GB tekstu użytego do zliczenia potrzebnych statystyk. Użytym modelem akustycznym jest HTK z Cambridge. Część zdań wymyśliłem sam wybierając słowa które bardzo licznie występują w dostępnych transkrypcjach sejmu RP, inne to fragmenty piosenek Kaczmarskiego oraz przemówień Piłsudskiego i Balcerowicza.
platforma obywatelska wymaga funkcjonowania klubu w czasie obrad sejmu
dlaczego poseL wojciech polega na opinii zarzAdu
Latwo skierowaC czynnoSci do sAdu
wniosek rolniczego zwiAzku znajduje siE w ministerstwie
projekt samorzAdu ma wysokie oczekiwania finansowe
fundusz spoLeczny podjAL dziaLania w ramach obecnego prawa cywilnego
koalicja chce komisji sejmowej do oceny dziaLalnoSci posLa jana
dzisiaj piEC paN poprze ministra w waZnym gLosowaniu w sejmie
posel ludwik dorn byl na waZnym gLosowaniu po duZym posiLku
bOg ocenia polskE za powaZne przestEpstwa sektora finansowego w kraju i za granicA
poseL tadeusz cymaNski faktycznie wyraziL sprzeciw wobec rozwoju paNstwa polskiego
tak mi dopomOZ bOg
poseL andrzej lepper zajmuje siE rzAdem jak nikt inny
uchwaLa rzAdowa dotyczAca handlu i inwestycji przedsiEbiorstw paNstwowych w rynek nieruchomoSci
panie marszaLku wysoka izbo
poseL ludwik dorn chce podziEkowaC komisji
bezpieczeNstwo jest bardzo waZne
minister Srodowiska powiedziaL waZne rzeczy
narOd rzeczpospolitej polskiej chce pieniEdzy
rodziny powinny byC najwaZniejsze
resort bezpieczeNstwa ma wysokie uprawnienia
odpowiednie uprawnienia sA bardzo waZne
kilkanaScie przedsiEbiorstw potrzebuje nowych dochodOw
poseL andrzej lepper zwrOciL dokumenty do sejmu
krajowa komisja popiera nowA ustawE
narOd rzeczpospolitej polskiej ma waZne oczekiwania od sejmu
praktyka wskazuje co innego
czterech posLow nie mogLo zostaC
na sLuZbie siE pracuje
sprzeciwiam siE
wnoszE o przerwE w obradach
proszE o ciszE
wznowienie obrad nastApi po godzinnej przerwie
to jest skandal
nie pozwolimy na to
obrady przy zamkniEtych drzwiach
matki potrzebujA becikowe
przechodzimy do konkretOw na temat ustawy o ubezpieczeniach spoLecznych
duZA frekwencja w trakcie gLosowania
zgromadzenie narodowe zadecyduje o przyszLoSci tej ustawy
komisja zbierze siE po przerwie
proszE mOwiC wolniej
zacznijmy od budowania podstaw
zgLoszono wiele poprawek do tej ustawy
milczał głos który powinien wszystko wyjaśnić
szły tłumy białe nad umowną krawędż przepaści
tam stali oni i stał on
skrzydła im ścierpły w długiej niewoli
a wokół skroni nie mają już aureoli
udowodniono wszystkim bunt i wszyscy będą dzisiaj sądzeni
niektórzy dumnie preżą kark gdy w dół ich miecz ognisty spycha
tłumaczą w tłumie nie duma to lecz pycha
ich wrzask zagłusza chór anielski
chcą być przeklęci pierwsi
ostatni spadnie pierwszy z nich czerniejąc w locie po koronę
więc egzekucja dokonana
na chwałę pana
samobójcy spokoju nie znają
każdy spotka tego diabła którego się boi
swiat odkrywa na nowo wciąż dramaty moje
śmiejąc się z nich do rozpuku zamiast je zrozumieć
póki trupów było w bród
ponoć w tej sprawie narodowa rada kultury prowadziła już w moskwie pomyślne rozmowy
jeżeli mnie już czerwony czerwonemu sprzeda i ożyję dla hecy na narodowej tacy to już nigdy więcej głosu z siebie nie dam by byle kto wycierał sobie gębę witkacym
ale w zakopanem z góralem nad ranem zupełnie pijany wyjdę w tatry
skulony w jakiejś ciemnej jamie smacznie sobie spałem
spały wilczki dwa zupełnie ślepe jeszcze
wtem stary wilk przewodnik co życie dobrze znał łeb podniósł warknął głucho aż mną szarpnęły dreszcze
poczułem wokół siebie nienawistną woń
Woń która burzy wszelki spokój zrywa wszystkie sny
Z daleka ktoś gdzieś krzyknął krótki rozkaz goń
z czterech stron wypadły na nas cztery gończe psy
obława na młode wilki
te dzikie zapalczywe w gęstym lesie wychowane
krąg śniegu wydeptany w tym kręgu plama krwawa i ciała wilcze kłami gończych psów szarpane
ten który na mnie rzucił się niewiele szczęścia miał bo wpadł prosto mi na kły i krew trysnęła z rany
gdym teraz ile w łapach sił przed siebie prosto gnał ujrzałem młode wilczki na strzępy rozszarpane
zginęły ślepe ufne tak puszyste kłębki dwa bezradne na tym świecie złym nie wiedząc kto je zdławił
zginie wilk przewodnik choć życie dobrze zna bo z trzema na raz walczy psami i z ran trzech naraz krwawi
każdy powinien znać swoje miejsce w szeregu
wybiła godzina rozstrzygająca
polska przestała być niewolnicą i sama chce stanowić o swoim losie sama chce budować swoją przyszłość rzucając na szalę wypadków własną siłę orężną
kadry armii polskiej wkroczyły na ziemie królestwa polskiego zajmując ją na rzecz jej właściwego istotnego jedynego gospodarza ludu polskiego który ją swą krwawicą użyźnił i wzbogacił
zajmują ją w imieniu władzy naczelnej rządu narodowego
niesiemy całemu narodowi rozkucie kajdan poszczególnym zaś jego warstwom warunki moralnego rozwoju
z dniem dzisiejszym cały naród skupić się winien w jednym obozie pod kierownictwem rządu narodowego
43. poza tym obozem zostaną tylko zdrajcy dla których potrafimy być bezwzględni
społeczne koszty inflacji są znane ludziom od stuleci
uporczywie wysoka inflacja w czasach pokoju jest zjawiskiem świeżej daty
polska doświadczyła takiej katastrofy na początku lat dwudziestych i ponownie w tysiąc dziewięćset osiemdziesiątym dziewiątym roku
socjalizm zostawił w Polsce w owym roku spodlony pieniądz
polska miała pod tym względem dużo gorsze warunki startu niż wymienione kraje
przy niskiej inflacji ruchy konkretnych cen informują o zmianie zapotrzebowania na poszczególne dobra
w warunkach stabilności cen można więc lepiej kalkulować i trafniej wybierać projekty inwestycyjne
w efekcie niska inflacja sprzyja wzrostowi produktywności pracy i kapitału
im niższa jest inflacja tym mniej środków finansowych tracą przedsiębiorstwa wskutek określonych rozwiązań podatkowych
stabilność cen zwiększa finansową zdolność przedsiębiorstw do inwestowania
wysoka inflacja nakłada na przedsiębiorstwa niewidoczny podstępny podatek
ludzie ubożsi mają dużo mniejsze możliwości niż zamożni aby uchronić przed inflacją swoje skromne oszczędności