Rozpoznawanie Mowy: 2008

18 gru 2008

Konferencje dotyczące rozpoznawania mowy w nadchodzącym roku

15 gru 2008

Liczenie statystyk słów i trifonów

Moją główną działalnością badawczą jest obecnie nadzorowanie liczenia statystyk językowych. Zajmujemy się dwoma rodzajami statystyk. Pierwszy to wystąpienia trifonów, potrzebne do rozpoznawania słów nieistniejących w słowniku, takich jak nazwiska i adresy. Drugim zastosowaniem jest przydatność listy wszystkich możliwych trifonów przy szkoleniu modelów akustycznych.

Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.

Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.

Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.

26 lis 2008

Doktorat ukończony

W piątek 21 listopada, mój kolega Pierre złożył w Yorku moją pracę doktorską. W ostatecznej wersji mój doktorat zawiera 3 rozdziały badawcze i analizę literatury.

Pierwszy rozdział łączy elementy lingwistyczne moich badań. Dokonałem porównania języka angielskiego i polskiego pod kątem rozpoznawania mowy. W nim także zawarłem statystyki fonemów, difonów i trifonów w języku polskim oraz rezultaty stosowania HTK na języku polskim wraz z dokładną analizą błędów.

W kolejnym rozdziale opisuję segmentację sygnału mowy na fonemy przy zastosowaniu dyskretnej transformacji falkowej. Porównałem ją do segmentacji w oparciu o SVM i klasyfikator LogitBoost WEKA. Omówiłem także zagadnienie oceniania segmentacji i przedstawiłem propozycje zmian w tym zakresie dotyczące stosowania logiki rozmytej.

Ostatni rozdział badawczy poświęciłem jest modelom językowym. Przedstawiłem propozycję modelu opartego o POS tagger dr Piaseckiego, który okazał się nieskuteczny w zastosowaniach do rozpoznawania mowy. Większość rozdziału opisuje model podobny do LSA, wykorzystujący macierz słowa-tematy, zawierającą dane statystyczne zdań w języku polskim. Macierz nie zachowuje informacji o kolejności słów w zdaniu, a jedynie o występowaniu konkretnych słów razem w jednym zdaniu. Nowa, konkurencyjna w stosunku do LSA, metoda rozmywania danych w macierzy jest główną nowością i sukcesem w tym modelu.

1 lis 2008

Nagrody Fundacji na rzecz Nauki Polskiej 2008

„Prof. Andrzej Jajszczyk urodził się w 1952 r. w Dęblinie. Jest absolwentem Politechniki Poznańskiej, a obecnie profesorem Akademii Górniczo-Hutniczej w Krakowie. Specjalizuje się w sieciach i węzłach telekomunikacyjnych. W swojej karierze pracował m.in. w University of Adelaide w Australii, Queen's University w Kanadzie oraz Ecole Nationale Supérieure des Télécommunications de Bretagne we Francji. Kierował bądź kieruje polskimi zespołami w kilkunastu projektach badawczych Unii Europejskiej. Jest ekspertem Komisji Europejskiej w obszarze telekomunikacji.

Nagrodę FNP otrzymał za wybitny wkład w rozwój technik budowy Internetu nowej generacji. Zdaniem jurorów, przyczynił się do uporządkowania teorii telekomunikacji przez pionierskie prace w zakresie budowy węzłów szybkich sieci telekomunikacyjnych, w tym sieci optycznych, dotyczące wykorzystania komutatorów scalonych w węzłach sieci telekomunikacyjnych, efektywnych algorytmów sterowania i nowej klasy pól komutacyjnych.”
- PAP

http://www.naukawpolsce.pap.pl

24 paź 2008

HTK a rozpoznawanie mowy z dużym słownikiem

HTK wydaje się nie być aż tak LARGE vocabulary jak jest promowane. Oczywiście wynika to po części z tego, że nie wykorzystuję modelu językowego HTK. Jest on jednak moim zdaniem zbyt uzależniony od ustawień robionych ręcznie przez człowieka i poprzez swoją zależność od kolejności słów w strukturze zdania nie przystosowany do realiów języka polskiego. Gdy rozmawiałem z profesorem Woodlandem mówił o bardzo łatwym do wyszkoleniu modelu opartym na n-gramie. Nie potrafiłem go jednak odnaleźć i wydaje mi się, że miał on na myśli model który szkoli się na zdaniach testowych.

W moim nowym eksperymencie słownik jest za duży i poprawna wersja nie występuje nawet w liście 1000 najlepszych hipotez. Pojawiają się też problemy z samą pracą HTK. Przy 100 zdaniach testowych, rozpoznanie trwa długo i na niektórych, zwłaszcza dłuższych zdaniach zawiesza się, jeśli chcemy uzyskać długą listę możliwych hipotez z prawdopodobieństwami.

Porzuciłem więc na razie ten plan badań. Udało mi się uzyskać lepsze wyniki z wcześniejszym zestawem testowym poprzez użycie większego zestawu ćwiczeniowego. Zacząłem używać jako oceny jakości średniej pozycji poprawnego rozpoznania w liście hipotez. Wedle tej miary, korzystając z pełnej listy literatury do wyliczenia statystyk, uzyskałem następujące rezultaty: LSA obniżyło rozpoznanie o 19%, a moja metoda worka słów podniosła rozpoznanie o 14% w porównaniu do stosowania wyłącznie modelu akustycznego.

6 paź 2008

Model języka polskiego oparty na macierzy words-topics

Dzisiaj zaczynam kolejny etap moich badań naukowych na temat rozpoznawania mowy. Ponieważ zostałem zatrudniony przez polską uczelnię, a dokładniej AGH i Polską Platformę Bezpieczeństwa Wewnętrznego postanowiłem prowadzić bloga po polsku na temat rozpoznawania mowy. Będę zamieszczał tu postępy moich badań oraz różne nowinki na temat rozpoznawania mowy i tematów pokrewnych w Polsce i za granicą.

W tej chwili moja praca badawcza skupia się na powtórzeniu eksperymentu z Yorku, który ma zakończyć mój doktorat. Celem jest utworzenie metody na modelowanie języka polskiego na potrzeby systemu rozpoznawania mowy. Założeniem podstawowym jest, że w języku polskim kolejność słów nie jest kluczowa i zdanie może być analizowane jako zbiór słów. Zawartość tego zbioru jest uzależniona od tematyki i form gramatycznych zdania i dlatego można przyporządkować prawdopodobieństwo wystąpienia konkretnego słowa w zdaniu na podstawie innych słów w tym zdaniu.

Eksperyment który teraz zaczynam, będzie przeprowadzony dla 100 testowych zdań, słownika słów zawartych w tych zdaniach i około 2,5 GB tekstu użytego do zliczenia potrzebnych statystyk. Użytym modelem akustycznym jest HTK z Cambridge. Część zdań wymyśliłem sam wybierając słowa które bardzo licznie występują w dostępnych transkrypcjach sejmu RP, inne to fragmenty piosenek Kaczmarskiego oraz przemówień Piłsudskiego i Balcerowicza.

platforma obywatelska wymaga funkcjonowania klubu w czasie obrad sejmu
dlaczego poseL wojciech polega na opinii zarzAdu
Latwo skierowaC czynnoSci do sAdu
wniosek rolniczego zwiAzku znajduje siE w ministerstwie
projekt samorzAdu ma wysokie oczekiwania finansowe
fundusz spoLeczny podjAL dziaLania w ramach obecnego prawa cywilnego
koalicja chce komisji sejmowej do oceny dziaLalnoSci posLa jana
dzisiaj piEC paN poprze ministra w waZnym gLosowaniu w sejmie
posel ludwik dorn byl na waZnym gLosowaniu po duZym posiLku
bOg ocenia polskE za powaZne przestEpstwa sektora finansowego w kraju i za granicA
poseL tadeusz cymaNski faktycznie wyraziL sprzeciw wobec rozwoju paNstwa polskiego
tak mi dopomOZ bOg
poseL andrzej lepper zajmuje siE rzAdem jak nikt inny
uchwaLa rzAdowa dotyczAca handlu i inwestycji przedsiEbiorstw paNstwowych w rynek nieruchomoSci
panie marszaLku wysoka izbo
poseL ludwik dorn chce podziEkowaC komisji
bezpieczeNstwo jest bardzo waZne
minister Srodowiska powiedziaL waZne rzeczy
narOd rzeczpospolitej polskiej chce pieniEdzy
rodziny powinny byC najwaZniejsze
resort bezpieczeNstwa ma wysokie uprawnienia
odpowiednie uprawnienia sA bardzo waZne
kilkanaScie przedsiEbiorstw potrzebuje nowych dochodOw
poseL andrzej lepper zwrOciL dokumenty do sejmu
krajowa komisja popiera nowA ustawE
narOd rzeczpospolitej polskiej ma waZne oczekiwania od sejmu
praktyka wskazuje co innego
czterech posLow nie mogLo zostaC
na sLuZbie siE pracuje
sprzeciwiam siE
wnoszE o przerwE w obradach
proszE o ciszE
wznowienie obrad nastApi po godzinnej przerwie
to jest skandal
nie pozwolimy na to
obrady przy zamkniEtych drzwiach
matki potrzebujA becikowe
przechodzimy do konkretOw na temat ustawy o ubezpieczeniach spoLecznych
duZA frekwencja w trakcie gLosowania
zgromadzenie narodowe zadecyduje o przyszLoSci tej ustawy
komisja zbierze siE po przerwie
proszE mOwiC wolniej
zacznijmy od budowania podstaw
zgLoszono wiele poprawek do tej ustawy
milczał głos który powinien wszystko wyjaśnić
szły tłumy białe nad umowną krawędż przepaści
tam stali oni i stał on
skrzydła im ścierpły w długiej niewoli
a wokół skroni nie mają już aureoli
udowodniono wszystkim bunt i wszyscy będą dzisiaj sądzeni
niektórzy dumnie preżą kark gdy w dół ich miecz ognisty spycha
tłumaczą w tłumie nie duma to lecz pycha
ich wrzask zagłusza chór anielski
chcą być przeklęci pierwsi
ostatni spadnie pierwszy z nich czerniejąc w locie po koronę
więc egzekucja dokonana
na chwałę pana
samobójcy spokoju nie znają
każdy spotka tego diabła którego się boi
swiat odkrywa na nowo wciąż dramaty moje
śmiejąc się z nich do rozpuku zamiast je zrozumieć
póki trupów było w bród
ponoć w tej sprawie narodowa rada kultury prowadziła już w moskwie pomyślne rozmowy
jeżeli mnie już czerwony czerwonemu sprzeda i ożyję dla hecy na narodowej tacy to już nigdy więcej głosu z siebie nie dam by byle kto wycierał sobie gębę witkacym
ale w zakopanem z góralem nad ranem zupełnie pijany wyjdę w tatry
skulony w jakiejś ciemnej jamie smacznie sobie spałem
spały wilczki dwa zupełnie ślepe jeszcze
wtem stary wilk przewodnik co życie dobrze znał łeb podniósł warknął głucho aż mną szarpnęły dreszcze
poczułem wokół siebie nienawistną woń
Woń która burzy wszelki spokój zrywa wszystkie sny
Z daleka ktoś gdzieś krzyknął krótki rozkaz goń
z czterech stron wypadły na nas cztery gończe psy
obława na młode wilki
te dzikie zapalczywe w gęstym lesie wychowane
krąg śniegu wydeptany w tym kręgu plama krwawa i ciała wilcze kłami gończych psów szarpane
ten który na mnie rzucił się niewiele szczęścia miał bo wpadł prosto mi na kły i krew trysnęła z rany
gdym teraz ile w łapach sił przed siebie prosto gnał ujrzałem młode wilczki na strzępy rozszarpane
zginęły ślepe ufne tak puszyste kłębki dwa bezradne na tym świecie złym nie wiedząc kto je zdławił
zginie wilk przewodnik choć życie dobrze zna bo z trzema na raz walczy psami i z ran trzech naraz krwawi
każdy powinien znać swoje miejsce w szeregu
wybiła godzina rozstrzygająca
polska przestała być niewolnicą i sama chce stanowić o swoim losie sama chce budować swoją przyszłość rzucając na szalę wypadków własną siłę orężną
kadry armii polskiej wkroczyły na ziemie królestwa polskiego zajmując ją na rzecz jej właściwego istotnego jedynego gospodarza ludu polskiego który ją swą krwawicą użyźnił i wzbogacił
zajmują ją w imieniu władzy naczelnej rządu narodowego
niesiemy całemu narodowi rozkucie kajdan poszczególnym zaś jego warstwom warunki moralnego rozwoju
z dniem dzisiejszym cały naród skupić się winien w jednym obozie pod kierownictwem rządu narodowego
43. poza tym obozem zostaną tylko zdrajcy dla których potrafimy być bezwzględni
społeczne koszty inflacji są znane ludziom od stuleci
uporczywie wysoka inflacja w czasach pokoju jest zjawiskiem świeżej daty
polska doświadczyła takiej katastrofy na początku lat dwudziestych i ponownie w tysiąc dziewięćset osiemdziesiątym dziewiątym roku
socjalizm zostawił w Polsce w owym roku spodlony pieniądz
polska miała pod tym względem dużo gorsze warunki startu niż wymienione kraje
przy niskiej inflacji ruchy konkretnych cen informują o zmianie zapotrzebowania na poszczególne dobra
w warunkach stabilności cen można więc lepiej kalkulować i trafniej wybierać projekty inwestycyjne
w efekcie niska inflacja sprzyja wzrostowi produktywności pracy i kapitału
im niższa jest inflacja tym mniej środków finansowych tracą przedsiębiorstwa wskutek określonych rozwiązań podatkowych
stabilność cen zwiększa finansową zdolność przedsiębiorstw do inwestowania
wysoka inflacja nakłada na przedsiębiorstwa niewidoczny podstępny podatek
ludzie ubożsi mają dużo mniejsze możliwości niż zamożni aby uchronić przed inflacją swoje skromne oszczędności