Rozpoznawanie Mowy

23 cze 2013

Jurisdic

JURISDIC jest korpusem mowy o tematyce prawniczej. Wedle relacji autorów zawiera około 1000 mówców z różnych części Polski. Połowa z nich to nagrania wypowiedzi o charakterze prawniczym z sądów, biur, prokuratury oraz policji. Reszta została nagrana na uczelniach i w biurach. Każdy mówca był nagrywany przez około godzinę, z czego połowa to częściowo spontaniczne wypowiedzi, a połowa wypowiedzi czytane. Część z nich została przygotowana tak, aby zapewnić dużą różnorodność fonetyczną. Korpus zawiera 10 593 typów trifonów, czyli fonemów z kontekstem koartykulacyjnym. Nie jest publicznie dostępny.

CORPORA - korpus mowy polskiej prof. Grocholewskiego

Najpopularniejszym korpusem polskiej mowy jest CORPORA opracowana przez Stefana Grocholewskiego na Politechnice Poznańskiej w 1997 roku. Jest ona opisana przez autora w następujący sposób:

“Dla każdego z 45 mówców dokonano nagrań 365 wypowiedzi. Do nagrań wykorzystano mikrofony pojemnościowe lub w jednym przypadku mikrofon dynamiczny. Parametry nagrań: częstotliwość próbkowania - 16 kHz, długość słów - 12 bitów. Nagrań dokonano w warunkach naturalnych pomieszczeń, w bezpośredniej bliskości pracującego komputera.”

Wypowiedziami są głównie imiona i 114 semantycznie niespójnych zdań. Korpus został ułożony pod kątem zapewnienia jak największej różnorodności fonetycznej. Stąd występowanie takich zdań jak “On myje wróble w zoo” czy kultowa już fraza "lubić czardaszowy pląs". Wypowiedzi 2 mówców (mężczyzny i kobiety) zostały ręcznie posegmentowane na fonemy. Następnie użyto metod programowania dynamicznego, aby posegmentować automatycznie nagrania dla pozostałych mówców. Korpus jest dostosowany do użycia między innymi przez HTK, będący najpopularniejszym, darmowym, akademickim systemem rozpoznawania mowy. Jest więc on swego rodzaju standardem w badaniach nad rozpoznawaniem mowy.

www.dsp.agh.edu.pl

Korpusy języka angielskiego

Fragment książki "Przetwarzanie mowy"

Język angielski dysponuje ogromną liczbą korpusów tekstowych. Każdy z dialektów ma swój własny duży korpus. American National Corpus (ANC) powstaje od 1990 roku na podstawie tekstów i transkrypcji. W roku 2009 zawierał około 22 miliony słów. Collins Wordbank jest mieszanym, choć głównie brytyjskim korpusem zawierającym w 2009 roku 56 miliony słów. British National Corpus (BNC) dysponuje 100 milionami słów języka mówionego i pisanego. Corpus of Contemporary American English (COCA) dysponuje aż 385 milionami słów języka mówionego, literatury pięknej i powszechnej, czasopism, tygodników i publikacji naukowych. Powstały prawie pięćdziesiąt lat temu Brown Corpus [60] jest dużo mniejszy (około milion słów). Zawiera jednak oznaczenia części mowy i form gramatycznych, zwane też POStagami. Więcej na ten temat, a także na temat samego korpusu, można przeczytać w rozdziale o przetwarzaniu języka naturalnego i analizatorach morfologicznych. International Corpus of English (ICE) to korpus zawierający teksty o sumarycznej liczbie miliona słów dla różnych wersji języka (brytyjski, Hong Kong, Wschodnia Afryka, Indie, Nowa Zelandia, Filipiny i Singapur). Oxford English Corpus jest korpusem, który był wykorzystywany przez autorów słownika oksfordzkiego i jest prawdopodobnie największym zasobem językowym na świecie, dysponując dwoma miliardami słów z wszelkich możliwych źródeł, wliczając w to strony internetowe. Scottish Corpus of Texts and Speech zawiera około czterech milionów słów szkockiego dialektu.

www.dsp.agh.edu.pl

21 cze 2013

Nuance w Siri

Nuance potwierdził, że dostarcza silnik ASR dla Siri (Apple).

18 cze 2013

Popularne posty, czyli jak słówo confidence jest cenione w świecie

Oto aktualne statystyki najpopularniejszych postów na blogu.

Więcej »

Posty

Wpis	Liczba wyświetleń
Program służący do nauki rozpoznawania częstotliwo... 8 cze 2009	367
Nasz artykuł "CONFIDENCE MEASURE BY SUBSTRING COMP... 10 maj 2012	324
Rozpoznawanie mowy przez Matlaba 19 sty 2010	282
Google coraz bliżej opracowania idealnego systemu ... 13 kwi 2011	186
KKZMBM w Krynicy Morskiej 26 wrz 2012	168

Na czele statystyki zawsze był program służący do nauki rozpoznawania częstotliwości dźwięków - aplikacja przydatna dla muzyków. Ciekawa jest druga pozycja, dużo młodszy post o artykule, który referowaliśmy rok temu. W tytule jest słowo confidence, które w tym kontekście oznacza miarę oceny hipotez rozpoznania, ale roboty sieciowe bardzo lubią próbować zamieszczać w jego komentarzach linki do różnych ciekawych usług i w efekcie, automatyczny ruch wyrzucił cztery razy młodszy list na drugą pozycję. Ciekawe czy ten, który teraz piszę też będzie atrakcyjny dla robotów dlatego, że ma cztery razy słowo confidence w sobie...

www.dsp.agh.edu.pl

17 cze 2013

Google Glass

Przegapiliśmy ... Ale na prezentację w języku polskim się nie zdecydowali ;).

"W niedzielę w Warszawie, po raz pierwszy w tej części Europy, firma Google pokazała Google Glass, okulary nowej generacji umożliwiające robienie zdjęć, nagrywanie filmów i korzystanie z internetu. Na razie nie wiadomo, kiedy urządzenie trafi do sprzedaży." - Więcej na stronach gazety

www.dsp.agh.edu.pl

15 cze 2013

Uczenie ludzkich interakcji przez komputer

System opracowany przez MIT uczy ludzi jak zachowywać się w interakcjach z innymi ludźmi. Robi to w dużej mierze przez praktykę z wizualnym systemem dialogowym.

23 cze 2013

Jurisdic

CORPORA - korpus mowy polskiej prof. Grocholewskiego

Korpusy języka angielskiego

21 cze 2013

Nuance w Siri

18 cze 2013

Popularne posty, czyli jak słówo confidence jest cenione w świecie

Posty

17 cze 2013

Google Glass

15 cze 2013

Uczenie ludzkich interakcji przez komputer

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń