google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0

23 cze 2013

Inne korpusy mowy polskiej

Poza CORPORĄ i JURISDIC istnieje kilka innych korpusów mowy polskiej:
• GlobalPhone (N. T. Vu, F. Kraus, and T. Schultz, “Multilingual a-stabil: a new confidence score for multilingual unsupervised training,” Proceedings of IEEE Workshop on Spoken Language Technology, SLT 2010, Berkley, 2010.),
• Luna - z nagraniami rozmów telefonicznych (M. Marciniak, Anotowany korpus dialogów telefonicznych, Wydawnictwo Exit, Warszawa, 2010.),
• SpeechDat(E) (http://www.fee.vutbr.cz/SPEECHDAT-E/),
• Korpus Europarlamentu RWTH Aachen University (J. Lööf, C. Gollan, and H. Ney, “Cross-language bootstrapping for unsupervised acoustic model training: Rapid development of a Polish speech recognition system,” Proceedings of Interspeech, Brighton, pp. 88– 91, 2009.) ,
• Korpus Szklannego z PJWSTK,
Korpus AGH.

Jurisdic

JURISDIC jest korpusem mowy o tematyce prawniczej. Wedle relacji autorów zawiera około 1000 mówców z różnych części Polski. Połowa z nich to nagrania wypowiedzi o charakterze prawniczym z sądów, biur, prokuratury oraz policji. Reszta została nagrana na uczelniach i w biurach. Każdy mówca był nagrywany przez około godzinę, z czego połowa to częściowo spontaniczne wypowiedzi, a połowa wypowiedzi czytane. Część z nich została przygotowana tak, aby zapewnić dużą różnorodność fonetyczną. Korpus zawiera 10 593 typów trifonów, czyli fonemów z kontekstem koartykulacyjnym. Nie jest publicznie dostępny.

CORPORA - korpus mowy polskiej prof. Grocholewskiego

Najpopularniejszym korpusem polskiej mowy jest CORPORA opracowana przez Stefana Grocholewskiego na Politechnice Poznańskiej w 1997 roku. Jest ona opisana przez autora w następujący sposób: 
“Dla każdego z 45 mówców dokonano nagrań 365 wypowiedzi. Do nagrań wykorzystano mikrofony pojemnościowe lub w jednym przypadku mikrofon dynamiczny. Parametry nagrań: częstotliwość próbkowania - 16 kHz, długość słów - 12 bitów. Nagrań dokonano w warunkach naturalnych pomieszczeń, w bezpośredniej bliskości pracującego komputera.”

Wypowiedziami są głównie imiona i 114 semantycznie niespójnych zdań. Korpus został ułożony pod kątem zapewnienia jak największej różnorodności fonetycznej. Stąd występowanie takich zdań jak “On myje wróble w zoo” czy kultowa już fraza "lubić czardaszowy pląs". Wypowiedzi 2 mówców (mężczyzny i kobiety) zostały ręcznie posegmentowane na fonemy. Następnie użyto metod programowania dynamicznego, aby posegmentować automatycznie nagrania dla pozostałych mówców. Korpus jest dostosowany do użycia między innymi przez HTK, będący najpopularniejszym, darmowym, akademickim systemem rozpoznawania mowy. Jest więc on swego rodzaju standardem w badaniach nad rozpoznawaniem mowy.

www.dsp.agh.edu.pl

Korpusy języka angielskiego

Fragment książki "Przetwarzanie mowy"

Język angielski dysponuje ogromną liczbą korpusów tekstowych. Każdy z dialektów ma swój własny duży korpus. American National Corpus (ANC) powstaje od 1990 roku na podstawie tekstów i transkrypcji. W roku 2009 zawierał około 22 miliony słów. Collins Wordbank jest mieszanym, choć głównie brytyjskim korpusem zawierającym w 2009 roku 56 miliony słów. British National Corpus (BNC) dysponuje 100 milionami słów języka mówionego i pisanego. Corpus of Contemporary American English (COCA) dysponuje aż 385 milionami słów języka mówionego, literatury pięknej i powszechnej, czasopism, tygodników i publikacji naukowych. Powstały prawie pięćdziesiąt lat temu Brown Corpus [60] jest dużo mniejszy (około milion słów). Zawiera jednak oznaczenia części mowy i form gramatycznych, zwane też POStagami. Więcej na ten temat, a także na temat samego korpusu, można przeczytać w rozdziale o przetwarzaniu języka naturalnego i analizatorach morfologicznych. International Corpus of English (ICE) to korpus zawierający teksty o sumarycznej liczbie miliona słów dla różnych wersji języka (brytyjski, Hong Kong, Wschodnia Afryka, Indie, Nowa Zelandia, Filipiny i Singapur). Oxford English Corpus jest korpusem, który był wykorzystywany przez autorów słownika oksfordzkiego i jest prawdopodobnie największym zasobem językowym na świecie, dysponując dwoma miliardami słów z wszelkich możliwych źródeł, wliczając w to strony internetowe. Scottish Corpus of Texts and Speech zawiera około czterech milionów słów szkockiego dialektu.

www.dsp.agh.edu.pl

18 cze 2013

Popularne posty, czyli jak słówo confidence jest cenione w świecie

Oto aktualne statystyki najpopularniejszych postów na blogu.


Na czele statystyki zawsze był program służący do nauki rozpoznawania częstotliwości dźwięków - aplikacja przydatna dla muzyków. Ciekawa jest druga pozycja, dużo młodszy post o artykule, który referowaliśmy rok temu. W tytule jest słowo confidence, które w tym kontekście oznacza miarę oceny hipotez rozpoznania, ale roboty sieciowe bardzo lubią próbować zamieszczać w jego komentarzach linki do różnych ciekawych usług i w efekcie, automatyczny ruch wyrzucił cztery razy młodszy list na drugą pozycję. Ciekawe czy ten, który teraz piszę też będzie atrakcyjny dla robotów dlatego, że ma cztery razy słowo confidence w sobie...

www.dsp.agh.edu.pl

17 cze 2013

Google Glass

Przegapiliśmy ... Ale na prezentację w języku polskim się nie zdecydowali ;).
"W niedzielę w Warszawie, po raz pierwszy w tej części Europy, firma Google pokazała Google Glass, okulary nowej generacji umożliwiające robienie zdjęć, nagrywanie filmów i korzystanie z internetu. Na razie nie wiadomo, kiedy urządzenie trafi do sprzedaży." - Więcej na stronach gazety

www.dsp.agh.edu.pl