JURISDIC jest korpusem mowy o tematyce prawniczej. Wedle relacji autorów zawiera około 1000 mówców z różnych części Polski. Połowa z nich to nagrania wypowiedzi o charakterze prawniczym z sądów, biur, prokuratury oraz policji. Reszta została nagrana na uczelniach i w biurach. Każdy mówca był nagrywany przez około godzinę, z czego połowa to częściowo spontaniczne wypowiedzi, a połowa wypowiedzi czytane. Część z nich została przygotowana tak, aby zapewnić dużą różnorodność fonetyczną. Korpus zawiera 10 593 typów trifonów, czyli fonemów z kontekstem koartykulacyjnym. Nie jest publicznie dostępny.
google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
23 cze 2013
CORPORA - korpus mowy polskiej prof. Grocholewskiego
Najpopularniejszym korpusem polskiej mowy jest CORPORA opracowana przez Stefana Grocholewskiego na Politechnice Poznańskiej w 1997 roku. Jest ona opisana przez autora w następujący sposób:
“Dla każdego z 45 mówców dokonano nagrań 365 wypowiedzi. Do nagrań wykorzystano mikrofony pojemnościowe lub w jednym przypadku mikrofon dynamiczny. Parametry nagrań: częstotliwość próbkowania - 16 kHz, długość słów - 12 bitów. Nagrań dokonano w warunkach naturalnych pomieszczeń, w bezpośredniej bliskości pracującego komputera.”
Wypowiedziami są głównie imiona i 114 semantycznie niespójnych zdań. Korpus został ułożony pod kątem zapewnienia jak największej różnorodności fonetycznej. Stąd występowanie takich zdań jak “On myje wróble w zoo” czy kultowa już fraza "lubić czardaszowy pląs". Wypowiedzi 2 mówców (mężczyzny i kobiety) zostały ręcznie posegmentowane na fonemy. Następnie użyto metod programowania dynamicznego, aby posegmentować automatycznie nagrania dla pozostałych mówców. Korpus jest dostosowany do użycia między innymi przez HTK, będący najpopularniejszym, darmowym, akademickim systemem rozpoznawania mowy. Jest więc on swego rodzaju standardem w badaniach nad rozpoznawaniem mowy.
www.dsp.agh.edu.pl
Korpusy języka angielskiego
Fragment książki "Przetwarzanie mowy"
www.dsp.agh.edu.pl
Język angielski dysponuje ogromną liczbą korpusów tekstowych. Każdy z dialektów ma swój własny duży korpus. American National Corpus (ANC) powstaje od 1990 roku na podstawie tekstów i transkrypcji. W roku 2009 zawierał około 22 miliony słów. Collins Wordbank jest mieszanym, choć głównie brytyjskim korpusem zawierającym w 2009 roku 56 miliony słów. British National Corpus (BNC) dysponuje 100 milionami słów języka mówionego i pisanego. Corpus of Contemporary American English (COCA) dysponuje aż 385 milionami słów języka mówionego, literatury pięknej i powszechnej, czasopism, tygodników i publikacji naukowych. Powstały prawie pięćdziesiąt lat temu Brown Corpus [60] jest dużo mniejszy (około milion słów). Zawiera jednak oznaczenia części mowy i form gramatycznych, zwane też POStagami. Więcej na ten temat, a także na temat samego korpusu, można przeczytać w rozdziale o przetwarzaniu języka naturalnego i analizatorach morfologicznych. International Corpus of English (ICE) to korpus zawierający teksty o sumarycznej liczbie miliona słów dla różnych wersji języka (brytyjski, Hong Kong, Wschodnia Afryka, Indie, Nowa Zelandia, Filipiny i Singapur). Oxford English Corpus jest korpusem, który był wykorzystywany przez autorów słownika oksfordzkiego i jest prawdopodobnie największym zasobem językowym na świecie, dysponując dwoma miliardami słów z wszelkich możliwych źródeł, wliczając w to strony internetowe. Scottish Corpus of Texts and Speech zawiera około czterech milionów słów szkockiego dialektu.
www.dsp.agh.edu.pl
21 cze 2013
18 cze 2013
Popularne posty, czyli jak słówo confidence jest cenione w świecie
Oto aktualne statystyki najpopularniejszych postów na blogu.
www.dsp.agh.edu.pl
Na czele statystyki zawsze był program służący do nauki rozpoznawania częstotliwości dźwięków - aplikacja przydatna dla muzyków. Ciekawa jest druga pozycja, dużo młodszy post o artykule, który referowaliśmy rok temu. W tytule jest słowo confidence, które w tym kontekście oznacza miarę oceny hipotez rozpoznania, ale roboty sieciowe bardzo lubią próbować zamieszczać w jego komentarzach linki do różnych ciekawych usług i w efekcie, automatyczny ruch wyrzucił cztery razy młodszy list na drugą pozycję. Ciekawe czy ten, który teraz piszę też będzie atrakcyjny dla robotów dlatego, że ma cztery razy słowo confidence w sobie...
www.dsp.agh.edu.pl
17 cze 2013
Google Glass
Przegapiliśmy ... Ale na prezentację w języku polskim się nie zdecydowali ;).
www.dsp.agh.edu.pl
"W niedzielę w Warszawie, po raz pierwszy w tej części Europy, firma Google pokazała Google Glass, okulary nowej generacji umożliwiające robienie zdjęć, nagrywanie filmów i korzystanie z internetu. Na razie nie wiadomo, kiedy urządzenie trafi do sprzedaży." - Więcej na stronach gazety
www.dsp.agh.edu.pl
15 cze 2013
Uczenie ludzkich interakcji przez komputer
System opracowany przez MIT uczy ludzi jak zachowywać się w interakcjach z innymi ludźmi. Robi to w dużej mierze przez praktykę z wizualnym systemem dialogowym.
Subskrybuj:
Posty (Atom)