google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0

23 cze 2013

Korpusy języka angielskiego

Fragment książki "Przetwarzanie mowy"

Język angielski dysponuje ogromną liczbą korpusów tekstowych. Każdy z dialektów ma swój własny duży korpus. American National Corpus (ANC) powstaje od 1990 roku na podstawie tekstów i transkrypcji. W roku 2009 zawierał około 22 miliony słów. Collins Wordbank jest mieszanym, choć głównie brytyjskim korpusem zawierającym w 2009 roku 56 miliony słów. British National Corpus (BNC) dysponuje 100 milionami słów języka mówionego i pisanego. Corpus of Contemporary American English (COCA) dysponuje aż 385 milionami słów języka mówionego, literatury pięknej i powszechnej, czasopism, tygodników i publikacji naukowych. Powstały prawie pięćdziesiąt lat temu Brown Corpus [60] jest dużo mniejszy (około milion słów). Zawiera jednak oznaczenia części mowy i form gramatycznych, zwane też POStagami. Więcej na ten temat, a także na temat samego korpusu, można przeczytać w rozdziale o przetwarzaniu języka naturalnego i analizatorach morfologicznych. International Corpus of English (ICE) to korpus zawierający teksty o sumarycznej liczbie miliona słów dla różnych wersji języka (brytyjski, Hong Kong, Wschodnia Afryka, Indie, Nowa Zelandia, Filipiny i Singapur). Oxford English Corpus jest korpusem, który był wykorzystywany przez autorów słownika oksfordzkiego i jest prawdopodobnie największym zasobem językowym na świecie, dysponując dwoma miliardami słów z wszelkich możliwych źródeł, wliczając w to strony internetowe. Scottish Corpus of Texts and Speech zawiera około czterech milionów słów szkockiego dialektu.

www.dsp.agh.edu.pl

18 cze 2013

Popularne posty, czyli jak słówo confidence jest cenione w świecie

Oto aktualne statystyki najpopularniejszych postów na blogu.


Na czele statystyki zawsze był program służący do nauki rozpoznawania częstotliwości dźwięków - aplikacja przydatna dla muzyków. Ciekawa jest druga pozycja, dużo młodszy post o artykule, który referowaliśmy rok temu. W tytule jest słowo confidence, które w tym kontekście oznacza miarę oceny hipotez rozpoznania, ale roboty sieciowe bardzo lubią próbować zamieszczać w jego komentarzach linki do różnych ciekawych usług i w efekcie, automatyczny ruch wyrzucił cztery razy młodszy list na drugą pozycję. Ciekawe czy ten, który teraz piszę też będzie atrakcyjny dla robotów dlatego, że ma cztery razy słowo confidence w sobie...

www.dsp.agh.edu.pl

17 cze 2013

Google Glass

Przegapiliśmy ... Ale na prezentację w języku polskim się nie zdecydowali ;).
"W niedzielę w Warszawie, po raz pierwszy w tej części Europy, firma Google pokazała Google Glass, okulary nowej generacji umożliwiające robienie zdjęć, nagrywanie filmów i korzystanie z internetu. Na razie nie wiadomo, kiedy urządzenie trafi do sprzedaży." - Więcej na stronach gazety

www.dsp.agh.edu.pl

15 cze 2013

Uczenie ludzkich interakcji przez komputer

System opracowany przez MIT uczy ludzi jak zachowywać się w interakcjach z innymi ludźmi. Robi to w dużej mierze przez praktykę z wizualnym systemem dialogowym.


12 cze 2013

Licencja AGH - Techmo

Prorektor AGH podpisał licencję na możliwość korzystania z większości osiągnięć Zespołu Przetwarzania Sygnałów AGH przez spin-offa Techmo sp. z o.o.. Licencja zakłada przekazywanie ustalonego % od zysków do uczelni oraz prawo do serwisowania i wdrażania oprogramowania i know-how. Zbiega się to z właśnie podpisywaną licencją i zamówieniem od zewnętrznej firmy. Szczegóły wkrótce.

6 cze 2013

Korpusy obcojęzyczne

Fragment książki "Przetwarzanie mowy"

Do najpopularniejszych korpusów mowy anglojęzycznej należy niewątpliwie Aurora 2. Jest to baza zawierająca jedynie cyfry, mówione jedna za drugą. Zawiera nagrania w warunkach studyjnych, jak i z różnego rodzaju szumem. Nagrania pochodzą od mówców dialektu północnoamerykańskiego. Korpus zawiera jeden zestaw do procesu wyznaczania parametrów modelu, zwanego również treningiem, oraz trzy zestawy do testów. Aurora istnieje także dla innych języków, na przykład Aurora 2J dla japońskiego.

Innym korpusem, zawierającym również wymawiane po sobie cyfry jest Numbers95 nagrywane przez telefon. Jest to także korpus amerykański, ale bez żadnego dodawanego szumu. Składa się z 30 słów, zawierających 27 fonemów, wymawianych przez ponad stu mówców. Bardzo dużą liczbę korpusów oferuje LDC (ang. Linguistic Data Consortium). Jest to konsorcjum wielu uniwersytetów, firm i laboratoriów rządowych kierowane przez University of Pensylvania. Zostało założone w 1992 roku dzięki grantowi ARPA. Najpopularniejszym korpusem LDC jest TIMIT - baza akustyczno-fonetyczna zawierająca 10 różnorodnych fonetycznie zdań wymawianych przez 630 mówców, wszystkich głównych amerykańskich dialektów języka angielskiego.

W wielu badaniach uwzględnia się wpływ szumu na działający system. Jest to zagadnienie dość skomplikowane, powodujące niepowodzenia przy wdrażaniu technologii, które świetnie się sprawdzały w laboratoriach. Wynika to z syndromu, przedstawionego przez profesora Ryszarda Tadeusiewicza w recenzji rozprawy doktorskiej Jakuba Gałki, jako modelowanie procesu deratyzacji na podstawie modelu myszki Mickey, czyli jedynie pozorne i bardzo powierzchowne powiązanie modelu i rzeczywistości. Bardzo częstym scenariuszem badań jest przeprowadzenie najpierw testów w warunkach laboratoryjnych. Gdy te się powiodą, to do czystych danych wprowadza się modelowanie szumu, zwykle korzystając z odpowiednich baz danych. Nie jest to rozwiązanie idealne, gdyż szum dodany na komputerze nie odzwierciedla dobrze rzeczywistych warunków. W prawdziwych zastosowaniach szum jest często bardziej nieprzewidywalny, niż dodany w czasie symulacji. Wynika to z tego, że dysponujemy zwykle korpusami z nagraniami mowy lub szumu, a bardzo rzadko z naturalnie zaszumionymi nagraniami. Co więcej, zjawisko szumu jest w swej naturze bardzo losowe i dlatego zakładanie jakiejkolwiek powtarzalności i możliwości modelowania statystycznego, jest dość niebezpiecznym założeniem.

Noisex92 jest jedną z powszechnie używanych baz szumów. Mieści się na dwóch płytach CD i zawiera próbki następujących dźwięków: szum powodowany przez wiele mówiących osób (ang. bubble lub coctail party effect), odgłosy pracującej fabryki, szum radiowy pasm wysokiej częstotliwości, różowy szum (o ograniczonym paśmie), biały szum (szerokopasmowy), szum urządzeń wojskowych takich jak myśliwce (Buccaneer, F16), niszczyciele (maszynownia, pokój operacyjny), czołgi (Leopard, M109), karabin maszynowy oraz szum powodowany przez samochód (Volvo 340).

www.dsp.agh.edu.pl