28 cze 2013

Słowniki komputerowe

W wypadku języka angielskiego bardzo dobrym zasobem jest BEEP dictionary. Jest to słownik utworzony przez University of Cambridge. Zawiera ponad 250 tysięcy angielskich słów wraz z zapisem fonetycznym. BEEP jest używany między innymi przez najbardziej znany akademicki system rozpoznawania mowy HTK.

W kwestii słowników języka polskiego należy wspomnieć o PWN. Wydawnictwo to dysponuje dobrymi zasobami, jednakże ich dostępność jest ograniczona i zwykle bardzo kosztowna. Czasami udostępniają swoje zasoby przez internet, ale raczej tylko częściowo i wersjach uniemożliwiających obliczeniowe zastosowanie. Kilkukrotnie prowadzilismy rozmowy z PWN w kwestii udostępnienia słowników języka polskiego i kończyły się one zawsze podobnie – ofertą trudną do przyjęcia ze względów finansowych.

Ispell, Aspell i Myspell są projektami na licencji GPL gromadzącymi słowniki dla różnych języków, w tym polskiego. Są to w tej chwili najłatwiej dostępne do prowadzenia badań, duże słowniki języka polskiego. Słownik jest udostępniany dla kilku programów linuksowych, w tym OpenOffice. Można go także otrzymać w wersji tekstowej. Istnieje w kilku wersjach różniących się rozmiarem: podstawowa tylko z najpowszechniejszymi słowami, trzon języka umożliwiający dobrą komunikację oraz pełny słownik. Wersje 2 i 3 różnią się głównie różnymi nazwami biologicznymi, stanowiącymi około 40% największego ze słowników. Przy jego tworzeniu uwzględniono około dwóch i pół miliona form wyrazowych.

Istnieje jeszcze kilka innych ciekawych projektów dotyczących słowników języka polskiego. Część z nich  jeszcze nie udostępnia żadnych przydatnych danych, ale obiecuje, że ma to w planach.
• Synonimy Open Office http://synonimy.ux.pl/,
• Wielki Słownik Języka Polskiego http://www.wsjp.pl/,
• Słownik wyrazów obcych i zwrotów obcojęzycznych Władysława Kopalińskiego http://www.slownik-online.pl/index.php,
• Wikisłownik http://pl.wiktionary.org/,
• Słownik synonimów i antonimów Piotra Żmigrodzkiego http://leksykony.interia.pl/synonim,
• Słownik Języka Polskiego http://sjp.pl/,
• N-gramowy słownik frekwencyjny języka polskiego http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram.

Lista zasobów języka polskiego, w tym słowników dostępna jest na http://clip.ipipan.waw.pl/LRT.

27 cze 2013

Nowy portal AGH

AGH jest w trakcie testowania nowego portalu informacyjnego o salach, zajęciach, rezerwacjach itd. Nie ma jeszcze w nim realnych danych ale można go już zobaczyć tutaj. Powinien być w użyciu od nowego roku akademickiego.

www.dsp.agh.edu.pl

Anotowanie korpusów mowy

Korpus AGH jest realizowany w standardzie plików MLF i jego fragment wygląda następująco:
#!MLF!#
“C:/Users/Bartek/Desktop/Nagrania/10a2.wav”
53420000 57750000 Podmiana
58030000 59940000 tego
60530000 65120000 typu
85830000 88490000 może
88490000 93720000 nastąpić
MLF jest częstym standardem anotowania pod kątem ćwiczenia systemów rozpoznawania mowy. Drugą popularną metodą jest program Transcriber. Anotator AGH korzysta z własnego wewnętrznego formatu, jednak wyniki mogą być eksportowane do MLFów.

Niektóre korpusy nie są jedynie zapisem tekstów i mowy, co można zaprezentować na przykładzie notacji korpusu LUNA. Zaledwie około 2 sekundowe nagranie początku rozmowy jest anotowane kilkustronnicowym opisem. Jest to format uwzględniający funkcje gramatyczne, odziedziczony z korpusów wykorzystywanych w przetwarzaniu tekstów.

www.dsp.agh.edu.pl

24 cze 2013

Siri odradza samobójstwo

Gazeta Wyborcza opublikowała ciekawy artykuł o SIRI. Według relacji GW dotychczasowa wersja doradzała gdzie są najbliższe mosty, gdy użytkownik deklarował że chce skoczyć z mostu. Teraz pyta się, czy się chce żeby zadzwonić na gorącą linię do narodowego centrum zapobiegania samobójstwom. Jakoś wydaje mi się jednak mało przekonujący aby kogoś zniechęcić do samobójstwa...

Technologie mowy na polskiej Wikipedii

Ostatnio zająłem się pisaniem na Wikipedii. Zacząłem też pisać artykuł o n-gramach, ale na razie nie został przyjęty. Zastanawiam się co jeszcze mogłoby się przydać. Macie jakieś pomysły? A może jakieś sugestie jak główny artykuł o rozpoznawaniu mowy rozwinąć?

www.dsp.agh.edu.pl

23 cze 2013

XV MIĘDZYNARODOWYM SYMPOZJUM INŻYNIERII I REŻYSERII DŹWIĘKU w Krakowie

"Proszę też o rozpropagowanie załączonego programu wśród pracowników Państwa Katedry oraz studentów (innych niż IA). Proszę o zwrócenie uwagi na część mniej naukową, ale na pewno interesującą dla młodych elektroników - spotkania i warsztaty. Udało nam się zebrać ekskluzywne grono kilku polskich inżynierów, których własne firmy osiągnęły sukces w skali światowej w elektronice związanej z fonią.
Pozdrawiam serdecznie,
Piotr Kleczkowski"
Szczegóły programu 

Korpusy nazw własnych

Do niektórych zastosowań w dziedzienie technologii mowy potrzebne są listy przykładowych nazwisk, adresów i innych nazw własnych. W wypadku języka polskiego przydatną jest, politycznie i społecznie kontrowersyjna, lista Wildsteina. Jej przetworzoną i uporządkowaną wersją dysponuje Zespół Przetwarzania Sygnałów AGH. Zawiera ona jednak dość dużo niepolskich nazwisk, na przykład arabskich. Innym źródłem tego typu danych są korporacje, które jednak rzadko chcą je udostępnić. W naszym przypadku udało się zdobyć jedynie korpusy oparte o listy pracowników i udziałowców firmy ANWIL SA,
pomimo nawiązywania kontaktów z wieloma innymi przedsiębiorstwami. Listę nazwisk można także uzyskać odpłatnie z baz danych PESEL, jednakże cena ich udostępnienia nie jest podawana z góry, a zależy od czasu pracowników spędzonego przy przygotowaniu danych.

Trudniej o korpusy nazw geograficznych itp. Istnieje bazą miejsc w Warszawie powstała w ramach projektu LUNA.

Korpusy polskich tekstów

Korpus IPI PAN jest pewnego rodzaju polskim odpowiednikiem Brown Corpus. Zawarte w nim teksty zostały przeanalizowane morfologicznie. Korpus zawiera anotacje morfosyntaktyczne, opisujące każde słowo z punktu widzenia gramatyki języka polskiego. Korpus składa się z prozy współczesnej (10%), prozy dawnej (10%), publikacji naukowych (10%), prasy (50%), stenogramów sejmowych i senackich (15%) oraz ustaw (5%). 

Także IPI PAN, kierował projektem który doprowadził do powstania Narodowego Korpusu Języka Polskiego
"Korpus językowy to zbiór tekstów, w którym szukamy typowych użyć słów i konstrukcji oraz innych informacji o ich znaczeniu i funkcji. Bez dostępu do korpusu nie da się dziś prowadzić badań językoznawczych, pisać słowników ani podręczników języków obcych, tworzyć wyszukiwarek uwzględniających polską odmianę, tłumaczy komputerowych ani innych programów zaawansowanej technologii językowej. Korpus jest niezbędny do pracy językoznawcom, ale korzystają zeń często także informatycy, historycy, bibliotekarze, badacze literatury i kultury oraz specjaliści z wielu innych dziedzin humanistycznych i informatycznych. [...] 
Narodowy Korpus Języka Polskiego jest wspólną inicjatywą Instytutu Podstaw Informatyki PAN (koordynator), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zrealizowaną jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego.

Te cztery instytucje wspólnie zbudowały korpus referencyjny polszczyzny wielkości ponad półtora miliarda słów. Wyszukiwarki korpusowe (menu po prawej stronie) pozwalają przeszukiwać zasoby NKJP zaawansowanymi narzędziami uwzględniającymi odmianę polskich wyrazów, a nawet analizującymi budowę polskich zdań.

Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, ale też prasę codzienną i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Zróżnicowanie tematyczne i gatunkowe tekstów, dbałość o reprezentację rozmówców obu płci, w różnym wieku i z różnych regionów, są dla wiarygodności korpusu równie ważne jak jego wielkość."


Rzeczpospolita udostępniła Dawidowi Weissowi swoje artykuły z lat 1993-2002 na potrzeby badań związanych z jego pracą magisterską. Od tego czasu artykuły są udostępnione na jego stronie na potrzeby badań naukowych w formacie plików html. Korpus ten jest jednym z większych, tematycznie spójnych korpusów języka polskiego. Jego wadą jest to, że artykuły mają pewne wyrażenia występujące wielokrotnie ze względów edycyjnych. Kłopotliwa jest sytuacja prawna ponieważ nie ma jasnych zasad dotyczących korzystania z tego korpusu.

Wikipedia jest nie tylko źródłem wiedzy encyklopedycznej, ale także lingwistycznej. Można ściągnąć wszystkie podstrony Wikipedii (także w formacie XML) uzyskując korpus rzędu 100 milionów słów, dobrej jakości językowej i zawierający wiele rzadkich słów. Jako źródło danych lingwistycznych ma podobną wadę do korpusu Rzeczpospolita. W Wikipedii pojawiają się różne wzorce, takie jak opisy miejscowości, które mogą znacząco zaburzyć statystyki oparte o ten korpus. Wiele z wzorców o zawyżonej częstości można pominąć poprzez zrezygnowanie z krótkich notatek.

Istnieje kilka nieformalnych korpusów tekstów języka polskiego opartych w dużej mierze o prozę ściągniętą z internetu. Korpusy te są pod wieloma względami językowymi najlepsze oraz często największe, mają jednak kilka wad. Ich status prawny utrudnia korzystanie z nich. Prawo polskie nie zabrania ściągania takich danych, a zupełnie nie odnosi się do jakichkolwiek działań w zakresie automatycznego przetwarzania tekstów objętych ochroną przez prawa autorskie. Wadą tego typu korpusów jest także to, że wiele książek
pochodzi z minionych wieków i użyty w nich język oraz słownictwo odbiegają od współczesnego.

Prezentacje sprzętu i oprogramowanie na Pacific Voice Conference

Zapraszamy producentów sprzętu i oprogramowania służącego do przetwarzania i/lub analizowania mowy i/lub głosu do przygotowania swojego stoiska na konferencji Pacific Voice Conference. W ubiegłym roku konferencja gościła około 130 osób. Jako uczestnicy spodziewani są głównie inżynierowie, lekarze i piosenkarze.

www.dsp.agh.edu.pl

Inne korpusy mowy polskiej

Poza CORPORĄ i JURISDIC istnieje kilka innych korpusów mowy polskiej:
• GlobalPhone (N. T. Vu, F. Kraus, and T. Schultz, “Multilingual a-stabil: a new confidence score for multilingual unsupervised training,” Proceedings of IEEE Workshop on Spoken Language Technology, SLT 2010, Berkley, 2010.),
• Luna - z nagraniami rozmów telefonicznych (M. Marciniak, Anotowany korpus dialogów telefonicznych, Wydawnictwo Exit, Warszawa, 2010.),
• SpeechDat(E) (http://www.fee.vutbr.cz/SPEECHDAT-E/),
• Korpus Europarlamentu RWTH Aachen University (J. Lööf, C. Gollan, and H. Ney, “Cross-language bootstrapping for unsupervised acoustic model training: Rapid development of a Polish speech recognition system,” Proceedings of Interspeech, Brighton, pp. 88– 91, 2009.) ,
• Korpus Szklannego z PJWSTK,
Korpus AGH.

Jurisdic

JURISDIC jest korpusem mowy o tematyce prawniczej. Wedle relacji autorów zawiera około 1000 mówców z różnych części Polski. Połowa z nich to nagrania wypowiedzi o charakterze prawniczym z sądów, biur, prokuratury oraz policji. Reszta została nagrana na uczelniach i w biurach. Każdy mówca był nagrywany przez około godzinę, z czego połowa to częściowo spontaniczne wypowiedzi, a połowa wypowiedzi czytane. Część z nich została przygotowana tak, aby zapewnić dużą różnorodność fonetyczną. Korpus zawiera 10 593 typów trifonów, czyli fonemów z kontekstem koartykulacyjnym. Nie jest publicznie dostępny.

CORPORA - korpus mowy polskiej prof. Grocholewskiego

Najpopularniejszym korpusem polskiej mowy jest CORPORA opracowana przez Stefana Grocholewskiego na Politechnice Poznańskiej w 1997 roku. Jest ona opisana przez autora w następujący sposób: 
“Dla każdego z 45 mówców dokonano nagrań 365 wypowiedzi. Do nagrań wykorzystano mikrofony pojemnościowe lub w jednym przypadku mikrofon dynamiczny. Parametry nagrań: częstotliwość próbkowania - 16 kHz, długość słów - 12 bitów. Nagrań dokonano w warunkach naturalnych pomieszczeń, w bezpośredniej bliskości pracującego komputera.”

Wypowiedziami są głównie imiona i 114 semantycznie niespójnych zdań. Korpus został ułożony pod kątem zapewnienia jak największej różnorodności fonetycznej. Stąd występowanie takich zdań jak “On myje wróble w zoo” czy kultowa już fraza "lubić czardaszowy pląs". Wypowiedzi 2 mówców (mężczyzny i kobiety) zostały ręcznie posegmentowane na fonemy. Następnie użyto metod programowania dynamicznego, aby posegmentować automatycznie nagrania dla pozostałych mówców. Korpus jest dostosowany do użycia między innymi przez HTK, będący najpopularniejszym, darmowym, akademickim systemem rozpoznawania mowy. Jest więc on swego rodzaju standardem w badaniach nad rozpoznawaniem mowy.

www.dsp.agh.edu.pl

Korpusy języka angielskiego

Fragment książki "Przetwarzanie mowy"

Język angielski dysponuje ogromną liczbą korpusów tekstowych. Każdy z dialektów ma swój własny duży korpus. American National Corpus (ANC) powstaje od 1990 roku na podstawie tekstów i transkrypcji. W roku 2009 zawierał około 22 miliony słów. Collins Wordbank jest mieszanym, choć głównie brytyjskim korpusem zawierającym w 2009 roku 56 miliony słów. British National Corpus (BNC) dysponuje 100 milionami słów języka mówionego i pisanego. Corpus of Contemporary American English (COCA) dysponuje aż 385 milionami słów języka mówionego, literatury pięknej i powszechnej, czasopism, tygodników i publikacji naukowych. Powstały prawie pięćdziesiąt lat temu Brown Corpus [60] jest dużo mniejszy (około milion słów). Zawiera jednak oznaczenia części mowy i form gramatycznych, zwane też POStagami. Więcej na ten temat, a także na temat samego korpusu, można przeczytać w rozdziale o przetwarzaniu języka naturalnego i analizatorach morfologicznych. International Corpus of English (ICE) to korpus zawierający teksty o sumarycznej liczbie miliona słów dla różnych wersji języka (brytyjski, Hong Kong, Wschodnia Afryka, Indie, Nowa Zelandia, Filipiny i Singapur). Oxford English Corpus jest korpusem, który był wykorzystywany przez autorów słownika oksfordzkiego i jest prawdopodobnie największym zasobem językowym na świecie, dysponując dwoma miliardami słów z wszelkich możliwych źródeł, wliczając w to strony internetowe. Scottish Corpus of Texts and Speech zawiera około czterech milionów słów szkockiego dialektu.

www.dsp.agh.edu.pl

18 cze 2013

Popularne posty, czyli jak słówo confidence jest cenione w świecie

Oto aktualne statystyki najpopularniejszych postów na blogu.


Na czele statystyki zawsze był program służący do nauki rozpoznawania częstotliwości dźwięków - aplikacja przydatna dla muzyków. Ciekawa jest druga pozycja, dużo młodszy post o artykule, który referowaliśmy rok temu. W tytule jest słowo confidence, które w tym kontekście oznacza miarę oceny hipotez rozpoznania, ale roboty sieciowe bardzo lubią próbować zamieszczać w jego komentarzach linki do różnych ciekawych usług i w efekcie, automatyczny ruch wyrzucił cztery razy młodszy list na drugą pozycję. Ciekawe czy ten, który teraz piszę też będzie atrakcyjny dla robotów dlatego, że ma cztery razy słowo confidence w sobie...

www.dsp.agh.edu.pl

17 cze 2013

Google Glass

Przegapiliśmy ... Ale na prezentację w języku polskim się nie zdecydowali ;).
"W niedzielę w Warszawie, po raz pierwszy w tej części Europy, firma Google pokazała Google Glass, okulary nowej generacji umożliwiające robienie zdjęć, nagrywanie filmów i korzystanie z internetu. Na razie nie wiadomo, kiedy urządzenie trafi do sprzedaży." - Więcej na stronach gazety

www.dsp.agh.edu.pl

15 cze 2013

Uczenie ludzkich interakcji przez komputer

System opracowany przez MIT uczy ludzi jak zachowywać się w interakcjach z innymi ludźmi. Robi to w dużej mierze przez praktykę z wizualnym systemem dialogowym.


12 cze 2013

Licencja AGH - Techmo

Prorektor AGH podpisał licencję na możliwość korzystania z większości osiągnięć Zespołu Przetwarzania Sygnałów AGH przez spin-offa Techmo sp. z o.o.. Licencja zakłada przekazywanie ustalonego % od zysków do uczelni oraz prawo do serwisowania i wdrażania oprogramowania i know-how. Zbiega się to z właśnie podpisywaną licencją i zamówieniem od zewnętrznej firmy. Szczegóły wkrótce.

6 cze 2013

Korpusy obcojęzyczne

Fragment książki "Przetwarzanie mowy"

Do najpopularniejszych korpusów mowy anglojęzycznej należy niewątpliwie Aurora 2. Jest to baza zawierająca jedynie cyfry, mówione jedna za drugą. Zawiera nagrania w warunkach studyjnych, jak i z różnego rodzaju szumem. Nagrania pochodzą od mówców dialektu północnoamerykańskiego. Korpus zawiera jeden zestaw do procesu wyznaczania parametrów modelu, zwanego również treningiem, oraz trzy zestawy do testów. Aurora istnieje także dla innych języków, na przykład Aurora 2J dla japońskiego.

Innym korpusem, zawierającym również wymawiane po sobie cyfry jest Numbers95 nagrywane przez telefon. Jest to także korpus amerykański, ale bez żadnego dodawanego szumu. Składa się z 30 słów, zawierających 27 fonemów, wymawianych przez ponad stu mówców. Bardzo dużą liczbę korpusów oferuje LDC (ang. Linguistic Data Consortium). Jest to konsorcjum wielu uniwersytetów, firm i laboratoriów rządowych kierowane przez University of Pensylvania. Zostało założone w 1992 roku dzięki grantowi ARPA. Najpopularniejszym korpusem LDC jest TIMIT - baza akustyczno-fonetyczna zawierająca 10 różnorodnych fonetycznie zdań wymawianych przez 630 mówców, wszystkich głównych amerykańskich dialektów języka angielskiego.

W wielu badaniach uwzględnia się wpływ szumu na działający system. Jest to zagadnienie dość skomplikowane, powodujące niepowodzenia przy wdrażaniu technologii, które świetnie się sprawdzały w laboratoriach. Wynika to z syndromu, przedstawionego przez profesora Ryszarda Tadeusiewicza w recenzji rozprawy doktorskiej Jakuba Gałki, jako modelowanie procesu deratyzacji na podstawie modelu myszki Mickey, czyli jedynie pozorne i bardzo powierzchowne powiązanie modelu i rzeczywistości. Bardzo częstym scenariuszem badań jest przeprowadzenie najpierw testów w warunkach laboratoryjnych. Gdy te się powiodą, to do czystych danych wprowadza się modelowanie szumu, zwykle korzystając z odpowiednich baz danych. Nie jest to rozwiązanie idealne, gdyż szum dodany na komputerze nie odzwierciedla dobrze rzeczywistych warunków. W prawdziwych zastosowaniach szum jest często bardziej nieprzewidywalny, niż dodany w czasie symulacji. Wynika to z tego, że dysponujemy zwykle korpusami z nagraniami mowy lub szumu, a bardzo rzadko z naturalnie zaszumionymi nagraniami. Co więcej, zjawisko szumu jest w swej naturze bardzo losowe i dlatego zakładanie jakiejkolwiek powtarzalności i możliwości modelowania statystycznego, jest dość niebezpiecznym założeniem.

Noisex92 jest jedną z powszechnie używanych baz szumów. Mieści się na dwóch płytach CD i zawiera próbki następujących dźwięków: szum powodowany przez wiele mówiących osób (ang. bubble lub coctail party effect), odgłosy pracującej fabryki, szum radiowy pasm wysokiej częstotliwości, różowy szum (o ograniczonym paśmie), biały szum (szerokopasmowy), szum urządzeń wojskowych takich jak myśliwce (Buccaneer, F16), niszczyciele (maszynownia, pokój operacyjny), czołgi (Leopard, M109), karabin maszynowy oraz szum powodowany przez samochód (Volvo 340).

www.dsp.agh.edu.pl