Rozpoznawanie Mowy

27 cze 2013

Nowy portal AGH

AGH jest w trakcie testowania nowego portalu informacyjnego o salach, zajęciach, rezerwacjach itd. Nie ma jeszcze w nim realnych danych ale można go już zobaczyć tutaj. Powinien być w użyciu od nowego roku akademickiego.

www.dsp.agh.edu.pl

Anotowanie korpusów mowy

Korpus AGH jest realizowany w standardzie plików MLF i jego fragment wygląda następująco:
#!MLF!#
“C:/Users/Bartek/Desktop/Nagrania/10a2.wav”
53420000 57750000 Podmiana
58030000 59940000 tego
60530000 65120000 typu
85830000 88490000 może
88490000 93720000 nastąpić

MLF jest częstym standardem anotowania pod kątem ćwiczenia systemów rozpoznawania mowy. Drugą popularną metodą jest program Transcriber. Anotator AGH korzysta z własnego wewnętrznego formatu, jednak wyniki mogą być eksportowane do MLFów.

Niektóre korpusy nie są jedynie zapisem tekstów i mowy, co można zaprezentować na przykładzie notacji korpusu LUNA. Zaledwie około 2 sekundowe nagranie początku rozmowy jest anotowane kilkustronnicowym opisem. Jest to format uwzględniający funkcje gramatyczne, odziedziczony z korpusów wykorzystywanych w przetwarzaniu tekstów.

www.dsp.agh.edu.pl

24 cze 2013

Siri odradza samobójstwo

Gazeta Wyborcza opublikowała ciekawy artykuł o SIRI. Według relacji GW dotychczasowa wersja doradzała gdzie są najbliższe mosty, gdy użytkownik deklarował że chce skoczyć z mostu. Teraz pyta się, czy się chce żeby zadzwonić na gorącą linię do narodowego centrum zapobiegania samobójstwom. Jakoś wydaje mi się jednak mało przekonujący aby kogoś zniechęcić do samobójstwa...

Technologie mowy na polskiej Wikipedii

Ostatnio zająłem się pisaniem na Wikipedii. Zacząłem też pisać artykuł o n-gramach, ale na razie nie został przyjęty. Zastanawiam się co jeszcze mogłoby się przydać. Macie jakieś pomysły? A może jakieś sugestie jak główny artykuł o rozpoznawaniu mowy rozwinąć?

www.dsp.agh.edu.pl

23 cze 2013

XV MIĘDZYNARODOWYM SYMPOZJUM INŻYNIERII I REŻYSERII DŹWIĘKU w Krakowie

"Proszę też o rozpropagowanie załączonego programu wśród pracowników Państwa Katedry oraz studentów (innych niż IA). Proszę o zwrócenie uwagi na część mniej naukową, ale na pewno interesującą dla młodych elektroników - spotkania i warsztaty. Udało nam się zebrać ekskluzywne grono kilku polskich inżynierów, których własne firmy osiągnęły sukces w skali światowej w elektronice związanej z fonią.

Pozdrawiam serdecznie,
Piotr Kleczkowski"

Szczegóły programu

Korpusy nazw własnych

Do niektórych zastosowań w dziedzienie technologii mowy potrzebne są listy przykładowych nazwisk, adresów i innych nazw własnych. W wypadku języka polskiego przydatną jest, politycznie i społecznie kontrowersyjna, lista Wildsteina. Jej przetworzoną i uporządkowaną wersją dysponuje Zespół Przetwarzania Sygnałów AGH. Zawiera ona jednak dość dużo niepolskich nazwisk, na przykład arabskich. Innym źródłem tego typu danych są korporacje, które jednak rzadko chcą je udostępnić. W naszym przypadku udało się zdobyć jedynie korpusy oparte o listy pracowników i udziałowców firmy ANWIL SA,

pomimo nawiązywania kontaktów z wieloma innymi przedsiębiorstwami. Listę nazwisk można także uzyskać odpłatnie z baz danych PESEL, jednakże cena ich udostępnienia nie jest podawana z góry, a zależy od czasu pracowników spędzonego przy przygotowaniu danych.

Trudniej o korpusy nazw geograficznych itp. Istnieje bazą miejsc w Warszawie powstała w ramach projektu LUNA.

Korpusy polskich tekstów

Korpus IPI PAN jest pewnego rodzaju polskim odpowiednikiem Brown Corpus. Zawarte w nim teksty zostały przeanalizowane morfologicznie. Korpus zawiera anotacje morfosyntaktyczne, opisujące każde słowo z punktu widzenia gramatyki języka polskiego. Korpus składa się z prozy współczesnej (10%), prozy dawnej (10%), publikacji naukowych (10%), prasy (50%), stenogramów sejmowych i senackich (15%) oraz ustaw (5%).

Także IPI PAN, kierował projektem który doprowadził do powstania Narodowego Korpusu Języka Polskiego:

"Korpus językowy to zbiór tekstów, w którym szukamy typowych użyć słów i konstrukcji oraz innych informacji o ich znaczeniu i funkcji. Bez dostępu do korpusu nie da się dziś prowadzić badań językoznawczych, pisać słowników ani podręczników języków obcych, tworzyć wyszukiwarek uwzględniających polską odmianę, tłumaczy komputerowych ani innych programów zaawansowanej technologii językowej. Korpus jest niezbędny do pracy językoznawcom, ale korzystają zeń często także informatycy, historycy, bibliotekarze, badacze literatury i kultury oraz specjaliści z wielu innych dziedzin humanistycznych i informatycznych. [...]

Narodowy Korpus Języka Polskiego jest wspólną inicjatywą Instytutu Podstaw Informatyki PAN (koordynator), Instytutu Języka Polskiego PAN, Wydawnictwa Naukowego PWN oraz Zakładu Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego, zrealizowaną jako projekt badawczy rozwojowy Ministerstwa Nauki i Szkolnictwa Wyższego.

Te cztery instytucje wspólnie zbudowały korpus referencyjny polszczyzny wielkości ponad półtora miliarda słów. Wyszukiwarki korpusowe (menu po prawej stronie) pozwalają przeszukiwać zasoby NKJP zaawansowanymi narzędziami uwzględniającymi odmianę polskich wyrazów, a nawet analizującymi budowę polskich zdań.

Lista źródeł korpusu zawiera nie tylko klasykę literatury polskiej, ale też prasę codzienną i specjalistyczną, nagrania rozmów, teksty ulotne i internetowe. Zróżnicowanie tematyczne i gatunkowe tekstów, dbałość o reprezentację rozmówców obu płci, w różnym wieku i z różnych regionów, są dla wiarygodności korpusu równie ważne jak jego wielkość."

Rzeczpospolita udostępniła Dawidowi Weissowi swoje artykuły z lat 1993-2002 na potrzeby badań związanych z jego pracą magisterską. Od tego czasu artykuły są udostępnione na jego stronie na potrzeby badań naukowych w formacie plików html. Korpus ten jest jednym z większych, tematycznie spójnych korpusów języka polskiego. Jego wadą jest to, że artykuły mają pewne wyrażenia występujące wielokrotnie ze względów edycyjnych. Kłopotliwa jest sytuacja prawna ponieważ nie ma jasnych zasad dotyczących korzystania z tego korpusu.

Wikipedia jest nie tylko źródłem wiedzy encyklopedycznej, ale także lingwistycznej. Można ściągnąć wszystkie podstrony Wikipedii (także w formacie XML) uzyskując korpus rzędu 100 milionów słów, dobrej jakości językowej i zawierający wiele rzadkich słów. Jako źródło danych lingwistycznych ma podobną wadę do korpusu Rzeczpospolita. W Wikipedii pojawiają się różne wzorce, takie jak opisy miejscowości, które mogą znacząco zaburzyć statystyki oparte o ten korpus. Wiele z wzorców o zawyżonej częstości można pominąć poprzez zrezygnowanie z krótkich notatek.

Istnieje kilka nieformalnych korpusów tekstów języka polskiego opartych w dużej mierze o prozę ściągniętą z internetu. Korpusy te są pod wieloma względami językowymi najlepsze oraz często największe, mają jednak kilka wad. Ich status prawny utrudnia korzystanie z nich. Prawo polskie nie zabrania ściągania takich danych, a zupełnie nie odnosi się do jakichkolwiek działań w zakresie automatycznego przetwarzania tekstów objętych ochroną przez prawa autorskie. Wadą tego typu korpusów jest także to, że wiele książek

pochodzi z minionych wieków i użyty w nich język oraz słownictwo odbiegają od współczesnego.

27 cze 2013

Nowy portal AGH

Anotowanie korpusów mowy

24 cze 2013

Siri odradza samobójstwo

Technologie mowy na polskiej Wikipedii

23 cze 2013

XV MIĘDZYNARODOWYM SYMPOZJUM INŻYNIERII I REŻYSERII DŹWIĘKU w Krakowie

Korpusy nazw własnych

Korpusy polskich tekstów

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń