google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0

28 cze 2013

Słowniki komputerowe

W wypadku języka angielskiego bardzo dobrym zasobem jest BEEP dictionary. Jest to słownik utworzony przez University of Cambridge. Zawiera ponad 250 tysięcy angielskich słów wraz z zapisem fonetycznym. BEEP jest używany między innymi przez najbardziej znany akademicki system rozpoznawania mowy HTK.

W kwestii słowników języka polskiego należy wspomnieć o PWN. Wydawnictwo to dysponuje dobrymi zasobami, jednakże ich dostępność jest ograniczona i zwykle bardzo kosztowna. Czasami udostępniają swoje zasoby przez internet, ale raczej tylko częściowo i wersjach uniemożliwiających obliczeniowe zastosowanie. Kilkukrotnie prowadzilismy rozmowy z PWN w kwestii udostępnienia słowników języka polskiego i kończyły się one zawsze podobnie – ofertą trudną do przyjęcia ze względów finansowych.

Ispell, Aspell i Myspell są projektami na licencji GPL gromadzącymi słowniki dla różnych języków, w tym polskiego. Są to w tej chwili najłatwiej dostępne do prowadzenia badań, duże słowniki języka polskiego. Słownik jest udostępniany dla kilku programów linuksowych, w tym OpenOffice. Można go także otrzymać w wersji tekstowej. Istnieje w kilku wersjach różniących się rozmiarem: podstawowa tylko z najpowszechniejszymi słowami, trzon języka umożliwiający dobrą komunikację oraz pełny słownik. Wersje 2 i 3 różnią się głównie różnymi nazwami biologicznymi, stanowiącymi około 40% największego ze słowników. Przy jego tworzeniu uwzględniono około dwóch i pół miliona form wyrazowych.

Istnieje jeszcze kilka innych ciekawych projektów dotyczących słowników języka polskiego. Część z nich  jeszcze nie udostępnia żadnych przydatnych danych, ale obiecuje, że ma to w planach.
• Synonimy Open Office http://synonimy.ux.pl/,
• Wielki Słownik Języka Polskiego http://www.wsjp.pl/,
• Słownik wyrazów obcych i zwrotów obcojęzycznych Władysława Kopalińskiego http://www.slownik-online.pl/index.php,
• Wikisłownik http://pl.wiktionary.org/,
• Słownik synonimów i antonimów Piotra Żmigrodzkiego http://leksykony.interia.pl/synonim,
• Słownik Języka Polskiego http://sjp.pl/,
• N-gramowy słownik frekwencyjny języka polskiego http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram.

Lista zasobów języka polskiego, w tym słowników dostępna jest na http://clip.ipipan.waw.pl/LRT.

27 cze 2013

Nowy portal AGH

AGH jest w trakcie testowania nowego portalu informacyjnego o salach, zajęciach, rezerwacjach itd. Nie ma jeszcze w nim realnych danych ale można go już zobaczyć tutaj. Powinien być w użyciu od nowego roku akademickiego.

www.dsp.agh.edu.pl

Anotowanie korpusów mowy

Korpus AGH jest realizowany w standardzie plików MLF i jego fragment wygląda następująco:
#!MLF!#
“C:/Users/Bartek/Desktop/Nagrania/10a2.wav”
53420000 57750000 Podmiana
58030000 59940000 tego
60530000 65120000 typu
85830000 88490000 może
88490000 93720000 nastąpić
MLF jest częstym standardem anotowania pod kątem ćwiczenia systemów rozpoznawania mowy. Drugą popularną metodą jest program Transcriber. Anotator AGH korzysta z własnego wewnętrznego formatu, jednak wyniki mogą być eksportowane do MLFów.

Niektóre korpusy nie są jedynie zapisem tekstów i mowy, co można zaprezentować na przykładzie notacji korpusu LUNA. Zaledwie około 2 sekundowe nagranie początku rozmowy jest anotowane kilkustronnicowym opisem. Jest to format uwzględniający funkcje gramatyczne, odziedziczony z korpusów wykorzystywanych w przetwarzaniu tekstów.

www.dsp.agh.edu.pl

24 cze 2013

Siri odradza samobójstwo

Gazeta Wyborcza opublikowała ciekawy artykuł o SIRI. Według relacji GW dotychczasowa wersja doradzała gdzie są najbliższe mosty, gdy użytkownik deklarował że chce skoczyć z mostu. Teraz pyta się, czy się chce żeby zadzwonić na gorącą linię do narodowego centrum zapobiegania samobójstwom. Jakoś wydaje mi się jednak mało przekonujący aby kogoś zniechęcić do samobójstwa...

Technologie mowy na polskiej Wikipedii

Ostatnio zająłem się pisaniem na Wikipedii. Zacząłem też pisać artykuł o n-gramach, ale na razie nie został przyjęty. Zastanawiam się co jeszcze mogłoby się przydać. Macie jakieś pomysły? A może jakieś sugestie jak główny artykuł o rozpoznawaniu mowy rozwinąć?

www.dsp.agh.edu.pl

23 cze 2013

XV MIĘDZYNARODOWYM SYMPOZJUM INŻYNIERII I REŻYSERII DŹWIĘKU w Krakowie

"Proszę też o rozpropagowanie załączonego programu wśród pracowników Państwa Katedry oraz studentów (innych niż IA). Proszę o zwrócenie uwagi na część mniej naukową, ale na pewno interesującą dla młodych elektroników - spotkania i warsztaty. Udało nam się zebrać ekskluzywne grono kilku polskich inżynierów, których własne firmy osiągnęły sukces w skali światowej w elektronice związanej z fonią.
Pozdrawiam serdecznie,
Piotr Kleczkowski"
Szczegóły programu 

Korpusy nazw własnych

Do niektórych zastosowań w dziedzienie technologii mowy potrzebne są listy przykładowych nazwisk, adresów i innych nazw własnych. W wypadku języka polskiego przydatną jest, politycznie i społecznie kontrowersyjna, lista Wildsteina. Jej przetworzoną i uporządkowaną wersją dysponuje Zespół Przetwarzania Sygnałów AGH. Zawiera ona jednak dość dużo niepolskich nazwisk, na przykład arabskich. Innym źródłem tego typu danych są korporacje, które jednak rzadko chcą je udostępnić. W naszym przypadku udało się zdobyć jedynie korpusy oparte o listy pracowników i udziałowców firmy ANWIL SA,
pomimo nawiązywania kontaktów z wieloma innymi przedsiębiorstwami. Listę nazwisk można także uzyskać odpłatnie z baz danych PESEL, jednakże cena ich udostępnienia nie jest podawana z góry, a zależy od czasu pracowników spędzonego przy przygotowaniu danych.

Trudniej o korpusy nazw geograficznych itp. Istnieje bazą miejsc w Warszawie powstała w ramach projektu LUNA.