Rozpoznawanie Mowy

12 cze 2013

Licencja AGH - Techmo

Prorektor AGH podpisał licencję na możliwość korzystania z większości osiągnięć Zespołu Przetwarzania Sygnałów AGH przez spin-offa Techmo sp. z o.o.. Licencja zakłada przekazywanie ustalonego % od zysków do uczelni oraz prawo do serwisowania i wdrażania oprogramowania i know-how. Zbiega się to z właśnie podpisywaną licencją i zamówieniem od zewnętrznej firmy. Szczegóły wkrótce.

6 cze 2013

Korpusy obcojęzyczne

Fragment książki "Przetwarzanie mowy"

Do najpopularniejszych korpusów mowy anglojęzycznej należy niewątpliwie Aurora 2. Jest to baza zawierająca jedynie cyfry, mówione jedna za drugą. Zawiera nagrania w warunkach studyjnych, jak i z różnego rodzaju szumem. Nagrania pochodzą od mówców dialektu północnoamerykańskiego. Korpus zawiera jeden zestaw do procesu wyznaczania parametrów modelu, zwanego również treningiem, oraz trzy zestawy do testów. Aurora istnieje także dla innych języków, na przykład Aurora 2J dla japońskiego.

Innym korpusem, zawierającym również wymawiane po sobie cyfry jest Numbers95 nagrywane przez telefon. Jest to także korpus amerykański, ale bez żadnego dodawanego szumu. Składa się z 30 słów, zawierających 27 fonemów, wymawianych przez ponad stu mówców. Bardzo dużą liczbę korpusów oferuje LDC (ang. Linguistic Data Consortium). Jest to konsorcjum wielu uniwersytetów, firm i laboratoriów rządowych kierowane przez University of Pensylvania. Zostało założone w 1992 roku dzięki grantowi ARPA. Najpopularniejszym korpusem LDC jest TIMIT - baza akustyczno-fonetyczna zawierająca 10 różnorodnych fonetycznie zdań wymawianych przez 630 mówców, wszystkich głównych amerykańskich dialektów języka angielskiego.

W wielu badaniach uwzględnia się wpływ szumu na działający system. Jest to zagadnienie dość skomplikowane, powodujące niepowodzenia przy wdrażaniu technologii, które świetnie się sprawdzały w laboratoriach. Wynika to z syndromu, przedstawionego przez profesora Ryszarda Tadeusiewicza w recenzji rozprawy doktorskiej Jakuba Gałki, jako modelowanie procesu deratyzacji na podstawie modelu myszki Mickey, czyli jedynie pozorne i bardzo powierzchowne powiązanie modelu i rzeczywistości. Bardzo częstym scenariuszem badań jest przeprowadzenie najpierw testów w warunkach laboratoryjnych. Gdy te się powiodą, to do czystych danych wprowadza się modelowanie szumu, zwykle korzystając z odpowiednich baz danych. Nie jest to rozwiązanie idealne, gdyż szum dodany na komputerze nie odzwierciedla dobrze rzeczywistych warunków. W prawdziwych zastosowaniach szum jest często bardziej nieprzewidywalny, niż dodany w czasie symulacji. Wynika to z tego, że dysponujemy zwykle korpusami z nagraniami mowy lub szumu, a bardzo rzadko z naturalnie zaszumionymi nagraniami. Co więcej, zjawisko szumu jest w swej naturze bardzo losowe i dlatego zakładanie jakiejkolwiek powtarzalności i możliwości modelowania statystycznego, jest dość niebezpiecznym założeniem.

Noisex92 jest jedną z powszechnie używanych baz szumów. Mieści się na dwóch płytach CD i zawiera próbki następujących dźwięków: szum powodowany przez wiele mówiących osób (ang. bubble lub coctail party effect), odgłosy pracującej fabryki, szum radiowy pasm wysokiej częstotliwości, różowy szum (o ograniczonym paśmie), biały szum (szerokopasmowy), szum urządzeń wojskowych takich jak myśliwce (Buccaneer, F16), niszczyciele (maszynownia, pokój operacyjny), czołgi (Leopard, M109), karabin maszynowy oraz szum powodowany przez samochód (Volvo 340).

www.dsp.agh.edu.pl

4 cze 2013

O nas w Jedynce Polskiego Radia

Krótką audycję prowadzoną przez Artura Wolskiego można odsłuchać na naszej stronie. Poświęcona jest unijnemu finansowaniu naszych prac, rozwojowi naszego głównego silnika rozpoznawania mowy SARMATA i rozpoznawaniu mówcy. Zapraszamy!

30 maj 2013

SIGMAP

Nasz artykuł "Length of Phonemes in a Context of Their Positions in Polish Sentences" został przyjęty na konferencję SIGMAP. Praca opisuje zjawisko wydłużania większości fonemów na końcach zdań co daje możliwość modelowania interpunkcji w rozpoznawanej mowie. Przy zastosowanym kryterium akustycznym wykryto 37% końców zdań przy zaledwie 2.5 % stopie fałszywych detekcji.

28 maj 2013

Zasoby językowe, część druga

Fragment książki "Przetwarzanie mowy"

Program do robienia korpusów mowy opracowany na AGH umożliwia kojarzenie istniejących nagrań (takich jak audiobooki) z istniejącymi tekstami. Pozwala to oszczędzić czas i środki finansowe na robienie nagrań. Program umożliwia pracę w tempie około 17 minut pracy operatora na jedną minutę korpusu dokładnie anotowanego na słowa. Przy stosowaniu innych programów, ten stosunek wynosi 20-40 minut pracy na minutę korpusu.

W wypadku korpusów tekstowych należy ustalić skąd pochodzą zebrane materiały. Jeśli są to opublikowane książki lub czasopisma, to można oczekiwać dużo mniejszej liczby błędów, niż w wypadku stron internetowych. Ponadto, w tym przypadku źródło materiałów ma wpływ na rodzaj używanych słów, co w wielu zastosowaniach jest istotne. Przykładowo, może być dość ryzykownym zajęciem projektowanie dowolnego systemu, mającego służyć pracy przy komputerze, na podstawie książek Sienkiewicza.

www.dsp.agh.edu.pl

24 maj 2013

Małpy, Szekspir i Facebook

Zasłyszane na BDASie:

Kiedyś wierzono, że jeśli posadzi się milion małp przed maszynami do pisania i każe im uderzać w klawiaturę to po jakimś czasie powstanie dzieło porównywalne z dziełami Szekspira. Wynalezienie Facebooka i Twittera pokazało, że było to błędne przekonanie.

www.dsp.agh.edu.pl

Wybór korpusu mowy

Fragment książki "Przetwarzanie mowy"

Przy wyborze korpusu należy rozpatrzyć kilka czynników. Podstawową kwestią jest dobór nie tylko języka, ale także dialektu. Powinien on być taki sam, jak ten którym posługują się docelowi odbiorcy projektowanego systemu. Jest to szczególnie ważne w wypadku języków tych krajów, które prowadziły intensywną działalność kolonizacyjną. Ich języki rozprzestrzeniły się po całym świecie i dialekty różnią się bardzo znacząco.

Nie jest to także bez znaczenia w wypadku języka polskiego. Podstawowe dialekty języka polskiego to: śląski (coraz częściej uznawany za odrębny język), wielkopolski, małopolski (w tym gwara krakowska, podhalańska, sądecka, żywiecka i łowicka), mazowiecki (w tym często zaliczana do niego gwara białostocka), chełmińsko-kociewsko-warmiński, północnokresowy i południowokresowy. W wielu rejonach Polski, zwłaszcza zachodniej i północnej, ze względu na masowy napływ ludności po drugiej wojnie światowej, dialekty nie występują. Używany tam język określany jest jako mieszany.

Ujednolicenie języka występuje także przez środki masowego przekazu, edukację i multimedia – a przede wszystkim telewizję. To ujednolicenie dąży zwykle do dialektu używanego w stolicy, tak jest także w przypadku Polski. W cieniu tego zjawiska występuje również wzmożone mieszanie dialektów, wynikające z większej mobilności ludzi w ostatnim dziesięcioleciu. W ten sposób także słowa innych dialektów wędrują poza region swojego pochodzenia.

Kolejnym czynnikiem do uwzględnienia przy wyborze korpusu jest częstotliwość próbkowania w wypadku korpusów zawierających mowę (a nie sam tekst). Typowymi częstotliwościami są 44,1 [kHz] (standard CD) i 16 [kHz] (systemy telekomunikacyjne). Stosuje się także ich wersje okrojone w celu kompresji: 11 025 [Hz] (1/4 pasma CD) i 8 [kHz] (1/2 pasma telekomunikacyjnego). Ten parametr należy uwzględnić, szczególnie jeśli zmienia się korpus, na przykład po wstępnych testach. Dobrze jest odtworzyć mowę w ustalonym przez siebie standardzie. Jeśli są one źle dostosowane, rozpoznamy to po śmiesznym – zwolnionym lub przyśpieszonym – sposobie mówienia.

Istotnym parametrem korpusu jest także format w jakim zapisana jest mowa lub tekst. W wypadku mowy może być dostępna różna liczba kanałów, np. mono lub stereo oraz różny sposób kodowania. Najpopularniejszym sposobem kodowania sygnału analogowego w systemach cyfrowych jest PCM (ang. Pulse Code Modulation). W wypadku polskich korpusów tekstu należy uwzględnić format zapisu polskich znaków ortograficznych. Niestety nie ma w tej kwestii żadnego głównego standardu. Do celów naukowych zwykle najlepiej stosować UTF-8. Stosuje się w nim zarówno znaki jednobajtowe, zaczynające się od 0, jak i wielobajtowe, przy czym 2 bajtowe mają schemat 110xxxxx 10xxxxxx, 3 bajtowe – 1110xxxx 10xxxxxx 10xxxxxx itd. Innymi standardami są na przykład Windows-1250, nazywany także CP-1250, ISO 8859-2, DOS CP852 i Mazovia. Jednym z programów, który umożliwia ich konwersję jest Gżegżółka darmowo dostępna w internecie.

Warto także ustalić w jaki sposób korpusy zostały utworzone, gdyż zwykle ma to swoje odbicie w ich jakości. Mowa może być nagrywana przez telefon lub bezpośrednio przez mikrofon, w tym drugim przypadku w warunkach studyjnych lub nie. Korpusy mowy zawierają zwykle transkrypcje, które mogą być robione automatycznie lub ręcznie, co ma szczególnie duże znaczenie, jeśli zawierają segmentacje, czyli przypisanie czasów poszczególnym jednostkom. Proces ręcznej segmentacji jest bardzo kosztowny, ale dokładniejszy niż metody automatyczne. Proces przypisywania czasów poszczególnym jednostkom akustycznym może być robiony z bardzo różną starannością. W wypadku zakupu jakichkolwiek korpusów, należy zawsze przed zakupem przeanalizować próbkę nagrań i odpowiadających im transkrypcji. Nigdy nie należy się kierować wyłącznie stosunkiem ilości danych do ceny. Przy nagrywaniu korpusu mowy, należy odrzucać i powtarzać nagrania wszystkich wyraźnych felerów takich jak zająknięcia, powtórzenia słów lub ich błędne wypowiedzenia.

12 cze 2013

Licencja AGH - Techmo

6 cze 2013

Korpusy obcojęzyczne

4 cze 2013

O nas w Jedynce Polskiego Radia

30 maj 2013

SIGMAP

28 maj 2013

Zasoby językowe, część druga

24 maj 2013

Małpy, Szekspir i Facebook

Wybór korpusu mowy

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń