Rozpoznawanie Mowy

24 maj 2013

Wybór korpusu mowy

Przy wyborze korpusu należy rozpatrzyć kilka czynników. Podstawową kwestią jest dobór nie tylko języka, ale także dialektu. Powinien on być taki sam, jak ten którym posługują się docelowi odbiorcy projektowanego systemu. Jest to szczególnie ważne w wypadku języków tych krajów, które prowadziły intensywną działalność kolonizacyjną. Ich języki rozprzestrzeniły się po całym świecie i dialekty różnią się bardzo znacząco.

Nie jest to także bez znaczenia w wypadku języka polskiego. Podstawowe dialekty języka polskiego to: śląski (coraz częściej uznawany za odrębny język), wielkopolski, małopolski (w tym gwara krakowska, podhalańska, sądecka, żywiecka i łowicka), mazowiecki (w tym często zaliczana do niego gwara białostocka), chełmińsko-kociewsko-warmiński, północnokresowy i południowokresowy. W wielu rejonach Polski, zwłaszcza zachodniej i północnej, ze względu na masowy napływ ludności po drugiej wojnie światowej, dialekty nie występują. Używany tam język określany jest jako mieszany.

Ujednolicenie języka występuje także przez środki masowego przekazu, edukację i multimedia – a przede wszystkim telewizję. To ujednolicenie dąży zwykle do dialektu używanego w stolicy, tak jest także w przypadku Polski. W cieniu tego zjawiska występuje również wzmożone mieszanie dialektów, wynikające z większej mobilności ludzi w ostatnim dziesięcioleciu. W ten sposób także słowa innych dialektów wędrują poza region swojego pochodzenia.

Kolejnym czynnikiem do uwzględnienia przy wyborze korpusu jest częstotliwość próbkowania w wypadku korpusów zawierających mowę (a nie sam tekst). Typowymi częstotliwościami są 44,1 [kHz] (standard CD) i 16 [kHz] (systemy telekomunikacyjne). Stosuje się także ich wersje okrojone w celu kompresji: 11 025 [Hz] (1/4 pasma CD) i 8 [kHz] (1/2 pasma telekomunikacyjnego). Ten parametr należy uwzględnić, szczególnie jeśli zmienia się korpus, na przykład po wstępnych testach. Dobrze jest odtworzyć mowę w ustalonym przez siebie standardzie. Jeśli są one źle dostosowane, rozpoznamy to po śmiesznym – zwolnionym lub przyśpieszonym – sposobie mówienia.

Istotnym parametrem korpusu jest także format w jakim zapisana jest mowa lub tekst. W wypadku mowy może być dostępna różna liczba kanałów, np. mono lub stereo oraz różny sposób kodowania. Najpopularniejszym sposobem kodowania sygnału analogowego w systemach cyfrowych jest PCM (ang. Pulse Code Modulation). W wypadku polskich korpusów tekstu należy uwzględnić format zapisu polskich znaków ortograficznych. Niestety nie ma w tej kwestii żadnego głównego standardu. Do celów naukowych zwykle najlepiej stosować UTF-8. Stosuje się w nim zarówno znaki jednobajtowe, zaczynające się od 0, jak i wielobajtowe, przy czym 2 bajtowe mają schemat 110xxxxx 10xxxxxx, 3 bajtowe – 1110xxxx 10xxxxxx 10xxxxxx itd. Innymi standardami są na przykład Windows-1250, nazywany także CP-1250, ISO 8859-2, DOS CP852 i Mazovia. Jednym z programów, który umożliwia ich konwersję jest Gżegżółka darmowo dostępna w internecie.

Warto także ustalić w jaki sposób korpusy zostały utworzone, gdyż zwykle ma to swoje odbicie w ich jakości. Mowa może być nagrywana przez telefon lub bezpośrednio przez mikrofon, w tym drugim przypadku w warunkach studyjnych lub nie. Korpusy mowy zawierają zwykle transkrypcje, które mogą być robione automatycznie lub ręcznie, co ma szczególnie duże znaczenie, jeśli zawierają segmentacje, czyli przypisanie czasów poszczególnym jednostkom. Proces ręcznej segmentacji jest bardzo kosztowny, ale dokładniejszy niż metody automatyczne. Proces przypisywania czasów poszczególnym jednostkom akustycznym może być robiony z bardzo różną starannością. W wypadku zakupu jakichkolwiek korpusów, należy zawsze przed zakupem przeanalizować próbkę nagrań i odpowiadających im transkrypcji. Nigdy nie należy się kierować wyłącznie stosunkiem ilości danych do ceny. Przy nagrywaniu korpusu mowy, należy odrzucać i powtarzać nagrania wszystkich wyraźnych felerów takich jak zająknięcia, powtórzenia słów lub ich błędne wypowiedzenia.

www.dsp.agh.edu.pl

21 maj 2013

Panel dyskusyjny o transferze wiedzy do gospodarki

Panel dyskusyjny o transferze wiedzy do gospodarki odbędzie się w ramach konferencji podsumowującej program stypendialny Doctus. Organizatorem jest Małopolskie Centrum Przedsiębiorczości. Panelistami będą prof. dr hab. inż. Tadeusz Uhl (AGH i EC), dr inż. Bartosz Ziółko (AGH i Techmo), Łukasz Kozak (ABATECH) i Sebastian Weber (Uniwersytet Ekonomiczny w Krakowie). Konferencja odbędzie się 11 czerwca 2013 w Muzeum Lotnictwa Polskiego, Al. Jana Pawła II 39 w Krakowie. Panel jest zaplanowany na 14.50.

Zapraszam

20 maj 2013

Komercyjny system rozpoznawania emocji w mowie

Izraelska firma Beyond Verbal zaczęła sprzedawać swój system rozpoznawania emocji w mowie. Był testowany dla 26 języków. Niestety nie wiemy, czy w tym dla polskiego. Prace nad systemem trwały 18 lat. Więcej o Beyond Verbal.

Zasoby językowe, część pierwsza

Fragment książki "Przetwarzanie mowy"

Bardzo ważnym czynnikiem w opracowaniu nowych technologii mowy są zasoby językowe. Prawie wszystkie metody wymagają zapisu mowy, bądź jako dźwięku, bądź tekstów, do statystycznego opracowania parametrów dla odpowiednich modeli. Proces ten zwyczajowo nazywamy szkoleniem. Co więcej, techniki wykorzystujące mowę są tym skuteczniejsze, im więcej materiałów zostało wykorzystanych. Wielu naukowców walczy o zdobywanie kolejnych materiałów, czasami jednocześnie czuwając nad tym, aby ich własne nie dostały się w ręce konkurentów. W ten sposób rywalizujące laboratoria strzegące zasobów językowych zaczynają przypominać zamki pilnujące księżniczek.

Duży, w jakimś sensie kompletny, zbiór danych językowych nazywamy korpusem. W tym rozdziale opiszemy najpopularniejsze korpusy, szczególnie języka polskiego oraz przybliżymy sposoby, w jakie się je gromadzi. Większość korpusów zawiera powieści lub artykuły prasowe. Zdarzają się jednak także stenogramy i strony internetowe. Do niektórych zastosowań potrzebne są zbiory nazw własnych, jak na przykład nazwiska lub nazwy ulic i miast.

Jedną z trudności w przeprowadzaniu badań nad technologiami mowy jest brak standardowych korpusów testowych. Bardzo utrudnia to porównywanie istniejących metod, gdyż wiele zespołów prowadzi badania z wykorzystaniem innych danych. Wynika to głównie z dwóch czynników. Po pierwsze badania te są prowadzone na różnych językach, więc i korpusy muszą składać się z danych pochodzących z różnych języków. Drugim powodem są wspomniane wyżej koszty związane z wytwarzaniem korpusów. Są to zwykle drogie zasoby. Z tego powodu, każdy zespół korzysta z zasobów, które uda mu się pozyskać.

www.dsp.agh.edu.pl

19 maj 2013

Booka - Bazar Używanych Książek

Nawiązaliśmy współpracę z serwisem booka.net.pl

Booka to serwis z ogłoszeniami książek używanych - znajdziecie tam wyszukiwarkę książek od użytkowników i kilku krakowskich antykwariatów (w tym momencie łącznie ponad 30 000 książek). Można też wystawiać ogłoszenia o własnych książkach używanych na sprzedaż.

W serwisie wszystko jest darmowe, powstał jako inicjatywa non-profit krakowskich studentów.

Zapraszamy do:
- wyszukiwania,
- kupowania,
- sprzedawania
książek używanych na Booce!

11 maj 2013

Wirtualny doradca DSP AGH

Jeden z naszych studentów zainteresował się poważnie wirtualnymi doradcami Stanusch Technologies i jest w trakcie wprowadzania faktów o naszym zespole, o AGH i o studiach inżynieria akustyczna. Cały czas jest usprawniany, a każda rozmowa z nią jest wykorzystywana, żeby lepiej działała, tak więc proszę o pomoc i testowanie.

www.dsp.agh.edu.pl

10 maj 2013

speechsamples.agh.edu.pl

Strona internetowa speechsamples.agh.edu.pl działa już z pełną funkcjonalnością. Są już także pierwsze próbki różnych języków. Proszę o przekazanie linku wszelkim znajomym obcokrajowcom z prośbą o zarejestrowanie próbki głosu swojego języka ojczystego. Chcemy zebrać co najmniej 300 języków aby na ich podstawie weryfikować hipotezy jak ludzkość rozpowszechniała się po kontynentach.

dsp.agh.edu.pl

24 maj 2013

Wybór korpusu mowy

21 maj 2013

Panel dyskusyjny o transferze wiedzy do gospodarki

20 maj 2013

Komercyjny system rozpoznawania emocji w mowie

Zasoby językowe, część pierwsza

19 maj 2013

Booka - Bazar Używanych Książek

11 maj 2013

Wirtualny doradca DSP AGH

10 maj 2013

speechsamples.agh.edu.pl

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń