Rozpoznawanie Mowy

12 maj 2015

Wizyta w Araki Lab na Hokkaido University

Jestem właśnie w trakcie wizyty w laboratorium prof. Arakiego specjalizującego się w przetwarzaniu języka naturalnego. Prezentowałem tutaj zakres działalności zespołu DSP AGH, a zwłaszcza zgłoszenie patentowe o zastosowaniu dynamicznych sieci Bayesa w rozpoznawaniu mowy. Obecnie zapoznaję się ze szczegółami działalności ArakiLab i całego Hokkaido University (Hokudai).

Uniwersytet konkuruje o miano najstarszej uczelni japońskiej z Uniwersytetem w Tokio. Ma także jeden z dwóch największych kampusów w Japonii, a w 2010 roku pracujący tu prof. Suzuki otrzymał nagrodę Nobla z chemii.

Ponad dwudziestoosobowy zespół prof. Araki zajmuje się wieloma ciekawymi tematami z zakresy przetwarzania języka naturalnego, np. automatyczną analizą humoru czy nauką wiedzy podstawowej i etyki przez komputery na podstawie analizy tekstów. Wiodącą wizją prof. Araki są roboty które będą w idealny sposób naśladować ludzi i wraz ze swoimi pracownikami bardzo skutecznie i konsekwentnie tą wizję realizuje z punktu widzenia sztucznej inteligencji.

Bardzo ciekawym doświadczeniem dla mnie jest także sposób organizacji pracy w zespole prof. Arakiego. O tym jednak muszę nauczyć się jeszcze więcej, aby opisać te metody dokładniej.

9 maj 2015

Artykuł w Language Resources and Evaluation

Nasz artykuł o korpusie mowy został udostępniony przez wydawcę w internecie: http://link.springer.com/article/10.1007/s10579-015-9302-y?wt_mc=event.ArticleAuthor.OnlineFirst Ostatnie miesiące przyniosły jednak spore zmiany w korpusie i składa się on teraz z nagrań blisko 700 osób i około 60 godzin.

www.dsp.agh.edu.pl

4 maj 2015

CYBCONF - 2nd IEEE International Conference on Cybernetics

Nasz artykuł "Linguistically motivated tied-state triphones for Polish speech recognition" został przyjęty na konferencję CYBCONF, która odbędzie się w czerwcu w Gdyni. Praca opisuje nasze podejście do budowania modelu trifonowego w oparciu o zastosowanie klas kontekstowych wyprowadzonych z podziału fonemów na kategorie fonetyczne. Podejście takie umożliwia wykonanie modelu trifonowego bez dużej ilości nagrań i bez znaczących problemów obliczeniowych. Model taki daje jednak wyniki rozpoznania średnio o ponad 1 % lepsze od monofonowego.

www.dsp.agh.edu.pl

24 kwi 2015

Wykład w Sapporo i Kitami

Bartosz Ziółko wygłosi wykłady o działalności Zespołu i o zgłoszeniu patentowym „System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli sieci Bayesa” na Hokkaido University w Sapporo 11 maja i Kitami Institute of Technology 19 maja.

www.dsp.agh.edu.pl

23 kwi 2015

Disney pracuje nad syntezą dialogów do filmów

Tak naprawdę to nie do końca syntezą, ale prawie. Chcą wykonywać nowe nagrania na podstawie istniejących. My planujemy pracę nad czymś podobnym ale do gier i z uwzględnieniem dodatkowych możliwości zmian. Szczegóły o pracach Disneya na SpeechTechMag.

20 kwi 2015

Korpus mowy AGH

Nasz artykuł P. Żelasko, B. Ziółko, T. Jadczyk, D. Skurzok "AGH Corpus of Polish Speech" został przyjęty do druku w Language Resources and Evaluation (IF = 0.922). Artykuł opisuje zawartość korpusu, specyfikę języka polskiego pod kątem przetwarzania mowy oraz proces powstawiania korpusu. Artykuł przechodził długi proces recenzji, tak więc najświeższe dane o korpusie znajdują się poniżej.

Korpus zawiera blisko 55 godzin anotowanych nagrań (część nagrań na poziomie fonemów, część wyrazów, a część całych fraz), plus około pół godziny nagrań testowych bez anotacji czasowych. W korpusie są mówcy, których nagrania trwają ponad godzinę. Reszta to mówcy których nagrania trwają po kilka lub kilkanaście minut. W sumie korpus zawiera nagrania około 600 osób. W korpusie jest niewielka przewaga głosów męskich i dość znacząca osób w wieku 20-30 lat. Nagrania rejestrowano w różnych warunkach i na różnym sprzęcie (w tym nagrania telefoniczne). Wszystkie są przechowywane w standardzie 16 bit i 16 [kHz].

www.dsp.agh.edu.pl

12 maj 2015

Wizyta w Araki Lab na Hokkaido University

9 maj 2015

Artykuł w Language Resources and Evaluation

4 maj 2015

CYBCONF - 2nd IEEE International Conference on Cybernetics

24 kwi 2015

Wykład w Sapporo i Kitami

23 kwi 2015

Disney pracuje nad syntezą dialogów do filmów

20 kwi 2015

Korpus mowy AGH

30 mar 2015

AudioSlides do artykułu o ocenie segmentacji audio

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń