Rozpoznawanie Mowy

18 cze 2015

FedCSIS

Nasz artykuł "COMPARISON OF LANGUAGE MODELS TRAINED ON WRITTEN TEXTS AND SPEECH TRANSCRIPTS IN THE CONTEXT OF AUTOMATIC SPEECH RECOGNITION" został przyjęty na konferencję FedCSIS. Praca opisuje nasze eksperymenty statystyczne nad różnicami w stosowaniu transkrypcji mowy i innych tekstów do modelowania języka przy rozpoznawaniu mowy.

We investigate whether language models used in automatic speech recognition (ASR) should be trained on speech transcripts rather than on written texts. By calculating log-likelihood statistic for part-of-speech (POS) n-grams, we show that there are significant differences between written texts and speech transcripts. We also test the performance of language models trained on speech transcripts and written texts in ASR and show that using the former results in greater word error reduction rates (WERR), even if the model is trained on much smaller corpora. For our experiments we used the manually labeled one million subcorpus of the National Corpus of Polish and an HTK acoustic model.

www.dsp.agh.edu.pl

10 cze 2015

Detecting Recorded Speech for Polish Language

Nasz artykuł o wykrywaniu automatycznych sekretarek został przyjęty na konferencję IEEE Africon. Artykuł ocenia trzy metody które mają zastosowanie do wspomnianego zadania. Testy zostały przeprowadzone ze względu na zainteresowanie zastosowaniami tego typu oprogramowania. Może ono służyć do obniżenia kosztów prowadzenia działalności polegającego na wydzwanianiu do klientów poprzez unikanie sytuacji w której automat rozmawia z automatem.

"Three possible methods of detecting recorded speech were analysed and tested according to their applicability in the field of voicemail detection in this paper. Methods chosen for testing were: transmission channel characteristics extraction with PFCC, recorded speech detection with trained pattern classifier, differences in transmission channels and speech recognition. Most of the tests gave results credible enough to confirm methods’ usefulness in the field of voicemail detection. Suggestions of implementation possibilities and parameters of each method and possible trends of further studies were also included."

8 cze 2015

Interspeech 2015

Dwa nasze artykuły dostały się na sesję Show&Tell tegorocznego Interspeecha! Cieszymy się bardzo ze względu na to wyróżnienie. Pierwsza praca i demo będą dotyczyły systemu rozpoznawania mowy SARMATA, a drugie stanowiska do wsparcia rozpoznawaniem mówcy telefonu alarmowego.

www.dsp.agh.edu.pl

20 maj 2015

Polska nauka niedoinwestowana?

Chyba nie... chciałbym przedstawić przykład. Trochę się zajmowałem kiedyś na prośbę Biura Rektora AGH analizą tego jak działają wyszukiwarki publikacji takie jak Thomson Retuers Web of Science czy Scopus. Znalazłem wtedy dokument porównujący te dwa produkty. W jego podsumowaniu napisano, że są dość podobne więc mało które uczelnie stać na wykupywanie dostępu do obu. To była perspektywa amerykańskich uczelni... W Polsce z tego co się orientuję, wszystkie uczelnie mają wykupiony dostęp do obu. Jestem teraz w Japonii i tutaj też bieda, jak w Ameryce ;). Na Hokkaido University był dostęp do Wos, a nie było do Scopusu, a na Kitami Institute of Technology nie ma do WoS, a jest do Scopusa. Więc wniosek z tego chyba taki że to nie brak pieniędzy jest problemem polskiej nauki tylko coś innego ... Takie drobne przemyślenia mnie naszły wieczorem ...

www.dsp.agh.edu.pl

12 maj 2015

Wizyta w Araki Lab na Hokkaido University

Jestem właśnie w trakcie wizyty w laboratorium prof. Arakiego specjalizującego się w przetwarzaniu języka naturalnego. Prezentowałem tutaj zakres działalności zespołu DSP AGH, a zwłaszcza zgłoszenie patentowe o zastosowaniu dynamicznych sieci Bayesa w rozpoznawaniu mowy. Obecnie zapoznaję się ze szczegółami działalności ArakiLab i całego Hokkaido University (Hokudai).

Uniwersytet konkuruje o miano najstarszej uczelni japońskiej z Uniwersytetem w Tokio. Ma także jeden z dwóch największych kampusów w Japonii, a w 2010 roku pracujący tu prof. Suzuki otrzymał nagrodę Nobla z chemii.

Ponad dwudziestoosobowy zespół prof. Araki zajmuje się wieloma ciekawymi tematami z zakresy przetwarzania języka naturalnego, np. automatyczną analizą humoru czy nauką wiedzy podstawowej i etyki przez komputery na podstawie analizy tekstów. Wiodącą wizją prof. Araki są roboty które będą w idealny sposób naśladować ludzi i wraz ze swoimi pracownikami bardzo skutecznie i konsekwentnie tą wizję realizuje z punktu widzenia sztucznej inteligencji.

Bardzo ciekawym doświadczeniem dla mnie jest także sposób organizacji pracy w zespole prof. Arakiego. O tym jednak muszę nauczyć się jeszcze więcej, aby opisać te metody dokładniej.

9 maj 2015

Artykuł w Language Resources and Evaluation

Nasz artykuł o korpusie mowy został udostępniony przez wydawcę w internecie: http://link.springer.com/article/10.1007/s10579-015-9302-y?wt_mc=event.ArticleAuthor.OnlineFirst Ostatnie miesiące przyniosły jednak spore zmiany w korpusie i składa się on teraz z nagrań blisko 700 osób i około 60 godzin.

www.dsp.agh.edu.pl

4 maj 2015

CYBCONF - 2nd IEEE International Conference on Cybernetics

Nasz artykuł "Linguistically motivated tied-state triphones for Polish speech recognition" został przyjęty na konferencję CYBCONF, która odbędzie się w czerwcu w Gdyni. Praca opisuje nasze podejście do budowania modelu trifonowego w oparciu o zastosowanie klas kontekstowych wyprowadzonych z podziału fonemów na kategorie fonetyczne. Podejście takie umożliwia wykonanie modelu trifonowego bez dużej ilości nagrań i bez znaczących problemów obliczeniowych. Model taki daje jednak wyniki rozpoznania średnio o ponad 1 % lepsze od monofonowego.