Rozpoznawanie Mowy: rozpoznawanie mowy

Pokazywanie postów oznaczonych etykietą rozpoznawanie mowy. Pokaż wszystkie posty

19 cze 2016

Smartfony mają zniknąć za 5 lat ?

... i to głównie przez niechęć do ekranów i zużywanej przez nie energii. Tak wskazuje ankieta przeprowadzona przez Ericssona na 100 00 osób: http://www.cnbc.com/2015/12/09/people-think-the-smartphone-will-be-dead-in-5-years-ericsson.html

18 cze 2015

FedCSIS

Nasz artykuł "COMPARISON OF LANGUAGE MODELS TRAINED ON WRITTEN TEXTS AND SPEECH TRANSCRIPTS IN THE CONTEXT OF AUTOMATIC SPEECH RECOGNITION" został przyjęty na konferencję FedCSIS. Praca opisuje nasze eksperymenty statystyczne nad różnicami w stosowaniu transkrypcji mowy i innych tekstów do modelowania języka przy rozpoznawaniu mowy.

We investigate whether language models used in automatic speech recognition (ASR) should be trained on speech transcripts rather than on written texts. By calculating log-likelihood statistic for part-of-speech (POS) n-grams, we show that there are significant differences between written texts and speech transcripts. We also test the performance of language models trained on speech transcripts and written texts in ASR and show that using the former results in greater word error reduction rates (WERR), even if the model is trained on much smaller corpora. For our experiments we used the manually labeled one million subcorpus of the National Corpus of Polish and an HTK acoustic model.

www.dsp.agh.edu.pl

8 cze 2015

Interspeech 2015

Dwa nasze artykuły dostały się na sesję Show&Tell tegorocznego Interspeecha! Cieszymy się bardzo ze względu na to wyróżnienie. Pierwsza praca i demo będą dotyczyły systemu rozpoznawania mowy SARMATA, a drugie stanowiska do wsparcia rozpoznawaniem mówcy telefonu alarmowego.

www.dsp.agh.edu.pl

4 maj 2015

CYBCONF - 2nd IEEE International Conference on Cybernetics

Nasz artykuł "Linguistically motivated tied-state triphones for Polish speech recognition" został przyjęty na konferencję CYBCONF, która odbędzie się w czerwcu w Gdyni. Praca opisuje nasze podejście do budowania modelu trifonowego w oparciu o zastosowanie klas kontekstowych wyprowadzonych z podziału fonemów na kategorie fonetyczne. Podejście takie umożliwia wykonanie modelu trifonowego bez dużej ilości nagrań i bez znaczących problemów obliczeniowych. Model taki daje jednak wyniki rozpoznania średnio o ponad 1 % lepsze od monofonowego.

www.dsp.agh.edu.pl

24 kwi 2015

Wykład w Sapporo i Kitami

Bartosz Ziółko wygłosi wykłady o działalności Zespołu i o zgłoszeniu patentowym „System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli sieci Bayesa” na Hokkaido University w Sapporo 11 maja i Kitami Institute of Technology 19 maja.

www.dsp.agh.edu.pl

20 kwi 2015

Korpus mowy AGH

Nasz artykuł P. Żelasko, B. Ziółko, T. Jadczyk, D. Skurzok "AGH Corpus of Polish Speech" został przyjęty do druku w Language Resources and Evaluation (IF = 0.922). Artykuł opisuje zawartość korpusu, specyfikę języka polskiego pod kątem przetwarzania mowy oraz proces powstawiania korpusu. Artykuł przechodził długi proces recenzji, tak więc najświeższe dane o korpusie znajdują się poniżej.

Korpus zawiera blisko 55 godzin anotowanych nagrań (część nagrań na poziomie fonemów, część wyrazów, a część całych fraz), plus około pół godziny nagrań testowych bez anotacji czasowych. W korpusie są mówcy, których nagrania trwają ponad godzinę. Reszta to mówcy których nagrania trwają po kilka lub kilkanaście minut. W sumie korpus zawiera nagrania około 600 osób. W korpusie jest niewielka przewaga głosów męskich i dość znacząca osób w wieku 20-30 lat. Nagrania rejestrowano w różnych warunkach i na różnym sprzęcie (w tym nagrania telefoniczne). Wszystkie są przechowywane w standardzie 16 bit i 16 [kHz].

www.dsp.agh.edu.pl

11 mar 2015

Fuzzy Precision and Recall Measures for Audio Signals Segmentation

Artykuł B. Ziółko „Fuzzy Precision and Recall Measures for Audio Signals Segmentation” został przyjęty do czasopisma Fuzzy Sets and Systems (5-years Impact Factor 2.263).

The approach presented in this paper applies fuzzy set theory to the evaluation of audio signals segmentation with high resolution and accuracy. The method is based on comparing automatically found boundaries with ground truth. Hence, the method is more accurate and able to grasp the evaluation problem in a way more similar to the evaluation conducted by a human being. Traditional methods often fail on grading segmentation algorithms, particularly those of relatively similar qualities.

We define a fuzzy membership function that measures the degree to which the segments obtained by an automatic procedure are similar to the results of a correct segmentation. To identify a pair of equivalent segments, we set a fuzzy alignment function that points the pairs of segments obtained by an automatic segmentation with the corresponding segments from a correct segmentation. Speech segmentation is an example where the presented approach was applied.

www.dsp.agh.edu.pl

11 lut 2015

Telewizory gromadzą korpusy mowy

Polskie Radio donosi o ciekawych oświadczeniach Samsunga na temat ich Smart TV. Podobno firma rozbudowuje swój korpus rejestrując to co się mówi przy telewizorach z funkcją rozpoznawania mowy. Ja się temu nie dziwię, ale to się chyba nie przyjmie społecznie ;)

Więcej na http://www.polskieradio.pl/23/3/Artykul/1373872

28 paź 2014

Robot obsługujący klientów w Dolinie Krzemowej

"Klient może przyjść do sklepu z jakąś śrubką i powiedzieć: "Panie robocie, potrzebuję tego więcej". Jeśli takie śruby są dostępne, robot poinformuje o tym, a następnie zaprowadzi klienta do właściwej półki - mówi Kyle Nel, dyrektor laboratorium innowacji firmy Lowe's Companies Inc., do której należą sklepy Orchard Supply Hardware. Roboty rozpoznają język angielski i hiszpański."

Więcej na TVN24bis

The Role of Acoustic Features in Marking Accent and Delimiting Sentence Boundaries in Spoken Polish

Nasza publikacja "The Role of Acoustic Features in Marking Accent and Delimiting Sentence Boundaries in Spoken Polish" została przyjęta do druku w czasopiśmie Acta Physica Polonica (Impact Factor 0.604). Opisujemy w niej modele statystyczne dotyczące korelacji między realizacjami fonemów a ich położeniem w zdaniu i akcentem.

www.dsp.agh.edu.pl

8 sie 2014

PAP o Sarmacie i Techmo

"Sarmata to system komputerowy, który rozpoznaje polskie słowa. Większość podobnych technologii jest opartych na języku angielskim. Konstruktorzy z AGH „nauczyli” swój system rozpoznawać tysiąc polskich komend. Tym samym otworzyli Polakom możliwość głosowego komunikowania się z urządzeniami cyfrowymi. Pierwsze wdrożenia nastąpią w telekomunikacji."

Więcej na PAP

6 sie 2014

Two-microphone dereverberation for Polish ASR

Nasz artykuł "Two-microphone dereverberation for Polish ASR" został przyjęty do druku w czasopiśmie z Listy Filadelfijskiej Archives of Acoustics. Praca powstała we współpracy z University of Surrey i opisuje eksperymenty z rozpoznawaniem mowy polskiej i angielskiej w warunkach pogłosu.

www.dsp.agh.edu.pl

6 lip 2014

Pokonferencyjne artykuły XXII Pacific Voice Conference

IEEE opublikowało wybrane prace organizowanej przez nas XXII Pacific Voice Conference. Zapraszamy do lektury. Prace dotyczą rozpoznawania mówców i mowy, w tym zastosowań do leczenia mowy patologicznej, rozwiajania własnego głosu przez ludzi.

www.dsp.agh.edu.pl

24 cze 2014

Pół godziny na infolinii

Dzisiaj próbowałem odblokować telefon który w nie do końca znanych mi okolicznościach został zablokowany gdy byłem w Stanach. Sam początek był tragiczny. W tej samej informacji w której przekazano mi, że nie mogę wykonywać połączeń wychodzących napisano też że mam zadzwonić na infolinię. Gdy odpisałem, że nie mogę zadzwonić bo właśnie zablokowaliście mi telefon, firma nie widziała w tym żadnego problemu.

Potem było coraz gorzej. Zadzwoniłem na wskazany numer z pożyczonego telefonu. Najpierw klapa bo chcą żebym wybrał numer 1 lub 2 a tu ekran dotykowy nieaktywny w trakcie rozmowy... (rozpoznawanie mowy między 1 a 2 to potrafi zrobić 90% naszych studentów).

Przełożyłem nieswoją kartę do swojego telefonu i dzwonię ponownie. Po wybraniu numeru odezwała się Pani, tłumacze jej swój problem, na spokojnie. Ona weryfikuje moją tożsamość pytając o nazwisko i pesel (i to podobno jest bezpieczniejsze od biometrii!!!). Potem mówi żebym czekał. Po kilku minutach wraca i mówi, że ma problemy techniczne i mnie przełączy do koleżanki. Ok. Myślę sobie poznam koleżankę. Niestety nie, kolejny automat i wybór menu. Rozłączam się i dzwonię ponownie do pierwszej. Mówię, że było menu, na co ona to proszę wybrać opcję odblokowanie karty. Acha ... Przełącza mnie. Takiej opcji nie ma, wybieram "czy jesteś naszym klientem - tak". "Podaj identyfikator klienta"... Dzwonię do pierwszej i mówię, że nie pamiętam swojego identyfikatora (a w domu, gdzie mam to zapisane, nie będę miał nie swojej karty sim żeby móc zadzwonić ...). Pani mówi żebym czekał i że mi sprawdzi. Kolejna minuta upływa i mówi że ma problemy techniczne, że spróbuje mnie połączyć jeszcze raz, a jak się nie uda to żebym zadzwonił na pełnopłatny numer bezpośrednio do owej koleżanki (na razie płaciłem tylko 1 zł za każde dzwonienie).

Po przełączeniu pojawiło sie to samo menu, więc tym razem wybrałem "połącz z konsultantem". Nie było koleżanki, był pan. Tłumaczę swoją sprawę, mówi żebym poczekał, wraca po kilku minutach i mówi żebym zasilił konto. Na co ja że tego już próbowałem i system nie chciał przyjąć ode mnie pieniędzy. Podpowiadam , że może jest jakaś kwota którą trzeba wrzucić gdy numer jest zablokowany. Pan mówi żebym znowu czekał. Po jakimś czasie wraca i mówi, że puści mi melodyjkę i żebym czekał dalej. Kilka minut później melodyjka niepokojąca zarzyna się jakby w analogowym urządzeniu zaczęło brakować zasilania, ale czekam. Pan wraca i mówi żebym spróbował jeszcze raz, a jak się nie uda to spróbował nie przez internet ,tylko w bankomacie i żebym spisywał komunikaty. Jak się z różnych źródeł nie uda, to żebym wysłał pisemnie reklamację.

Naprawdę potrzebujemy przełomu technologicznego w tym temacie ...

www.dsp.agh.edu.pl

SIGMAP

Nasz artykuł o modelowaniu ciszy, oddechów itp. w rozpoznawaniu mowy "HMM-based breath and Filled Pauses Elimination in ASR" został przyjęty na konferencji SIGMAP 2014. Jest to bardzo ambitna konferencja, w niektórych latach indeksowana przez Thomson Reuters w Web of Knowledge oraz w Scopusie. Cieszymy się szczególnie, ponieważ głównym autorem tak dojrzałej publikacji i samego toku badań jest student przed obroną pracy magisterskiej - Piotr Żelasko. Gratulujemy!

www.dsp.agh.edu.pl

4 cze 2014

Siri ma znać polski?

Pojawiają się doniesienia prasowe, że nowa wersja SIRI będzie znać język polski. Szczegóły na spidersweb.

15 kwi 2014

Korpusy audiovideo i emocjonalny

Niedawno się zorientowałem że mamy filmiki demonstrujące nasze korpusy audiovideo i emocjonalny a nie ma ich na youtubie. Szybko naprawiłem ten błąd:

2 kwi 2014

Na jakie cyfry stranskrybował się Slayer?

Dawid wpuścił wczoraj na wejście systemu Sarmata ustawionego na rozpoznawanie cyfr piosenkę Slayera. Kto zgadnie jakie cyfry się rozpoznały? ;)

19 cze 2016

Smartfony mają zniknąć za 5 lat ?

18 cze 2015

FedCSIS

8 cze 2015

Interspeech 2015

4 maj 2015

CYBCONF - 2nd IEEE International Conference on Cybernetics

24 kwi 2015

Wykład w Sapporo i Kitami

20 kwi 2015

Korpus mowy AGH

11 mar 2015

Fuzzy Precision and Recall Measures for Audio Signals Segmentation

11 lut 2015

Telewizory gromadzą korpusy mowy

28 paź 2014

Robot obsługujący klientów w Dolinie Krzemowej

The Role of Acoustic Features in Marking Accent and Delimiting Sentence Boundaries in Spoken Polish

8 sie 2014

PAP o Sarmacie i Techmo

6 sie 2014

Two-microphone dereverberation for Polish ASR

6 lip 2014

Pokonferencyjne artykuły XXII Pacific Voice Conference

24 cze 2014

Pół godziny na infolinii

SIGMAP

4 cze 2014

Siri ma znać polski?

15 kwi 2014

Korpusy audiovideo i emocjonalny

2 kwi 2014

Na jakie cyfry stranskrybował się Slayer?

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń