Rozpoznawanie Mowy

25 maj 2024

Kanał YouTube

Obecnie treści zbliżone tematycznie do tego bloga publikuję na kanale https://www.youtube.com/channel/UCElOYjNcHqgZLiJUMOW-yng

19 cze 2016

Smartfony mają zniknąć za 5 lat ?

... i to głównie przez niechęć do ekranów i zużywanej przez nie energii. Tak wskazuje ankieta przeprowadzona przez Ericssona na 100 00 osób: http://www.cnbc.com/2015/12/09/people-think-the-smartphone-will-be-dead-in-5-years-ericsson.html

15 mar 2016

Google zrobił ASR na RNN offline na smartfonach

Google opublikowało badania z których wynika, że na Nexusie 5 ASR działa w ok. 7x czasu rzeczywistego przy zużyciu łącznie 20 MB pamięci, i w trybie dyktowania (open dictation task) WER pogarsza się jedynie z 11% do 13% w stosunku do wersji online na serwerze. http://research.google.com/pubs/pub44631.html

18 wrz 2015

Telesprzedaż na czele listy zawodów które zostaną całkowicie zautomatyzowane

"BBC, naukowcy z Uniwersytetu Oksfordzkiego i firma Deloitte opracowali listę 365 zawodów i poddali je ocenie, w jakim stopniu są zagrożone ryzykiem automatyzacji i cyfryzacji. Według raportu w Wielkiej Brytanii w ciągu najbliższych dwóch dekad zniknie 35 proc. zawodów.
Największe ryzyko utraty pracy dotyczy osób zatrudnionych w telesprzedaży. Szansa na to, że zawód ten zostanie zautomatyzowany w ciągu najbliższych dwóch dekad, wynoszą aż 99 proc."

Więcej w Wyborczej

30 sie 2015

LTC 2015

Już za kilkanaście dni mija termin zgłaszania artykułów na świetnej konferencji w Poznaniu. Poniżej szczegóły - polecam.

The 7th Language and Technology Conference (LTC 2015), November 27-29, 2015, Poznań, Poland

CALL FOR PAPERS – reminder

Dear Colleagues,
We hope that you have already noticed that the 7th LTC is going to be organized this year. We will be happy for your submission to this conference and therefore we permit ourselves to remind you that the deadline for paper submissions has been fixed to September 10, 2015. Submission through EasyChair is already operational.

Some of crucial facts about LTC 2015 follows. Much more at www.ltc.amu.edu.pl.

LANGUAGE: The conference language is English

IMPORTANT DATES/DEADLINES
* Deadline for submission of papers for review: September 10, 2015
* Acceptance/Rejection notification: October 1, 2015
* Deadline for submission of final versions of accepted papers: October 15, 2015
* Conference: November 27-29, 2015

CONTACT: ltc15@amu.edu.pl or vetulani@amu.edu.pl

PAPER SUBMISSION
The conference accepts papers in English. Papers (5 formatted pages in the conference format) are due by September 10, 2015 (midnight, any time zone) and should not disclose the author(s) in any manner. In order to facilitate submission we have decided to reduce the formatting requirements as much as possible at this stage. Please, have a look at www.ltc.amu.edu.pl (Paper Submission section).

All submissions are to be made electronically via the LTC 2015 web
submission system (EasyChair). Acceptance/rejection notification will be sent by October 1, 2015. The Word template (ELRA/LREC based format) is available from http://www.ltc.amu.edu.pl (see Paper Submission section).

PUBLICATION POLICY
Acceptance will be based on the reviewers' assessments (anonymous submission model). The accepted papers will be published in the conference proceedings (hard copy, with ISBN number) and on CD-ROM. The abstracts of the accepted contributions will also be made available via the conference page (during its lifetime). Publication requires full electronic registration and payment of the conference fee (full registration) by at least one co-authors in the due time (dates will be presented soon at the conference site). One registration fee entitles publication of one paper.

A post-conference volume with extended versions of selected papers is planned to be published. As this was the case for the last three conferences, we intend to publish them in the Springer series Lecture Notes in Artificial Intelligence.

REGISTRATION
Only electronic registration will be possible. Details will be published at www.ltc.amu.edu.pl.

AWARDS FOR BEST STUDENT PAPERS
As at the 2nd, 3rd, 4th, 5th and 6th Language and Technology Conferences (2005, 2007, 2009, 2011, 2013) special awards will be granted to the best student papers. The regular or PhD students (on the date of paper submission) are concerned. More details will be provided at www.ltc.amu.edu.pl.

22 lip 2015

O Techmo na III Zlocie Top 500 Innovators

7 lip 2015

Oferta pracy w Canterbury

University of Kent - bardzo dobra uczelnia i bardzo ładne miasto - polecam.

https://jobs.kent.ac.uk/fe/tpl_kent01.asp?s=4A515F4E5A565B1A&jobid=39293,3436347277&key=44012873&c=493414763421&pagestamp=sesdyyyrqxijqwrrmd

18 cze 2015

FedCSIS

Nasz artykuł "COMPARISON OF LANGUAGE MODELS TRAINED ON WRITTEN TEXTS AND SPEECH TRANSCRIPTS IN THE CONTEXT OF AUTOMATIC SPEECH RECOGNITION" został przyjęty na konferencję FedCSIS. Praca opisuje nasze eksperymenty statystyczne nad różnicami w stosowaniu transkrypcji mowy i innych tekstów do modelowania języka przy rozpoznawaniu mowy.

We investigate whether language models used in automatic speech recognition (ASR) should be trained on speech transcripts rather than on written texts. By calculating log-likelihood statistic for part-of-speech (POS) n-grams, we show that there are significant differences between written texts and speech transcripts. We also test the performance of language models trained on speech transcripts and written texts in ASR and show that using the former results in greater word error reduction rates (WERR), even if the model is trained on much smaller corpora. For our experiments we used the manually labeled one million subcorpus of the National Corpus of Polish and an HTK acoustic model.

www.dsp.agh.edu.pl

10 cze 2015

Detecting Recorded Speech for Polish Language

Nasz artykuł o wykrywaniu automatycznych sekretarek został przyjęty na konferencję IEEE Africon. Artykuł ocenia trzy metody które mają zastosowanie do wspomnianego zadania. Testy zostały przeprowadzone ze względu na zainteresowanie zastosowaniami tego typu oprogramowania. Może ono służyć do obniżenia kosztów prowadzenia działalności polegającego na wydzwanianiu do klientów poprzez unikanie sytuacji w której automat rozmawia z automatem.

"Three possible methods of detecting recorded speech were analysed and tested according to their applicability in the field of voicemail detection in this paper. Methods chosen for testing were: transmission channel characteristics extraction with PFCC, recorded speech detection with trained pattern classifier, differences in transmission channels and speech recognition. Most of the tests gave results credible enough to confirm methods’ usefulness in the field of voicemail detection. Suggestions of implementation possibilities and parameters of each method and possible trends of further studies were also included."

8 cze 2015

Interspeech 2015

Dwa nasze artykuły dostały się na sesję Show&Tell tegorocznego Interspeecha! Cieszymy się bardzo ze względu na to wyróżnienie. Pierwsza praca i demo będą dotyczyły systemu rozpoznawania mowy SARMATA, a drugie stanowiska do wsparcia rozpoznawaniem mówcy telefonu alarmowego.

www.dsp.agh.edu.pl

20 maj 2015

Polska nauka niedoinwestowana?

Chyba nie... chciałbym przedstawić przykład. Trochę się zajmowałem kiedyś na prośbę Biura Rektora AGH analizą tego jak działają wyszukiwarki publikacji takie jak Thomson Retuers Web of Science czy Scopus. Znalazłem wtedy dokument porównujący te dwa produkty. W jego podsumowaniu napisano, że są dość podobne więc mało które uczelnie stać na wykupywanie dostępu do obu. To była perspektywa amerykańskich uczelni... W Polsce z tego co się orientuję, wszystkie uczelnie mają wykupiony dostęp do obu. Jestem teraz w Japonii i tutaj też bieda, jak w Ameryce ;). Na Hokkaido University był dostęp do Wos, a nie było do Scopusu, a na Kitami Institute of Technology nie ma do WoS, a jest do Scopusa. Więc wniosek z tego chyba taki że to nie brak pieniędzy jest problemem polskiej nauki tylko coś innego ... Takie drobne przemyślenia mnie naszły wieczorem ...

www.dsp.agh.edu.pl

12 maj 2015

Wizyta w Araki Lab na Hokkaido University

Jestem właśnie w trakcie wizyty w laboratorium prof. Arakiego specjalizującego się w przetwarzaniu języka naturalnego. Prezentowałem tutaj zakres działalności zespołu DSP AGH, a zwłaszcza zgłoszenie patentowe o zastosowaniu dynamicznych sieci Bayesa w rozpoznawaniu mowy. Obecnie zapoznaję się ze szczegółami działalności ArakiLab i całego Hokkaido University (Hokudai).

Uniwersytet konkuruje o miano najstarszej uczelni japońskiej z Uniwersytetem w Tokio. Ma także jeden z dwóch największych kampusów w Japonii, a w 2010 roku pracujący tu prof. Suzuki otrzymał nagrodę Nobla z chemii.

Ponad dwudziestoosobowy zespół prof. Araki zajmuje się wieloma ciekawymi tematami z zakresy przetwarzania języka naturalnego, np. automatyczną analizą humoru czy nauką wiedzy podstawowej i etyki przez komputery na podstawie analizy tekstów. Wiodącą wizją prof. Araki są roboty które będą w idealny sposób naśladować ludzi i wraz ze swoimi pracownikami bardzo skutecznie i konsekwentnie tą wizję realizuje z punktu widzenia sztucznej inteligencji.

Bardzo ciekawym doświadczeniem dla mnie jest także sposób organizacji pracy w zespole prof. Arakiego. O tym jednak muszę nauczyć się jeszcze więcej, aby opisać te metody dokładniej.

9 maj 2015

Artykuł w Language Resources and Evaluation

Nasz artykuł o korpusie mowy został udostępniony przez wydawcę w internecie: http://link.springer.com/article/10.1007/s10579-015-9302-y?wt_mc=event.ArticleAuthor.OnlineFirst Ostatnie miesiące przyniosły jednak spore zmiany w korpusie i składa się on teraz z nagrań blisko 700 osób i około 60 godzin.

www.dsp.agh.edu.pl

4 maj 2015

CYBCONF - 2nd IEEE International Conference on Cybernetics

Nasz artykuł "Linguistically motivated tied-state triphones for Polish speech recognition" został przyjęty na konferencję CYBCONF, która odbędzie się w czerwcu w Gdyni. Praca opisuje nasze podejście do budowania modelu trifonowego w oparciu o zastosowanie klas kontekstowych wyprowadzonych z podziału fonemów na kategorie fonetyczne. Podejście takie umożliwia wykonanie modelu trifonowego bez dużej ilości nagrań i bez znaczących problemów obliczeniowych. Model taki daje jednak wyniki rozpoznania średnio o ponad 1 % lepsze od monofonowego.

www.dsp.agh.edu.pl

24 kwi 2015

Wykład w Sapporo i Kitami

Bartosz Ziółko wygłosi wykłady o działalności Zespołu i o zgłoszeniu patentowym „System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli sieci Bayesa” na Hokkaido University w Sapporo 11 maja i Kitami Institute of Technology 19 maja.

www.dsp.agh.edu.pl

23 kwi 2015

Disney pracuje nad syntezą dialogów do filmów

Tak naprawdę to nie do końca syntezą, ale prawie. Chcą wykonywać nowe nagrania na podstawie istniejących. My planujemy pracę nad czymś podobnym ale do gier i z uwzględnieniem dodatkowych możliwości zmian. Szczegóły o pracach Disneya na SpeechTechMag.

20 kwi 2015

Korpus mowy AGH

Nasz artykuł P. Żelasko, B. Ziółko, T. Jadczyk, D. Skurzok "AGH Corpus of Polish Speech" został przyjęty do druku w Language Resources and Evaluation (IF = 0.922). Artykuł opisuje zawartość korpusu, specyfikę języka polskiego pod kątem przetwarzania mowy oraz proces powstawiania korpusu. Artykuł przechodził długi proces recenzji, tak więc najświeższe dane o korpusie znajdują się poniżej.

Korpus zawiera blisko 55 godzin anotowanych nagrań (część nagrań na poziomie fonemów, część wyrazów, a część całych fraz), plus około pół godziny nagrań testowych bez anotacji czasowych. W korpusie są mówcy, których nagrania trwają ponad godzinę. Reszta to mówcy których nagrania trwają po kilka lub kilkanaście minut. W sumie korpus zawiera nagrania około 600 osób. W korpusie jest niewielka przewaga głosów męskich i dość znacząca osób w wieku 20-30 lat. Nagrania rejestrowano w różnych warunkach i na różnym sprzęcie (w tym nagrania telefoniczne). Wszystkie są przechowywane w standardzie 16 bit i 16 [kHz].

www.dsp.agh.edu.pl

30 mar 2015

AudioSlides do artykułu o ocenie segmentacji audio

www.dsp.agh.edu.pl

17 mar 2015

Przekleństwa w polskim języku

Analiza statystyczna anotacji Narodowego Korpusu Języka Polskiego ($ grep -rn . -e "kurw" | wc -l) pokazała, że w 2.5% wypowiedzi występują pojęcia powszechnie znane jako nacechowane semantycznie przecinki.

np:"

ja ostatnio jechałam do szkoły na siódmą trzydzieści wiecie co? obudziłam się o trzeciej rano i mówię tak kurwa napierdala mnie tak nie wstanę nie mówię na czworakach w ogóle tak mnie głowa bola że nie mogłam głową ruszać bo wypiliśmy chyba ze trzy butelki wina

Michał mi się z rzygał na świeżo kupiony dywan i dwa razy na poduszkę spał w kiblu mój tata na czworakach zapierdalał po domu żeby dostać się do łóżka nigdy nie widziałam mojego ojca tak pijanego"

www.dsp.agh.edu.pl

11 mar 2015

Fuzzy Precision and Recall Measures for Audio Signals Segmentation

Artykuł B. Ziółko „Fuzzy Precision and Recall Measures for Audio Signals Segmentation” został przyjęty do czasopisma Fuzzy Sets and Systems (5-years Impact Factor 2.263).

The approach presented in this paper applies fuzzy set theory to the evaluation of audio signals segmentation with high resolution and accuracy. The method is based on comparing automatically found boundaries with ground truth. Hence, the method is more accurate and able to grasp the evaluation problem in a way more similar to the evaluation conducted by a human being. Traditional methods often fail on grading segmentation algorithms, particularly those of relatively similar qualities.

We define a fuzzy membership function that measures the degree to which the segments obtained by an automatic procedure are similar to the results of a correct segmentation. To identify a pair of equivalent segments, we set a fuzzy alignment function that points the pairs of segments obtained by an automatic segmentation with the corresponding segments from a correct segmentation. Speech segmentation is an example where the presented approach was applied.

www.dsp.agh.edu.pl

25 maj 2024

19 cze 2016

15 mar 2016

18 wrz 2015

30 sie 2015

22 lip 2015

7 lip 2015

18 cze 2015

10 cze 2015

8 cze 2015

20 maj 2015

12 maj 2015

9 maj 2015

4 maj 2015

24 kwi 2015

23 kwi 2015

20 kwi 2015

30 mar 2015

17 mar 2015

11 mar 2015

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń