Rozpoznawanie Mowy

Kanał YouTube

2024-05-25T08:53:00.002+02:00

Obecnie treści zbliżone tematycznie do tego bloga publikuję na kanale https://www.youtube.com/channel/UCElOYjNcHqgZLiJUMOW-yng

Smartfony mają zniknąć za 5 lat ?

2016-06-19T21:02:00.003+02:00

... i to głównie przez niechęć do ekranów i zużywanej przez nie energii. Tak wskazuje ankieta przeprowadzona przez Ericssona na 100 00 osób: http://www.cnbc.com/2015/12/09/people-think-the-smartphone-will-be-dead-in-5-years-ericsson.html

Google zrobił ASR na RNN offline na smartfonach

2016-03-15T10:12:00.001+01:00

Google opublikowało badania z których wynika, że na Nexusie 5 ASR działa w ok. 7x czasu rzeczywistego przy zużyciu łącznie 20 MB pamięci, i w trybie dyktowania (open dictation task) WER pogarsza się jedynie z 11% do 13% w stosunku do wersji online na serwerze. http://research.google.com/pubs/pub44631.html

Telesprzedaż na czele listy zawodów które zostaną całkowicie zautomatyzowane

2015-09-18T07:16:00.001+02:00

"BBC, naukowcy z Uniwersytetu Oksfordzkiego i firma Deloitte opracowali listę 365 zawodów i poddali je ocenie, w jakim stopniu są zagrożone ryzykiem automatyzacji i cyfryzacji. Według raportu w Wielkiej Brytanii w ciągu najbliższych dwóch dekad zniknie 35 proc. zawodów.
Największe ryzyko utraty pracy dotyczy osób zatrudnionych w telesprzedaży. Szansa na to, że zawód ten zostanie zautomatyzowany w ciągu najbliższych dwóch dekad, wynoszą aż 99 proc."

Więcej w Wyborczej

LTC 2015

2015-08-30T23:12:00.003+02:00

Już za kilkanaście dni mija termin zgłaszania artykułów na świetnej konferencji w Poznaniu. Poniżej szczegóły - polecam.

The 7th Language and Technology Conference (LTC 2015), November 27-29, 2015, Poznań, Poland

CALL FOR PAPERS – reminder

Dear Colleagues,
We hope that you have already noticed that the 7th LTC is going to be organized this year. We will be happy for your submission to this conference and therefore we permit ourselves to remind you that the deadline for paper submissions has been fixed to September 10, 2015. Submission through EasyChair is already operational.

Some of crucial facts about LTC 2015 follows. Much more at www.ltc.amu.edu.pl.

LANGUAGE: The conference language is English

IMPORTANT DATES/DEADLINES
* Deadline for submission of papers for review: September 10, 2015
* Acceptance/Rejection notification: October 1, 2015
* Deadline for submission of final versions of accepted papers: October 15, 2015
* Conference: November 27-29, 2015

CONTACT: ltc15@amu.edu.pl or vetulani@amu.edu.pl

PAPER SUBMISSION
The conference accepts papers in English. Papers (5 formatted pages in the conference format) are due by September 10, 2015 (midnight, any time zone) and should not disclose the author(s) in any manner. In order to facilitate submission we have decided to reduce the formatting requirements as much as possible at this stage. Please, have a look at www.ltc.amu.edu.pl (Paper Submission section).

All submissions are to be made electronically via the LTC 2015 web
submission system (EasyChair). Acceptance/rejection notification will be sent by October 1, 2015. The Word template (ELRA/LREC based format) is available from http://www.ltc.amu.edu.pl (see Paper Submission section).

PUBLICATION POLICY
Acceptance will be based on the reviewers' assessments (anonymous submission model). The accepted papers will be published in the conference proceedings (hard copy, with ISBN number) and on CD-ROM. The abstracts of the accepted contributions will also be made available via the conference page (during its lifetime). Publication requires full electronic registration and payment of the conference fee (full registration) by at least one co-authors in the due time (dates will be presented soon at the conference site). One registration fee entitles publication of one paper.

A post-conference volume with extended versions of selected papers is planned to be published. As this was the case for the last three conferences, we intend to publish them in the Springer series Lecture Notes in Artificial Intelligence.

REGISTRATION
Only electronic registration will be possible. Details will be published at www.ltc.amu.edu.pl.

AWARDS FOR BEST STUDENT PAPERS
As at the 2nd, 3rd, 4th, 5th and 6th Language and Technology Conferences (2005, 2007, 2009, 2011, 2013) special awards will be granted to the best student papers. The regular or PhD students (on the date of paper submission) are concerned. More details will be provided at www.ltc.amu.edu.pl.

O Techmo na III Zlocie Top 500 Innovators

2015-07-22T10:00:00.002+02:00

Oferta pracy w Canterbury

2015-07-07T23:59:00.000+02:00

University of Kent - bardzo dobra uczelnia i bardzo ładne miasto - polecam.

https://jobs.kent.ac.uk/fe/tpl_kent01.asp?s=4A515F4E5A565B1A&jobid=39293,3436347277&key=44012873&c=493414763421&pagestamp=sesdyyyrqxijqwrrmd

FedCSIS

2015-06-18T01:32:00.001+02:00

Nasz artykuł "COMPARISON OF LANGUAGE MODELS TRAINED ON WRITTEN TEXTS AND SPEECH TRANSCRIPTS IN THE CONTEXT OF AUTOMATIC SPEECH RECOGNITION" został przyjęty na konferencję FedCSIS. Praca opisuje nasze eksperymenty statystyczne nad różnicami w stosowaniu transkrypcji mowy i innych tekstów do modelowania języka przy rozpoznawaniu mowy.

We investigate whether language models used in automatic speech recognition (ASR) should be trained on speech transcripts rather than on written texts. By calculating log-likelihood statistic for part-of-speech (POS) n-grams, we show that there are significant differences between written texts and speech transcripts. We also test the performance of language models trained on speech transcripts and written texts in ASR and show that using the former results in greater word error reduction rates (WERR), even if the model is trained on much smaller corpora. For our experiments we used the manually labeled one million subcorpus of the National Corpus of Polish and an HTK acoustic model.

www.dsp.agh.edu.pl

Detecting Recorded Speech for Polish Language

2015-06-10T14:42:00.003+02:00

Nasz artykuł o wykrywaniu automatycznych sekretarek został przyjęty na konferencję IEEE Africon. Artykuł ocenia trzy metody które mają zastosowanie do wspomnianego zadania. Testy zostały przeprowadzone ze względu na zainteresowanie zastosowaniami tego typu oprogramowania. Może ono służyć do obniżenia kosztów prowadzenia działalności polegającego na wydzwanianiu do klientów poprzez unikanie sytuacji w której automat rozmawia z automatem.

"Three possible methods of detecting recorded speech were analysed and tested according to their applicability in the field of voicemail detection in this paper. Methods chosen for testing were: transmission channel characteristics extraction with PFCC, recorded speech detection with trained pattern classifier, differences in transmission channels and speech recognition. Most of the tests gave results credible enough to confirm methods’ usefulness in the field of voicemail detection. Suggestions of implementation possibilities and parameters of each method and possible trends of further studies were also included."

Interspeech 2015

2015-06-08T15:48:00.005+02:00

Dwa nasze artykuły dostały się na sesję Show&Tell tegorocznego Interspeecha! Cieszymy się bardzo ze względu na to wyróżnienie. Pierwsza praca i demo będą dotyczyły systemu rozpoznawania mowy SARMATA, a drugie stanowiska do wsparcia rozpoznawaniem mówcy telefonu alarmowego.

www.dsp.agh.edu.pl

Polska nauka niedoinwestowana?

2015-05-20T13:44:00.000+02:00

Chyba nie... chciałbym przedstawić przykład. Trochę się zajmowałem kiedyś na prośbę Biura Rektora AGH analizą tego jak działają wyszukiwarki publikacji takie jak Thomson Retuers Web of Science czy Scopus. Znalazłem wtedy dokument porównujący te dwa produkty. W jego podsumowaniu napisano, że są dość podobne więc mało które uczelnie stać na wykupywanie dostępu do obu. To była perspektywa amerykańskich uczelni... W Polsce z tego co się orientuję, wszystkie uczelnie mają wykupiony dostęp do obu. Jestem teraz w Japonii i tutaj też bieda, jak w Ameryce ;). Na Hokkaido University był dostęp do Wos, a nie było do Scopusu, a na Kitami Institute of Technology nie ma do WoS, a jest do Scopusa. Więc wniosek z tego chyba taki że to nie brak pieniędzy jest problemem polskiej nauki tylko coś innego ... Takie drobne przemyślenia mnie naszły wieczorem ...

www.dsp.agh.edu.pl

Wizyta w Araki Lab na Hokkaido University

2015-05-12T08:39:00.000+02:00

Jestem właśnie w trakcie wizyty w laboratorium prof. Arakiego specjalizującego się w przetwarzaniu języka naturalnego. Prezentowałem tutaj zakres działalności zespołu DSP AGH, a zwłaszcza zgłoszenie patentowe o zastosowaniu dynamicznych sieci Bayesa w rozpoznawaniu mowy. Obecnie zapoznaję się ze szczegółami działalności ArakiLab i całego Hokkaido University (Hokudai).

Uniwersytet konkuruje o miano najstarszej uczelni japońskiej z Uniwersytetem w Tokio. Ma także jeden z dwóch największych kampusów w Japonii, a w 2010 roku pracujący tu prof. Suzuki otrzymał nagrodę Nobla z chemii.

Ponad dwudziestoosobowy zespół prof. Araki zajmuje się wieloma ciekawymi tematami z zakresy przetwarzania języka naturalnego, np. automatyczną analizą humoru czy nauką wiedzy podstawowej i etyki przez komputery na podstawie analizy tekstów. Wiodącą wizją prof. Araki są roboty które będą w idealny sposób naśladować ludzi i wraz ze swoimi pracownikami bardzo skutecznie i konsekwentnie tą wizję realizuje z punktu widzenia sztucznej inteligencji.

Bardzo ciekawym doświadczeniem dla mnie jest także sposób organizacji pracy w zespole prof. Arakiego. O tym jednak muszę nauczyć się jeszcze więcej, aby opisać te metody dokładniej.

Artykuł w Language Resources and Evaluation

2015-05-09T03:00:00.001+02:00

Nasz artykuł o korpusie mowy został udostępniony przez wydawcę w internecie: http://link.springer.com/article/10.1007/s10579-015-9302-y?wt_mc=event.ArticleAuthor.OnlineFirst Ostatnie miesiące przyniosły jednak spore zmiany w korpusie i składa się on teraz z nagrań blisko 700 osób i około 60 godzin.

www.dsp.agh.edu.pl

CYBCONF - 2nd IEEE International Conference on Cybernetics

2015-05-04T14:57:00.002+02:00

Nasz artykuł "Linguistically motivated tied-state triphones for Polish speech recognition" został przyjęty na konferencję CYBCONF, która odbędzie się w czerwcu w Gdyni. Praca opisuje nasze podejście do budowania modelu trifonowego w oparciu o zastosowanie klas kontekstowych wyprowadzonych z podziału fonemów na kategorie fonetyczne. Podejście takie umożliwia wykonanie modelu trifonowego bez dużej ilości nagrań i bez znaczących problemów obliczeniowych. Model taki daje jednak wyniki rozpoznania średnio o ponad 1 % lepsze od monofonowego.

www.dsp.agh.edu.pl

Wykład w Sapporo i Kitami

2015-04-24T09:01:00.001+02:00

Bartosz Ziółko wygłosi wykłady o działalności Zespołu i o zgłoszeniu patentowym „System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli sieci Bayesa” na Hokkaido University w Sapporo 11 maja i Kitami Institute of Technology 19 maja.

www.dsp.agh.edu.pl

Disney pracuje nad syntezą dialogów do filmów

2015-04-23T11:41:00.002+02:00

Tak naprawdę to nie do końca syntezą, ale prawie. Chcą wykonywać nowe nagrania na podstawie istniejących. My planujemy pracę nad czymś podobnym ale do gier i z uwzględnieniem dodatkowych możliwości zmian. Szczegóły o pracach Disneya na SpeechTechMag.

Korpus mowy AGH

2015-04-20T17:22:00.004+02:00

Nasz artykuł P. Żelasko, B. Ziółko, T. Jadczyk, D. Skurzok "AGH Corpus of Polish Speech" został przyjęty do druku w Language Resources and Evaluation (IF = 0.922). Artykuł opisuje zawartość korpusu, specyfikę języka polskiego pod kątem przetwarzania mowy oraz proces powstawiania korpusu. Artykuł przechodził długi proces recenzji, tak więc najświeższe dane o korpusie znajdują się poniżej.

Korpus zawiera blisko 55 godzin anotowanych nagrań (część nagrań na poziomie fonemów, część wyrazów, a część całych fraz), plus około pół godziny nagrań testowych bez anotacji czasowych. W korpusie są mówcy, których nagrania trwają ponad godzinę. Reszta to mówcy których nagrania trwają po kilka lub kilkanaście minut. W sumie korpus zawiera nagrania około 600 osób. W korpusie jest niewielka przewaga głosów męskich i dość znacząca osób w wieku 20-30 lat. Nagrania rejestrowano w różnych warunkach i na różnym sprzęcie (w tym nagrania telefoniczne). Wszystkie są przechowywane w standardzie 16 bit i 16 [kHz].

www.dsp.agh.edu.pl

AudioSlides do artykułu o ocenie segmentacji audio

2015-03-30T10:15:00.001+02:00

www.dsp.agh.edu.pl

Przekleństwa w polskim języku

2015-03-17T15:10:00.000+01:00

Analiza statystyczna anotacji Narodowego Korpusu Języka Polskiego ($ grep -rn . -e "kurw" | wc -l) pokazała, że w 2.5% wypowiedzi występują pojęcia powszechnie znane jako nacechowane semantycznie przecinki.

np:"

ja ostatnio jechałam do szkoły na siódmą trzydzieści wiecie co? obudziłam się o trzeciej rano i mówię tak kurwa napierdala mnie tak nie wstanę nie mówię na czworakach w ogóle tak mnie głowa bola że nie mogłam głową ruszać bo wypiliśmy chyba ze trzy butelki wina

Michał mi się z rzygał na świeżo kupiony dywan i dwa razy na poduszkę spał w kiblu mój tata na czworakach zapierdalał po domu żeby dostać się do łóżka nigdy nie widziałam mojego ojca tak pijanego"

www.dsp.agh.edu.pl

Fuzzy Precision and Recall Measures for Audio Signals Segmentation

2015-03-11T09:52:00.002+01:00

Artykuł B. Ziółko „Fuzzy Precision and Recall Measures for Audio Signals Segmentation” został przyjęty do czasopisma Fuzzy Sets and Systems (5-years Impact Factor 2.263).

The approach presented in this paper applies fuzzy set theory to the evaluation of audio signals segmentation with high resolution and accuracy. The method is based on comparing automatically found boundaries with ground truth. Hence, the method is more accurate and able to grasp the evaluation problem in a way more similar to the evaluation conducted by a human being. Traditional methods often fail on grading segmentation algorithms, particularly those of relatively similar qualities.

We define a fuzzy membership function that measures the degree to which the segments obtained by an automatic procedure are similar to the results of a correct segmentation. To identify a pair of equivalent segments, we set a fuzzy alignment function that points the pairs of segments obtained by an automatic segmentation with the corresponding segments from a correct segmentation. Speech segmentation is an example where the presented approach was applied.

www.dsp.agh.edu.pl

Inż. Jerzy Wolf

2015-03-02T17:20:00.002+01:00

W dniu dzisiejszym swoją bardzo ciekawą pracę dyplomową "Testowanie odporności systemu
weryfikacji mówcy na aktorską modulację głosową" obronił Jerzy Wolf. Gratulujemy, a o jego próbach włamań radzimy poczytać.

"Przedmiotem niniejszej pracy jest zbadanie zagadnienia naśladowania głosu innej osoby i przetestowanie odporności systemu weryfikacji mowy Voice Color firmy Techmo na tego typu ataki.Na potrzeby pracy użyto dwóch typów nagrań mówców oryginalnych i nagrań naśladowczych. Pierwszy typ nagrań składał się z nagrań ochotników, którzy zgodzili się użyczyć swojego głosu na potrzeby testów systemu weryfikacji mówcy. W tym przypadku osobą próbującą naśladować mówców oryginalnych jest autor pracy (dalej: naśladowca), co umożliwiło dokładniejsze opisanie wyzwań i problemów związanych z tego typu próbą oszukania systemu. Drugim typem plików dźwiękowych, których użyto do przetestowania systemu, były nagrania zawodowego aktora głosowego specjalizującego się w naśladownictwie, Jamesa Arnolda Taylora (dalej: aktor), który dostarczył swoje próby naśladowania pięciu innych znanych aktorów razem z nagraniami oryginalnymi, na których się wzorował.Scenariusz badania zakładał próby oszukania systemu poprzez skuteczne zalogowanie się naśladowców na cudze konto zabezpieczone wygenerowanym wcześniej na podstawie nagrań oryginalnych modelem mówcy. Dla zachowania autentyczności warunków testu próbki głosu mówców oryginalnych i naśladowców zrealizowane zostały podczas autentycznych rozmów telefonicznych."

www.dsp.agh.edu.pl

Dyplom MNiSW

2015-02-24T00:42:00.001+01:00

Nasz zespół otrzymał na targach w Centrum Nauki Kopernik dyplomy od Ministra Nauki i Szkolnictw Wyższego za projekty Voice Color i RAYAV.

www.dsp.agh.edu.pl

Bank na każde zawołanie

2015-02-14T11:00:00.000+01:00

Bezpieczne hasło, którego nie da się zgubić ani zapomnieć brzmi nierealnie? To możliwe, a odpowiedzą na powyższe pytanie jest biometria.

Bank Smart właśnie ogłosił wprowadzenie zabezpieczeń biometrycznych, takich jak logowanie hasłem głosowym. Choć na razie dzięki wypowiedzeniu magicznej, wydawałoby się, formułki "Zaloguj mnie do Banku Smart" jesteśmy w stanie dostać się tylko do aplikacji pozwalającej na korzystanie z usług mobilnych, to już teraz jest to jedyna taka usługa w całej Polsce i zarazem pierwsza w Europie.

- Na razie głos służy jedynie przy logowaniu do bankowości mobilnej. Nie jest on wykorzystywany do autoryzacji przelewu. To musimy zrobić jeszcze ręcznie - mówi w wywiadzie dla Money.pl Małgorzata Halaba z Banku Smart.

Stanowi to jednak naturalne uzupełnienie wcześniejszej funkcjonalności, jaką jest głosowa nawigacja po opcjach i funkcjach konta. Kilka słów, takich jak: "przelew, babcia, sto złotych" wystarcza do przeprowadzenia transakcji.

Biometria w bankowości jest już wykorzystywana od lat, ale do tej pory sprowadzała się najczęściej do wykorzystywania odcisków palców. Te jednak, podobnie jak inne dotychczas stosowane zabezpieczenia, były zabezpieczeniem fizycznym - wymagającym obecności na miejscu ich weryfikowania. W wypadku ludzkiego głosu, ta trudność nie występuje. Przedstawiciele Banku Smart właśnie to uważają za istotę mobilności i bezpieczeństwa:

"Na brzmienie Twojego głosu wpływa rozmiar, kształt i grubość strun głosowych, a oprócz tego również narządy mowy takie jak usta, gardło lub nos. Szansa, by wszystkie te cechy były identyczne u dwóch różnych osób jest niemal zerowa. W Banku SMART dodatkowo analizujemy również Twój styl wypowiedzi – akcenty, czy wypowiadanie głosek. Nie musisz się obawiać, że ktoś nagra Twoją wypowiedź a następnie zaloguje się na konto – system rozpoznaje takie przypadki i od razu uniemożliwia logowanie się do banku."

Bank Smart reklamuje się jako pierwszy prawdziwie mobilny bank w Polsce. Tym samym korzysta z dziedzictwa mBanku, który z kolei reklamował się jako pierwszy bank prawdziwie internetowy - co w żaden sposób nie zaskakuje, gdy przyjrzymy się dokładniej osobie Sławomira Lachowskiego - który stoi za oboma tymi przedsięwzięciami.

www.dsp.agh.edu.pl

Telewizory gromadzą korpusy mowy

2015-02-11T20:27:00.004+01:00

Polskie Radio donosi o ciekawych oświadczeniach Samsunga na temat ich Smart TV. Podobno firma rozbudowuje swój korpus rejestrując to co się mówi przy telewizorach z funkcją rozpoznawania mowy. Ja się temu nie dziwię, ale to się chyba nie przyjmie społecznie ;)

Więcej na http://www.polskieradio.pl/23/3/Artykul/1373872

Co Polacy sądzą o biometrii

2015-02-02T21:16:00.001+01:00

Bardzo ciekawy artykuł o podejściu Polaków do biometrii głosowej ukazał się w Dzienniku Internautów.

"Ostatnio otrzymaliśmy np. analizę postaw Polaków wobec stosowanych obecnie metod uwierzytelniania ze szczególnym naciskiem na weryfikację głosową. Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia."

"Z badania tego wynika, że blisko połowa respondentów (47%) czuje się zmęczona liczbą haseł dostępu, kodów i PIN-ów, które trzeba zapamiętać. 46% denerwuje się, kiedy system wymusza tworzenie skomplikowanych haseł. 27% twierdzi, że nie lubi tokenów, ponieważ łatwo je zgubić."

Więcej na di.com.pl