18 wrz 2015

Telesprzedaż na czele listy zawodów które zostaną całkowicie zautomatyzowane

"BBC, naukowcy z Uniwersytetu Oksfordzkiego i firma Deloitte opracowali listę 365 zawodów i poddali je ocenie, w jakim stopniu są zagrożone ryzykiem automatyzacji i cyfryzacji. Według raportu w Wielkiej Brytanii w ciągu najbliższych dwóch dekad zniknie 35 proc. zawodów.
Największe ryzyko utraty pracy dotyczy osób zatrudnionych w telesprzedaży. Szansa na to, że zawód ten zostanie zautomatyzowany w ciągu najbliższych dwóch dekad, wynoszą aż 99 proc."

Więcej w Wyborczej


30 sie 2015

LTC 2015


Już za kilkanaście dni mija termin zgłaszania artykułów na świetnej konferencji w Poznaniu. Poniżej szczegóły - polecam.

The 7th Language and Technology Conference (LTC 2015), November 27-29, 2015, Poznań, Poland

CALL FOR PAPERS – reminder

Dear Colleagues,
We hope that you have already noticed that the 7th LTC is going to be organized this year. We will be happy for your submission to this conference and therefore we permit ourselves to remind you that the deadline for paper submissions has been fixed to September 10, 2015. Submission through EasyChair is already operational.

Some of crucial facts about LTC 2015 follows. Much more at www.ltc.amu.edu.pl.

LANGUAGE: The conference language is English

IMPORTANT DATES/DEADLINES
* Deadline for submission of papers for review:  September 10, 2015
* Acceptance/Rejection notification: October 1, 2015
* Deadline for submission of final versions of accepted papers: October 15, 2015
* Conference: November 27-29, 2015

CONTACT: ltc15@amu.edu.pl or vetulani@amu.edu.pl

PAPER SUBMISSION
The conference accepts papers in English. Papers (5 formatted pages in the conference format) are due by September 10, 2015 (midnight, any time zone) and should not disclose the author(s) in any manner. In order to facilitate submission we have decided to reduce the formatting requirements as much as possible at this stage. Please, have a look at www.ltc.amu.edu.pl (Paper Submission section).

All submissions are to be made electronically via the LTC 2015 web
submission system (EasyChair). Acceptance/rejection notification will be sent by October 1, 2015. The Word template (ELRA/LREC based format) is available from http://www.ltc.amu.edu.pl (see Paper Submission section).

PUBLICATION POLICY
Acceptance will be based on the reviewers' assessments (anonymous submission model). The accepted papers will be published in the conference proceedings (hard copy, with ISBN number) and on CD-ROM. The abstracts of the accepted contributions will also be made available via the conference page (during its lifetime). Publication requires full electronic registration and payment of the conference fee (full registration) by at least one co-authors in the due time (dates will be presented soon at the conference site). One registration fee entitles publication of one paper.

A post-conference volume with extended versions of selected papers is planned to be published. As this was the case for the last three conferences, we intend to publish them in the Springer series Lecture Notes in Artificial Intelligence.

REGISTRATION
Only electronic registration will be possible. Details will be published at www.ltc.amu.edu.pl.

AWARDS FOR BEST STUDENT PAPERS
As at the 2nd, 3rd, 4th, 5th and 6th Language and Technology Conferences (2005, 2007, 2009, 2011, 2013) special awards will be granted to the best student papers. The  regular or PhD students (on the date of paper submission) are concerned. More details will be provided at www.ltc.amu.edu.pl. 

18 cze 2015

FedCSIS

Nasz artykuł "COMPARISON OF LANGUAGE MODELS TRAINED ON WRITTEN TEXTS AND SPEECH TRANSCRIPTS IN THE CONTEXT OF AUTOMATIC SPEECH RECOGNITION" został przyjęty na konferencję FedCSIS. Praca opisuje nasze eksperymenty statystyczne nad różnicami w stosowaniu transkrypcji mowy i innych tekstów do modelowania języka przy rozpoznawaniu mowy.

We investigate whether language models used in automatic speech recognition (ASR) should be trained on speech transcripts rather than on written texts. By calculating log-likelihood statistic for part-of-speech (POS) n-grams, we show that there are significant differences between written texts and speech transcripts. We also test the performance of language models trained on speech transcripts and written texts in ASR and show that using the former results in greater word error reduction rates (WERR), even if the model is trained on much smaller corpora.   For our experiments we used the manually labeled one million subcorpus of the National Corpus of Polish and an HTK acoustic model.


www.dsp.agh.edu.pl

10 cze 2015

Detecting Recorded Speech for Polish Language

Nasz artykuł o wykrywaniu automatycznych sekretarek został przyjęty na konferencję IEEE Africon. Artykuł ocenia trzy metody które mają zastosowanie do  wspomnianego zadania. Testy zostały przeprowadzone ze względu na  zainteresowanie zastosowaniami tego typu oprogramowania. Może ono służyć do obniżenia kosztów prowadzenia działalności polegającego na wydzwanianiu do klientów poprzez unikanie sytuacji w której automat rozmawia z automatem.


"Three possible methods of detecting recorded speech were analysed and tested according to their applicability in the field of voicemail detection in this paper. Methods chosen for testing were: transmission channel characteristics extraction with PFCC, recorded speech detection with trained pattern classifier, differences in transmission channels and speech recognition. Most of the tests gave results credible enough to confirm methods’ usefulness in the field of voicemail detection. Suggestions of implementation possibilities and parameters of each method and possible trends of further studies were also included."



www.dsp.agh.edu.pl

8 cze 2015

Interspeech 2015

Dwa nasze artykuły dostały się na sesję Show&Tell tegorocznego Interspeecha! Cieszymy się bardzo ze względu na to wyróżnienie. Pierwsza praca i demo będą dotyczyły systemu rozpoznawania mowy SARMATA, a drugie stanowiska do wsparcia rozpoznawaniem mówcy telefonu alarmowego.

www.dsp.agh.edu.pl

20 maj 2015

Polska nauka niedoinwestowana?

Chyba nie... chciałbym przedstawić przykład. Trochę się zajmowałem kiedyś na prośbę Biura Rektora AGH analizą tego jak działają wyszukiwarki publikacji takie jak Thomson Retuers Web of Science czy Scopus. Znalazłem wtedy dokument porównujący te dwa produkty. W jego podsumowaniu napisano, że są dość podobne więc mało które uczelnie stać na wykupywanie dostępu do obu. To była perspektywa amerykańskich uczelni... W Polsce z tego co się orientuję, wszystkie uczelnie mają wykupiony dostęp do obu. Jestem teraz w Japonii i tutaj też bieda, jak w Ameryce ;). Na Hokkaido University był dostęp do Wos, a nie było do Scopusu, a na Kitami Institute of Technology nie ma do WoS, a jest do Scopusa. Więc wniosek z tego chyba taki że to nie brak pieniędzy jest problemem polskiej nauki tylko coś innego ... Takie drobne przemyślenia mnie naszły wieczorem ...

www.dsp.agh.edu.pl

12 maj 2015

Wizyta w Araki Lab na Hokkaido University

Jestem właśnie w trakcie wizyty w laboratorium prof. Arakiego specjalizującego się w przetwarzaniu języka naturalnego. Prezentowałem tutaj zakres działalności zespołu DSP AGH, a zwłaszcza zgłoszenie patentowe o zastosowaniu dynamicznych sieci Bayesa w rozpoznawaniu mowy. Obecnie zapoznaję się ze szczegółami działalności ArakiLab i całego Hokkaido University (Hokudai).

Uniwersytet konkuruje o miano najstarszej uczelni japońskiej z Uniwersytetem w Tokio. Ma także jeden z dwóch największych kampusów w Japonii, a w 2010 roku pracujący tu prof. Suzuki otrzymał nagrodę Nobla z chemii.

Ponad dwudziestoosobowy zespół prof. Araki zajmuje się wieloma ciekawymi tematami z zakresy przetwarzania języka naturalnego, np. automatyczną analizą humoru czy nauką wiedzy podstawowej i etyki przez komputery na podstawie analizy tekstów. Wiodącą wizją prof. Araki są roboty które będą w idealny sposób naśladować ludzi i wraz ze swoimi pracownikami bardzo skutecznie i konsekwentnie tą wizję realizuje z punktu widzenia sztucznej inteligencji.

Bardzo ciekawym doświadczeniem dla mnie jest także sposób organizacji pracy w zespole prof. Arakiego. O tym jednak muszę nauczyć się jeszcze więcej, aby opisać te metody dokładniej.




9 maj 2015

Artykuł w Language Resources and Evaluation

Nasz artykuł o korpusie mowy został udostępniony przez wydawcę w internecie: http://link.springer.com/article/10.1007/s10579-015-9302-y?wt_mc=event.ArticleAuthor.OnlineFirst Ostatnie miesiące przyniosły jednak spore zmiany w korpusie i składa się on teraz z nagrań blisko 700 osób i około 60 godzin.

www.dsp.agh.edu.pl

4 maj 2015

CYBCONF - 2nd IEEE International Conference on Cybernetics

Nasz artykuł "Linguistically motivated tied-state triphones for Polish speech recognition" został przyjęty na konferencję CYBCONF, która odbędzie się w czerwcu w Gdyni. Praca opisuje nasze podejście do budowania modelu trifonowego w oparciu o zastosowanie klas kontekstowych wyprowadzonych z podziału fonemów na kategorie fonetyczne. Podejście takie umożliwia wykonanie modelu trifonowego bez dużej ilości nagrań i bez znaczących problemów obliczeniowych. Model taki daje jednak wyniki rozpoznania średnio o ponad 1 % lepsze od monofonowego.

www.dsp.agh.edu.pl

24 kwi 2015

Wykład w Sapporo i Kitami

Bartosz Ziółko wygłosi wykłady o działalności Zespołu i o zgłoszeniu patentowym „System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli sieci Bayesa” na Hokkaido University w Sapporo 11 maja i Kitami Institute of Technology 19 maja.



www.dsp.agh.edu.pl

23 kwi 2015

Disney pracuje nad syntezą dialogów do filmów

Tak naprawdę to nie do końca syntezą, ale prawie. Chcą wykonywać nowe nagrania na podstawie istniejących. My planujemy pracę nad czymś podobnym ale do gier i z uwzględnieniem dodatkowych możliwości zmian. Szczegóły o pracach Disneya na SpeechTechMag.


20 kwi 2015

Korpus mowy AGH

Nasz artykuł P. Żelasko, B. Ziółko, T. Jadczyk, D. Skurzok "AGH Corpus of Polish Speech" został przyjęty do druku w Language Resources and Evaluation (IF = 0.922). Artykuł opisuje zawartość korpusu, specyfikę języka polskiego pod kątem przetwarzania mowy oraz proces powstawiania korpusu. Artykuł przechodził długi proces recenzji, tak więc najświeższe dane o korpusie znajdują się poniżej.

Korpus zawiera blisko 55 godzin anotowanych nagrań (część nagrań na poziomie fonemów, część wyrazów, a część całych fraz), plus około pół godziny nagrań testowych bez anotacji czasowych. W korpusie są mówcy, których nagrania trwają ponad godzinę. Reszta to mówcy których nagrania trwają po kilka lub kilkanaście minut. W sumie korpus zawiera nagrania około 600 osób. W korpusie jest niewielka przewaga głosów męskich i dość znacząca osób w wieku 20-30 lat. Nagrania rejestrowano w różnych warunkach i na różnym sprzęcie (w tym nagrania telefoniczne). Wszystkie są przechowywane w standardzie 16 bit i 16 [kHz].

www.dsp.agh.edu.pl

17 mar 2015

Przekleństwa w polskim języku

Analiza statystyczna anotacji Narodowego Korpusu Języka Polskiego  ($ grep -rn . -e "kurw" | wc -l) pokazała, że w 2.5% wypowiedzi występują pojęcia powszechnie znane jako nacechowane semantycznie przecinki.

np:"
ja ostatnio jechałam do szkoły na siódmą trzydzieści wiecie co? obudziłam się o trzeciej rano i mówię tak kurwa napierdala mnie tak nie wstanę nie mówię na czworakach w ogóle tak mnie głowa bola że nie mogłam głową ruszać bo wypiliśmy chyba ze trzy butelki wina

Michał mi się z rzygał na świeżo kupiony dywan i dwa razy na poduszkę spał w kiblu mój tata na czworakach zapierdalał po domu żeby dostać się do łóżka nigdy nie widziałam mojego ojca tak pijanego"

www.dsp.agh.edu.pl

11 mar 2015

Fuzzy Precision and Recall Measures for Audio Signals Segmentation

Artykuł B. Ziółko „Fuzzy Precision and Recall Measures for Audio Signals Segmentation” został przyjęty do czasopisma Fuzzy Sets and Systems (5-years Impact Factor 2.263).

The approach presented in this paper applies fuzzy set theory to the evaluation of audio signals segmentation with high resolution and accuracy. The method is based on comparing automatically found boundaries with ground truth. Hence, the method is more accurate and able to grasp the evaluation problem in a way more similar to the evaluation conducted by a human being. Traditional methods often fail on grading segmentation algorithms, particularly those of relatively similar qualities.
We define a fuzzy membership function that measures the degree to which the segments obtained by an automatic procedure are similar to the results of a correct segmentation. To identify a pair of equivalent segments, we set a fuzzy alignment function that points the pairs of segments obtained by an automatic segmentation with the corresponding segments from a correct segmentation. Speech segmentation is an example where the presented approach was applied.

www.dsp.agh.edu.pl

2 mar 2015

Inż. Jerzy Wolf

W dniu dzisiejszym swoją bardzo ciekawą pracę dyplomową "Testowanie odporności systemu
weryfikacji mówcy na aktorską modulację głosową" obronił Jerzy Wolf. Gratulujemy, a o jego próbach włamań radzimy poczytać.

"Przedmiotem niniejszej pracy jest zbadanie zagadnienia naśladowania głosu innej osoby i przetestowanie odporności systemu weryfikacji mowy Voice Color firmy Techmo na tego typu ataki.Na potrzeby pracy użyto dwóch typów nagrań mówców oryginalnych i nagrań naśladowczych. Pierwszy typ nagrań składał się z nagrań ochotników, którzy zgodzili się użyczyć swojego głosu na potrzeby testów systemu weryfikacji mówcy. W tym przypadku osobą próbującą naśladować mówców oryginalnych jest autor pracy (dalej: naśladowca), co umożliwiło dokładniejsze opisanie wyzwań i problemów związanych z tego typu próbą oszukania systemu. Drugim typem plików dźwiękowych, których użyto do przetestowania systemu, były nagrania zawodowego aktora głosowego specjalizującego się w naśladownictwie, Jamesa Arnolda Taylora (dalej: aktor), który dostarczył swoje próby naśladowania pięciu innych znanych aktorów razem z nagraniami oryginalnymi, na których się wzorował.Scenariusz badania zakładał próby oszukania systemu poprzez skuteczne zalogowanie się naśladowców na cudze konto zabezpieczone wygenerowanym wcześniej na podstawie nagrań oryginalnych modelem mówcy. Dla zachowania autentyczności warunków testu próbki głosu mówców oryginalnych i naśladowców zrealizowane zostały podczas autentycznych rozmów telefonicznych."

www.dsp.agh.edu.pl

24 lut 2015

Dyplom MNiSW

Nasz zespół otrzymał na targach w Centrum Nauki Kopernik dyplomy od Ministra Nauki i Szkolnictw Wyższego za projekty Voice Color i RAYAV.





www.dsp.agh.edu.pl

14 lut 2015

Bank na każde zawołanie

Bezpieczne hasło, którego nie da się zgubić ani zapomnieć brzmi nierealnie? To możliwe, a odpowiedzą na powyższe pytanie jest biometria.

Bank Smart właśnie ogłosił wprowadzenie zabezpieczeń biometrycznych, takich jak logowanie hasłem głosowym. Choć na razie dzięki wypowiedzeniu magicznej, wydawałoby się, formułki "Zaloguj mnie do Banku Smart" jesteśmy w stanie dostać się tylko do aplikacji pozwalającej na korzystanie z usług mobilnych, to już teraz jest to jedyna taka usługa w całej Polsce i zarazem pierwsza w Europie.

- Na razie głos służy jedynie przy logowaniu do bankowości mobilnej. Nie jest on wykorzystywany do autoryzacji przelewu. To musimy zrobić jeszcze ręcznie - mówi w wywiadzie dla Money.pl Małgorzata Halaba z Banku Smart.

Stanowi to jednak naturalne uzupełnienie wcześniejszej funkcjonalności, jaką jest głosowa nawigacja po opcjach i funkcjach konta. Kilka słów, takich jak: "przelew, babcia, sto złotych" wystarcza do przeprowadzenia transakcji.

Biometria w bankowości jest już wykorzystywana od lat, ale do tej pory sprowadzała się najczęściej do wykorzystywania odcisków palców. Te jednak, podobnie jak inne dotychczas stosowane zabezpieczenia, były zabezpieczeniem fizycznym - wymagającym  obecności na miejscu ich weryfikowania. W wypadku ludzkiego głosu, ta trudność nie występuje. Przedstawiciele Banku Smart właśnie to uważają za istotę mobilności i bezpieczeństwa:

"Na brzmienie Twojego głosu wpływa rozmiar, kształt i grubość strun głosowych, a oprócz tego również narządy mowy takie jak usta, gardło lub nos. Szansa, by wszystkie te cechy były identyczne u dwóch różnych osób jest niemal zerowa. W Banku SMART dodatkowo analizujemy również Twój styl wypowiedzi – akcenty, czy wypowiadanie głosek. Nie musisz się obawiać, że ktoś nagra Twoją wypowiedź a następnie zaloguje się na konto – system rozpoznaje takie przypadki i od razu uniemożliwia logowanie się do banku."

Bank Smart reklamuje się jako pierwszy prawdziwie mobilny bank w Polsce. Tym samym korzysta z dziedzictwa mBanku, który z kolei reklamował się jako pierwszy bank prawdziwie internetowy - co w żaden sposób nie zaskakuje, gdy przyjrzymy się dokładniej osobie Sławomira Lachowskiego - który stoi za oboma tymi przedsięwzięciami.


www.dsp.agh.edu.pl

11 lut 2015

Telewizory gromadzą korpusy mowy

Polskie Radio donosi o ciekawych oświadczeniach Samsunga na temat ich Smart TV. Podobno firma rozbudowuje swój korpus rejestrując to co się mówi przy telewizorach z funkcją rozpoznawania mowy. Ja się temu nie dziwię, ale to się chyba nie przyjmie społecznie ;)

2 lut 2015

Co Polacy sądzą o biometrii

Bardzo ciekawy artykuł o podejściu Polaków do biometrii głosowej ukazał się w Dzienniku Internautów.

"Ostatnio otrzymaliśmy np. analizę postaw Polaków wobec stosowanych obecnie metod uwierzytelniania ze szczególnym naciskiem na weryfikację głosową. Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia."

"Z badania tego wynika, że blisko połowa respondentów (47%) czuje się zmęczona liczbą haseł dostępu, kodów i PIN-ów, które trzeba zapamiętać. 46% denerwuje się, kiedy system wymusza tworzenie skomplikowanych haseł. 27% twierdzi, że nie lubi tokenów, ponieważ łatwo je zgubić."


Więcej na di.com.pl

Inż. Robert Dyjas

W miniony czwartek Robert Dyjas obronił bardzo dobrą pracę inżynierską polegającą na znaczącym rozwinięciu naszego korpusu mowy (o 111 mówców). Dane są dla nas tym istotniejsze, że są realnymi nagraniami telefonicznymi ukierunkowanymi tematycznie na treść najistotniejsza z punktu widzenia wdrożeń Sarmaty. Gratulujemy i dziękujemy za współpracę!!!

www.dsp.agh.edu.pl

29 sty 2015

Inż. Jakub Antoniuk

Kolejną ciekawą pracą dyplomową zrealizowaną w naszym zespole była "Aplikacja do wydobywania mowy z nagrania słabej jakości" wykonana i obroniona przez Jakuba Antoniuka. Serdecznie Gratulujemy!!!

"Celem tej pracy inzynierskiej była implementacja metod do wydobywania mowy z nagrania słabej jakości w środowisku MATLAB. Wybrano metodę odejmowania widmowego oraz wybielania. W poniższej pracy zarówno metody, jak i ich implementacja w użytym środowisku programistycznym zostały dokładnie opisane. Opisano również˙ wpływ doboru parametrów użytych funkcji na wynik działania programu. Końcowa aplikacja korzysta z obu metod, wykorzystując je z różnymi parametrami. Wyniki działania ˙ programu zostały przedstawione na dwóch rodzajach nagrań: sztucznie zaszumionych nagrań mowy, oraz rzeczywistych nagrań mowy z głośnym otoczeniem."

www.dsp.agh.edu.pl

19 sty 2015

inż. Błażej Chwiećko

Tej zimy przewidujemy bardzo wiele prac inżynierskich realizowanych w naszym zespole. Tak wiele że aż trudno się nam doliczyć. Listę otworzył dzisiaj Błażej Chwiećko broniąc pracę "Aplikacja do wykrywania reklam w radiu". Praca opisuje analizę możliwości wykonania aplikacji która przełączałaby stacje radiowe podczas reklam. Dyplomant zliczył statystyki stosunku mowy do muzyki w 12 stacjach radiowych i wykonał prototyp na iOS. Gratulujemy dyplomu !!!

"Pierwszym z poruszanych w tej pracy inżynierskiej zagadnień jest stworzenie aplikacji na system iOS, w którym zaprezentowano historię mobilnego oprogramowania firmy Apple, architekturę oraz zintegrowane środowisko deweloperskie - Xcode wraz z oferowanymi przez nie możliwościami. Drugim przedstawionym w pracy tematem jest klasyfikacja sygnału dźwiękowego na mowę lub muzykę. Zaprezentowano najważniejsze problemy dyskryminacji treści, a także, stosowane w XX wieku, sposoby klasyfikacji sygnału. Szczegółowo opisano również algorytm Minimum Energy Density bazujący na analizie lokalnej energii sygnału oraz etapy tworzenie prototypu aplikacji oferującej możliwość odtwarzania radia z pre-definiowanych źródeł internetowych, jak i dodawania streamów użytkownika. W aplikacji zaimplementowano możliwość wyświetlania informacji dotyczących procentowego udziału muzyki na danym kanale, które otrzymano analizując fragmenty nagrań stacji radiowych opisywanym algorytmem klasyfikującym. "

www.dsp.agh.edu.pl

7 sty 2015

Ciekawostki branży głosowej

Nuance dodaje biometrię głosu do swojego systemu przeznaczonego dla samochodów.

http://www.businesswire.com/news/home/20150106005385/en/Nuance%E2%80%99s-Dragon-Drive-Adds-Voice-Biometrics-Virtual#.VK1JviuG-qk

http://finance.yahoo.com/news/nuance-dragon-drive-adds-voice-130000994.html

http://findbiometrics.com/nuance-announces-dragon-id-voice-biometrics-for-mobile/

VocaONE uruchamia darmową usługę sieciową do biometrycznego głosowego logowania:

http://www.finextra.com/news/announcement.aspx?pressreleaseid=58154 (za darmo !)

https://www.vocaone.com/vocapass.html

Lattice Semiconductor  wprowadza na rynek niskoenergetyczny układ elektroniczny ( iCE40 na bazie FPGA) do nasłuchiwania i rozpoznawania komend głosowych, do zastosowań np. w sprzęcie AGD, smart home itd.