Rozpoznawanie Mowy

24 kwi 2015

Wykład w Sapporo i Kitami

Bartosz Ziółko wygłosi wykłady o działalności Zespołu i o zgłoszeniu patentowym „System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli sieci Bayesa” na Hokkaido University w Sapporo 11 maja i Kitami Institute of Technology 19 maja.

www.dsp.agh.edu.pl

23 kwi 2015

Disney pracuje nad syntezą dialogów do filmów

Tak naprawdę to nie do końca syntezą, ale prawie. Chcą wykonywać nowe nagrania na podstawie istniejących. My planujemy pracę nad czymś podobnym ale do gier i z uwzględnieniem dodatkowych możliwości zmian. Szczegóły o pracach Disneya na SpeechTechMag.

20 kwi 2015

Korpus mowy AGH

Nasz artykuł P. Żelasko, B. Ziółko, T. Jadczyk, D. Skurzok "AGH Corpus of Polish Speech" został przyjęty do druku w Language Resources and Evaluation (IF = 0.922). Artykuł opisuje zawartość korpusu, specyfikę języka polskiego pod kątem przetwarzania mowy oraz proces powstawiania korpusu. Artykuł przechodził długi proces recenzji, tak więc najświeższe dane o korpusie znajdują się poniżej.

Korpus zawiera blisko 55 godzin anotowanych nagrań (część nagrań na poziomie fonemów, część wyrazów, a część całych fraz), plus około pół godziny nagrań testowych bez anotacji czasowych. W korpusie są mówcy, których nagrania trwają ponad godzinę. Reszta to mówcy których nagrania trwają po kilka lub kilkanaście minut. W sumie korpus zawiera nagrania około 600 osób. W korpusie jest niewielka przewaga głosów męskich i dość znacząca osób w wieku 20-30 lat. Nagrania rejestrowano w różnych warunkach i na różnym sprzęcie (w tym nagrania telefoniczne). Wszystkie są przechowywane w standardzie 16 bit i 16 [kHz].

www.dsp.agh.edu.pl

30 mar 2015

AudioSlides do artykułu o ocenie segmentacji audio

www.dsp.agh.edu.pl

17 mar 2015

Przekleństwa w polskim języku

Analiza statystyczna anotacji Narodowego Korpusu Języka Polskiego ($ grep -rn . -e "kurw" | wc -l) pokazała, że w 2.5% wypowiedzi występują pojęcia powszechnie znane jako nacechowane semantycznie przecinki.

np:"

ja ostatnio jechałam do szkoły na siódmą trzydzieści wiecie co? obudziłam się o trzeciej rano i mówię tak kurwa napierdala mnie tak nie wstanę nie mówię na czworakach w ogóle tak mnie głowa bola że nie mogłam głową ruszać bo wypiliśmy chyba ze trzy butelki wina

Michał mi się z rzygał na świeżo kupiony dywan i dwa razy na poduszkę spał w kiblu mój tata na czworakach zapierdalał po domu żeby dostać się do łóżka nigdy nie widziałam mojego ojca tak pijanego"

www.dsp.agh.edu.pl

11 mar 2015

Fuzzy Precision and Recall Measures for Audio Signals Segmentation

Artykuł B. Ziółko „Fuzzy Precision and Recall Measures for Audio Signals Segmentation” został przyjęty do czasopisma Fuzzy Sets and Systems (5-years Impact Factor 2.263).

The approach presented in this paper applies fuzzy set theory to the evaluation of audio signals segmentation with high resolution and accuracy. The method is based on comparing automatically found boundaries with ground truth. Hence, the method is more accurate and able to grasp the evaluation problem in a way more similar to the evaluation conducted by a human being. Traditional methods often fail on grading segmentation algorithms, particularly those of relatively similar qualities.

We define a fuzzy membership function that measures the degree to which the segments obtained by an automatic procedure are similar to the results of a correct segmentation. To identify a pair of equivalent segments, we set a fuzzy alignment function that points the pairs of segments obtained by an automatic segmentation with the corresponding segments from a correct segmentation. Speech segmentation is an example where the presented approach was applied.

www.dsp.agh.edu.pl

2 mar 2015

Inż. Jerzy Wolf

W dniu dzisiejszym swoją bardzo ciekawą pracę dyplomową "Testowanie odporności systemu
weryfikacji mówcy na aktorską modulację głosową" obronił Jerzy Wolf. Gratulujemy, a o jego próbach włamań radzimy poczytać.

"Przedmiotem niniejszej pracy jest zbadanie zagadnienia naśladowania głosu innej osoby i przetestowanie odporności systemu weryfikacji mowy Voice Color firmy Techmo na tego typu ataki.Na potrzeby pracy użyto dwóch typów nagrań mówców oryginalnych i nagrań naśladowczych. Pierwszy typ nagrań składał się z nagrań ochotników, którzy zgodzili się użyczyć swojego głosu na potrzeby testów systemu weryfikacji mówcy. W tym przypadku osobą próbującą naśladować mówców oryginalnych jest autor pracy (dalej: naśladowca), co umożliwiło dokładniejsze opisanie wyzwań i problemów związanych z tego typu próbą oszukania systemu. Drugim typem plików dźwiękowych, których użyto do przetestowania systemu, były nagrania zawodowego aktora głosowego specjalizującego się w naśladownictwie, Jamesa Arnolda Taylora (dalej: aktor), który dostarczył swoje próby naśladowania pięciu innych znanych aktorów razem z nagraniami oryginalnymi, na których się wzorował.Scenariusz badania zakładał próby oszukania systemu poprzez skuteczne zalogowanie się naśladowców na cudze konto zabezpieczone wygenerowanym wcześniej na podstawie nagrań oryginalnych modelem mówcy. Dla zachowania autentyczności warunków testu próbki głosu mówców oryginalnych i naśladowców zrealizowane zostały podczas autentycznych rozmów telefonicznych."

24 kwi 2015

Wykład w Sapporo i Kitami

23 kwi 2015

Disney pracuje nad syntezą dialogów do filmów

20 kwi 2015

Korpus mowy AGH

30 mar 2015

AudioSlides do artykułu o ocenie segmentacji audio

17 mar 2015

Przekleństwa w polskim języku

11 mar 2015

Fuzzy Precision and Recall Measures for Audio Signals Segmentation

2 mar 2015

Inż. Jerzy Wolf

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń