Rozpoznawanie Mowy

23 kwi 2013

Dlaczego aplikacje rozpoznawania mowy korporacji takich jak Google czy Apple są darmowe?

Nie są. Płaci się za nie cenną walutą - własnym głosem. Świat ostatnio odkrył ze sporym zdziwieniem i chyba nawet oburzeniem, że Apple gromadzi nagrania i dane o użytkownikach Siri przez 2 lata:

http://www.conowego.pl/aktualnosci/apple-przechowuje-polecenia-glosowe-uzytkownikow-siri-przez-2-lata-9186/

http://appleinsider.com/articles/13/04/19/apple-reveals-it-keeps-anonymized-siri-data-for-up-to-2-years

http://arstechnica.com/apple/2013/04/apple-remembers-where-you-wanted-to-get-drunk-for-up-to-2-years/

http://techcrunch.com/2013/04/19/apple-keeps-anonymized-voice-data-related-to-virtual-assistant-siri-for-up-to-2-years/

Ja nie bardzo wierzę, żeby po 2 latach kasowali je. Kiedy zaczniemy się dziwić, że Facebook gromadzi informacje o tym co piszemy na nim? Wydanie darmowej aplikacji jest najtańszą wersją zgromadzenia dużych zasobów nagrań, a te są niezbędne do rozwijania technologi mowy. Tak więc, jeśli ktoś poświęca czas swoich pracowników na udostępnienie darmowej aplikacji, to wiadomo o co chodzi... Nie bądźmy zaskoczeni oczywistościami.

www.dsp.agh.edu.pl

20 kwi 2013

LXXI Zjazd PTJ

Moja propozycja referatu "Nauczanie elementów językoznawstwa na kierunkach technicznych" została przyjęta na LXXI Zjazd Polskiego Towarzystwa Językoznawczego w Gnieźnie. Referat będzie dotyczył podejść do nauki elementów językoznawstwa w przedmiotach dotyczących przetwarzania mowy na kierunkach takich jak Inżynieria Akustyczna, Elektronika i Telekomunikacja oraz Informatyka na Akademii Górniczo-Hutniczej w Krakowie. Omówione zostaną powody dla których uczona wiedza i umiejętności są bardzo pożądanym elementem wykształcenia inżynierów wspomnianych specjalności. Przedstawiona zostanie używana metodologia nauczania oraz odbiór tej wiedzy przez studentów AGH.

18 kwi 2013

Scarlett Mansion Reaktywacja

Udostępniliśmy dokumentację projektu Scarlett Mansion. Sama gra nadal znajduje się na tym samym serwerze i jest widoczna pod adresem mansion.elektro.agh.edu.pl. Zostanie tam do samego końca, najprawdopodobniej serwera, który jest jednym z najstarszych nadal działających na AGH komputerów i do tego został porzucony w pawilonie w którym dawniej mieliśmy biuro. Zdarzają mu się coraz częściej słabsze dni, kiedy nie odpowiada, ale póki co uparcie, wiernie, samoczynnie wstaje ze wsparciem kawałka kartonika, który wepchnęliśmy w klawiaturę dociskając odpowiedni klawisz potrzebny przy bootowaniu . Na nowy serwer wrzucimy raczej wersję 2.0, jeśli taka powstanie ... Wydawnictwo AGH wydało dokumentację związaną z projektem w postaci małej książki (i nie chodzi o javadoc z linku powyżej). Nie jest ona dystrybuowana, ale jeśli ktoś byłby zainteresowany egzemplarzem lub udziałem w projekcie to proszę o kontakt.

Audycja Euranet+ na antenie Jedynki Polskiego Radia

Już wkrótce będziemy gośćmi magazynu europejskiego Euranet+ na antenie Jedynki Polskiego Radia.
Prowadzący program to Artur Wolski. Odcinek ma być poświęcony projektom badawczym finansowanym z Unii Europejskiej, których aplikacje będą miały zastosowanie dla statystycznego Kowalskiego.
Data emisji jeszcze nie jest znana. Dowiemy się prawdopodobnie w poniedziałek, kiedy mają być zrealizowane nagrania. Przewidujemy w trakcie audycji demonstrację naszego systemu rozpoznawania mowy SARMATA. Zapraszamy!!!

17 kwi 2013

Konferencja SLSP 2013

Nasz artykuł "Speech/Music Discrimination via Energy Density Analysis" został przyjęty na 1st International Conference on Statistical Language and Speech Processing która odbędzie się w Tarragonie w Hiszpanii. Artykuł opisuje metodę którą stosujemy przy wstępnej analizie nagrań w których znajduje się sygnał mowy do weryfikacji czy rzeczywiście on tam jest, a jeśli tak to czy nie jest przerywany w niektórych miejscach muzyką.

www.dsp.agh.edu.pl

16 kwi 2013

Problemy Kryminalistyki

Nasz artykuł "Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy" został przyjęty do druku w Problemach Kryminalistyki, wydawanych przez Centralne Laboratorium Kryminalistyczne Policji.

W artykule omówiono problemy związane z identyfikacją mówcy i przedstawiono propozycję procedury ułatwiającej proces identyfikacji w części akustycznej. Koncepcja opiera się na metodach programowania dynamicznego, a w szczególności algorytmu znanego jako DTW (ang. Dynamic Time Warping). Przeprowadzone zostały testy, wskazujące na przydatność proponowanej procedury przy próbie ustalenia, które samogłoski oraz formanty pozwalają dostatecznie zróżnicować mówców, indywidualizując tym samym dostatecznie każdego.

www.dsp.agh.edu.pl

Głosowa biometria na AGH

W ramach projektu Biometryczna weryfikacja i identyfikacja głosu kierowanego przez dr inż. Jakuba Gałkę już po kilku miesiącach projektu zrealizowano prototyp systemu weryfikacji tożsamości osób dzwoniących. Wstępne testy potwierdziły skuteczność metody i zaimplementowanego rozwiązania, a komercyjny partner projektu - firma Unico Software - prowadzi rozmowy na temat jego wdrożenia, między innymi w infoliniach banków.