29 kwi 2013

Gazeta Prawna

W dzisiejszej Gazecie Prawnej można poczytać (bardzo pozytywnie) o rozpoczynanym przez nas nowym projekcie dotyczącym bezpieczeństwa wewnętrznego. Temat jest realizowany na zamówienie ABW, dotyczy automatycznej identyfikacji osób dzwoniących na telefony alarmowe. Chodzi nie tylko o rozpoznanie z bazy osób, ale także o utworzenie prostego profilu osoby jeśli w bazie jej nie ma (wieku, płci, regionu Polski skąd pochodzi, stanu emocjonalnego, z jakiego rodzaju lokalizacji dzwoniła, itp.). Informacja jest też o tyle ciekawa, że w projekcie jest nadal jedno nieobsadzone stanowisko do pracy. Zapraszamy!

28 kwi 2013

Czego ludzie wymagają od technologii mowy?


Fragment książki "Przetwarzanie mowy"

To właśnie ludzkie wymagania często blokowały rozwój technologii mowy. Przykładowo, wiele lat temu, gdy rozważano opcję głosowego wybierania numeru telefonu, w jedne z czołowych telekomunikacyjnych firm padło pytanie, czy przy odpowiednich nakładach środków, można opracować metodę rozpoznawania mowy, która zapewni 100% poprawności wybieranych osób ze spisu w telefonie. Odpowiedź brzmiała “nie”, więc wstrzymano cały projekt. Również obecnie, jeśli udostępnilibyśmy oprogramowanie do automatycznej transkrypcji, wiele osób będzie oczekiwać, aby otrzymywany tekst był w pełni poprawny gramatycznie, nawet jeśli zapisywana wypowiedź taka nie była. Wynika to z faktu, że przywykliśmy do akceptowania o wiele wyższego poziomu błędów w wypowiedziach ustnych, niż pisemnych. W efekcie dajemy komputerowi wypowiedź ustną, a oczekujemy jakości wypowiedzi pisemnej. Są to wymagania bardzo trudne do spełnienia.

W komunikacji głosowej między ludźmi, często zdarza się, że przez chwilę nie rozumiemy się i prosimy o powtórzenie lub wyjaśnienia. Częstość takich sytuacji zależy od redundancji języka i rozbudowy dialektów. Zdarza się więc to częściej w angielskim i chińskim niż polskim. Przyjmujemy to naturalnie i nie oceniamy tego jako błędu w komunikacji. Jednakże, jeśli komputer przedstawi podobną prośbę, wówczas jesteśmy skłonni ocenić jego działanie jako nieskuteczne.


www.dsp.agh.edu.pl

25 kwi 2013

Korpus mowy z emocjami

AGH udzieliło licencji Uniwersytetowi Adama Mickiewicza w Poznaniu na korpus mowy z emocjami opracowany przez Magdalenę Igras. Korpus będzie wykorzystywany do badań potrzebnych do pracy magisterskiej realizowanej na Wydziale Psychologii.

Korpus składa się z nagrań wyrażających pięć podstawowych emocji  (radość, smutek, złość, strach, zdziwienie), ironię oraz stan neutralny/obojętny jako sygnał referencyjny. Należy zaznaczyż, że ironia nie jest emocją w rozumieniu teorii emocji podstawowych. Można uznawać ją za  postawę emocjonalną bądź środek wyrazu świadczący o nastawieniu emocjonalnym. Ton ironiczny jest jednak dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści lub odbiorcy.

23 kwi 2013

Dlaczego aplikacje rozpoznawania mowy korporacji takich jak Google czy Apple są darmowe?

Nie są. Płaci się za nie cenną walutą - własnym głosem. Świat ostatnio odkrył ze sporym zdziwieniem i chyba nawet oburzeniem, że Apple gromadzi nagrania i dane o użytkownikach Siri przez 2 lata:
Ja nie bardzo wierzę, żeby po 2 latach kasowali je. Kiedy zaczniemy się dziwić, że Facebook gromadzi informacje o tym co piszemy na nim? Wydanie darmowej aplikacji jest najtańszą wersją zgromadzenia dużych zasobów nagrań, a te są niezbędne do rozwijania technologi mowy. Tak więc, jeśli ktoś poświęca czas swoich pracowników na udostępnienie darmowej aplikacji, to wiadomo o co chodzi... Nie bądźmy zaskoczeni oczywistościami.

20 kwi 2013

LXXI Zjazd PTJ

Moja propozycja referatu "Nauczanie elementów językoznawstwa na kierunkach technicznych" została przyjęta na LXXI Zjazd Polskiego Towarzystwa Językoznawczego w Gnieźnie. Referat będzie dotyczył podejść do nauki elementów językoznawstwa w przedmiotach dotyczących przetwarzania mowy na kierunkach takich jak Inżynieria Akustyczna, Elektronika i Telekomunikacja oraz Informatyka na Akademii Górniczo-Hutniczej w Krakowie. Omówione zostaną powody dla których uczona wiedza i umiejętności są bardzo pożądanym elementem wykształcenia inżynierów wspomnianych specjalności. Przedstawiona zostanie używana metodologia nauczania oraz odbiór tej wiedzy przez studentów AGH.

18 kwi 2013

Scarlett Mansion Reaktywacja

Udostępniliśmy dokumentację projektu Scarlett Mansion. Sama gra nadal znajduje się na tym samym serwerze i jest widoczna pod adresem mansion.elektro.agh.edu.pl. Zostanie tam do samego końca, najprawdopodobniej serwera, który jest jednym z najstarszych nadal działających na AGH komputerów i do tego został porzucony w pawilonie w którym dawniej mieliśmy biuro. Zdarzają mu się coraz częściej słabsze dni, kiedy nie odpowiada, ale póki co uparcie, wiernie, samoczynnie wstaje ze wsparciem kawałka kartonika, który wepchnęliśmy w klawiaturę dociskając odpowiedni klawisz potrzebny przy bootowaniu . Na nowy serwer wrzucimy raczej wersję 2.0, jeśli taka powstanie ... Wydawnictwo AGH wydało dokumentację związaną z projektem w postaci małej książki (i nie chodzi o javadoc z linku powyżej). Nie jest ona dystrybuowana, ale jeśli ktoś byłby zainteresowany egzemplarzem lub udziałem w projekcie to proszę o kontakt.

Audycja Euranet+ na antenie Jedynki Polskiego Radia

Już wkrótce będziemy gośćmi magazynu europejskiego Euranet+  na antenie Jedynki Polskiego Radia.
Prowadzący program to Artur Wolski. Odcinek ma być poświęcony projektom badawczym finansowanym z Unii Europejskiej, których aplikacje będą miały zastosowanie dla statystycznego Kowalskiego.
Data emisji jeszcze nie jest znana. Dowiemy się prawdopodobnie w poniedziałek, kiedy mają być zrealizowane nagrania. Przewidujemy w trakcie audycji demonstrację naszego systemu rozpoznawania mowy SARMATA. Zapraszamy!!!

17 kwi 2013

Konferencja SLSP 2013

Nasz artykuł "Speech/Music Discrimination via Energy Density Analysis" został przyjęty na 1st International Conference on Statistical Language and Speech Processing która odbędzie się w Tarragonie w Hiszpanii. Artykuł opisuje metodę którą stosujemy przy wstępnej analizie nagrań w których znajduje się sygnał mowy do weryfikacji czy rzeczywiście on tam jest, a jeśli tak to czy nie jest przerywany w niektórych miejscach muzyką.

www.dsp.agh.edu.pl

16 kwi 2013

Problemy Kryminalistyki

Nasz artykuł "Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy" został przyjęty do druku w Problemach Kryminalistyki, wydawanych przez Centralne Laboratorium Kryminalistyczne Policji. 
W artykule omówiono problemy związane z identyfikacją mówcy i przedstawiono propozycję procedury ułatwiającej proces identyfikacji w części akustycznej. Koncepcja opiera się na metodach programowania dynamicznego, a w szczególności algorytmu znanego jako DTW (ang. Dynamic Time Warping). Przeprowadzone zostały testy, wskazujące na przydatność proponowanej procedury przy próbie ustalenia, które samogłoski oraz formanty pozwalają dostatecznie zróżnicować mówców, indywidualizując tym samym dostatecznie każdego.

www.dsp.agh.edu.pl

Głosowa biometria na AGH

W ramach projektu Biometryczna weryfikacja i identyfikacja głosu kierowanego przez dr inż. Jakuba Gałkę już po kilku miesiącach projektu zrealizowano prototyp systemu weryfikacji tożsamości osób dzwoniących. Wstępne testy potwierdziły skuteczność metody i zaimplementowanego rozwiązania, a komercyjny partner projektu - firma Unico Software - prowadzi rozmowy na temat jego wdrożenia, między innymi w infoliniach banków.

6 kwi 2013

9th International Conference on Machine Learning and Data Mining MLDM 2013

Nasz artykuł "Using Part of Speech N-grams for Improving Automatic Speech Recognition of Polish" został przyjęty na konferencji MLDM 2013 w Nowym Jorku. Artykuł opisuje pierwsze eksperymenty naszego nowego podejścia do wykorzystania tagów pochodzących z analizatorów morfologicznych do modelowania języka w rozpoznawaniu mowy. Kluczem sukcesu okazało się ograniczenie tagów POS (Part-of-speech) do węższej liczby kategorii, rezygnując ze szczegółowego opisu. Opracowany model 3-gramowy korzysta z estymacji Wittena-Bella 2-gramami.

www.dsp.agh.edu.pl

3 kwi 2013

Modelowanie i Pomiary w Medycynie

Nasz artykuł "Modelowanie i detekcja oddechu w sygnale akustycznym" został przyjęty na konferencję "Modelowanie i Pomiary w Medycynie" MPM'2013, która odbędzie się 19 - 23 maja 2013r. w Krynicy Zdroju. Artykuł opisuje nasza metodę wykrywania oddechów w nagraniu mowy i jej potencjał do zastosowań w inżynierii biomedycznej.

www.dsp.agh.edu.pl