google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0

28 kwi 2013

Czego ludzie wymagają od technologii mowy?


Fragment książki "Przetwarzanie mowy"

To właśnie ludzkie wymagania często blokowały rozwój technologii mowy. Przykładowo, wiele lat temu, gdy rozważano opcję głosowego wybierania numeru telefonu, w jedne z czołowych telekomunikacyjnych firm padło pytanie, czy przy odpowiednich nakładach środków, można opracować metodę rozpoznawania mowy, która zapewni 100% poprawności wybieranych osób ze spisu w telefonie. Odpowiedź brzmiała “nie”, więc wstrzymano cały projekt. Również obecnie, jeśli udostępnilibyśmy oprogramowanie do automatycznej transkrypcji, wiele osób będzie oczekiwać, aby otrzymywany tekst był w pełni poprawny gramatycznie, nawet jeśli zapisywana wypowiedź taka nie była. Wynika to z faktu, że przywykliśmy do akceptowania o wiele wyższego poziomu błędów w wypowiedziach ustnych, niż pisemnych. W efekcie dajemy komputerowi wypowiedź ustną, a oczekujemy jakości wypowiedzi pisemnej. Są to wymagania bardzo trudne do spełnienia.

W komunikacji głosowej między ludźmi, często zdarza się, że przez chwilę nie rozumiemy się i prosimy o powtórzenie lub wyjaśnienia. Częstość takich sytuacji zależy od redundancji języka i rozbudowy dialektów. Zdarza się więc to częściej w angielskim i chińskim niż polskim. Przyjmujemy to naturalnie i nie oceniamy tego jako błędu w komunikacji. Jednakże, jeśli komputer przedstawi podobną prośbę, wówczas jesteśmy skłonni ocenić jego działanie jako nieskuteczne.


www.dsp.agh.edu.pl

25 kwi 2013

Korpus mowy z emocjami

AGH udzieliło licencji Uniwersytetowi Adama Mickiewicza w Poznaniu na korpus mowy z emocjami opracowany przez Magdalenę Igras. Korpus będzie wykorzystywany do badań potrzebnych do pracy magisterskiej realizowanej na Wydziale Psychologii.

Korpus składa się z nagrań wyrażających pięć podstawowych emocji  (radość, smutek, złość, strach, zdziwienie), ironię oraz stan neutralny/obojętny jako sygnał referencyjny. Należy zaznaczyż, że ironia nie jest emocją w rozumieniu teorii emocji podstawowych. Można uznawać ją za  postawę emocjonalną bądź środek wyrazu świadczący o nastawieniu emocjonalnym. Ton ironiczny jest jednak dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści lub odbiorcy.

23 kwi 2013

Dlaczego aplikacje rozpoznawania mowy korporacji takich jak Google czy Apple są darmowe?

Nie są. Płaci się za nie cenną walutą - własnym głosem. Świat ostatnio odkrył ze sporym zdziwieniem i chyba nawet oburzeniem, że Apple gromadzi nagrania i dane o użytkownikach Siri przez 2 lata:
Ja nie bardzo wierzę, żeby po 2 latach kasowali je. Kiedy zaczniemy się dziwić, że Facebook gromadzi informacje o tym co piszemy na nim? Wydanie darmowej aplikacji jest najtańszą wersją zgromadzenia dużych zasobów nagrań, a te są niezbędne do rozwijania technologi mowy. Tak więc, jeśli ktoś poświęca czas swoich pracowników na udostępnienie darmowej aplikacji, to wiadomo o co chodzi... Nie bądźmy zaskoczeni oczywistościami.

20 kwi 2013

LXXI Zjazd PTJ

Moja propozycja referatu "Nauczanie elementów językoznawstwa na kierunkach technicznych" została przyjęta na LXXI Zjazd Polskiego Towarzystwa Językoznawczego w Gnieźnie. Referat będzie dotyczył podejść do nauki elementów językoznawstwa w przedmiotach dotyczących przetwarzania mowy na kierunkach takich jak Inżynieria Akustyczna, Elektronika i Telekomunikacja oraz Informatyka na Akademii Górniczo-Hutniczej w Krakowie. Omówione zostaną powody dla których uczona wiedza i umiejętności są bardzo pożądanym elementem wykształcenia inżynierów wspomnianych specjalności. Przedstawiona zostanie używana metodologia nauczania oraz odbiór tej wiedzy przez studentów AGH.

18 kwi 2013

Scarlett Mansion Reaktywacja

Udostępniliśmy dokumentację projektu Scarlett Mansion. Sama gra nadal znajduje się na tym samym serwerze i jest widoczna pod adresem mansion.elektro.agh.edu.pl. Zostanie tam do samego końca, najprawdopodobniej serwera, który jest jednym z najstarszych nadal działających na AGH komputerów i do tego został porzucony w pawilonie w którym dawniej mieliśmy biuro. Zdarzają mu się coraz częściej słabsze dni, kiedy nie odpowiada, ale póki co uparcie, wiernie, samoczynnie wstaje ze wsparciem kawałka kartonika, który wepchnęliśmy w klawiaturę dociskając odpowiedni klawisz potrzebny przy bootowaniu . Na nowy serwer wrzucimy raczej wersję 2.0, jeśli taka powstanie ... Wydawnictwo AGH wydało dokumentację związaną z projektem w postaci małej książki (i nie chodzi o javadoc z linku powyżej). Nie jest ona dystrybuowana, ale jeśli ktoś byłby zainteresowany egzemplarzem lub udziałem w projekcie to proszę o kontakt.

Audycja Euranet+ na antenie Jedynki Polskiego Radia

Już wkrótce będziemy gośćmi magazynu europejskiego Euranet+  na antenie Jedynki Polskiego Radia.
Prowadzący program to Artur Wolski. Odcinek ma być poświęcony projektom badawczym finansowanym z Unii Europejskiej, których aplikacje będą miały zastosowanie dla statystycznego Kowalskiego.
Data emisji jeszcze nie jest znana. Dowiemy się prawdopodobnie w poniedziałek, kiedy mają być zrealizowane nagrania. Przewidujemy w trakcie audycji demonstrację naszego systemu rozpoznawania mowy SARMATA. Zapraszamy!!!

17 kwi 2013

Konferencja SLSP 2013

Nasz artykuł "Speech/Music Discrimination via Energy Density Analysis" został przyjęty na 1st International Conference on Statistical Language and Speech Processing która odbędzie się w Tarragonie w Hiszpanii. Artykuł opisuje metodę którą stosujemy przy wstępnej analizie nagrań w których znajduje się sygnał mowy do weryfikacji czy rzeczywiście on tam jest, a jeśli tak to czy nie jest przerywany w niektórych miejscach muzyką.

www.dsp.agh.edu.pl