Rozpoznawanie Mowy

10 maj 2013

speechsamples.agh.edu.pl

Strona internetowa speechsamples.agh.edu.pl działa już z pełną funkcjonalnością. Są już także pierwsze próbki różnych języków. Proszę o przekazanie linku wszelkim znajomym obcokrajowcom z prośbą o zarejestrowanie próbki głosu swojego języka ojczystego. Chcemy zebrać co najmniej 300 języków aby na ich podstawie weryfikować hipotezy jak ludzkość rozpowszechniała się po kontynentach.

dsp.agh.edu.pl

6 maj 2013

Kilka słów o problemach z mobilnością w polskiej nauce

Przez szybki rozwój naszego zespołu nie wystarcza nam rekrutacja własnych absolwentów i studentów, więc sięgnąłem do biur karier innych uczelni. Tak bardzo się krytykuje, że nikt nie chce zatrudniać osób z innych uczelni, że wszystko dla znajomych i rodziny królika. U nas w Zespole i Katedrze nie jest to akurat prawda, nawet Kierownikiem Katedry została osoba spoza AGH, ale jak wygląda sprawa od strony rekrutującego? Jak w dowcipie o pewnym wójcie z czasów PRLu i zespole punkowym - nie jest dobrze. Portal jednego z biur karier dużej, znanej uczelni miał błąd - wypełniłem wszystkie pola, a system nie chciał przyjąć mojego zgłoszenia wyświetlając komunikat, że nie wszystkie pola są wypełnione. Poddałem się. Kolejne biuro karier bardzo cenionej polskiej uczelni. Trzeba najpierw zrobić profil pracodawcy, a w nim podać formę prawną - do wyboru działalność gospodarcza albo różne typy spółek - nic co by pasowało pod uczelnie... Generalnie im mniej znane uczelnie tym było prościej... System informatyczny naszego centrum karier też zresztą często miewa złe dni...

www.dsp.agh.edu.pl

2 maj 2013

Promocja bloga

Dziękujemy stronie pirlo.pl za pomoc w promocji bloga.

www.dsp.agh.edu.pl

29 kwi 2013

Gazeta Prawna

W dzisiejszej Gazecie Prawnej można poczytać (bardzo pozytywnie) o rozpoczynanym przez nas nowym projekcie dotyczącym bezpieczeństwa wewnętrznego. Temat jest realizowany na zamówienie ABW, dotyczy automatycznej identyfikacji osób dzwoniących na telefony alarmowe. Chodzi nie tylko o rozpoznanie z bazy osób, ale także o utworzenie prostego profilu osoby jeśli w bazie jej nie ma (wieku, płci, regionu Polski skąd pochodzi, stanu emocjonalnego, z jakiego rodzaju lokalizacji dzwoniła, itp.). Informacja jest też o tyle ciekawa, że w projekcie jest nadal jedno nieobsadzone stanowisko do pracy. Zapraszamy!

28 kwi 2013

Czego ludzie wymagają od technologii mowy?

Fragment książki "Przetwarzanie mowy"

To właśnie ludzkie wymagania często blokowały rozwój technologii mowy. Przykładowo, wiele lat temu, gdy rozważano opcję głosowego wybierania numeru telefonu, w jedne z czołowych telekomunikacyjnych firm padło pytanie, czy przy odpowiednich nakładach środków, można opracować metodę rozpoznawania mowy, która zapewni 100% poprawności wybieranych osób ze spisu w telefonie. Odpowiedź brzmiała “nie”, więc wstrzymano cały projekt. Również obecnie, jeśli udostępnilibyśmy oprogramowanie do automatycznej transkrypcji, wiele osób będzie oczekiwać, aby otrzymywany tekst był w pełni poprawny gramatycznie, nawet jeśli zapisywana wypowiedź taka nie była. Wynika to z faktu, że przywykliśmy do akceptowania o wiele wyższego poziomu błędów w wypowiedziach ustnych, niż pisemnych. W efekcie dajemy komputerowi wypowiedź ustną, a oczekujemy jakości wypowiedzi pisemnej. Są to wymagania bardzo trudne do spełnienia.

W komunikacji głosowej między ludźmi, często zdarza się, że przez chwilę nie rozumiemy się i prosimy o powtórzenie lub wyjaśnienia. Częstość takich sytuacji zależy od redundancji języka i rozbudowy dialektów. Zdarza się więc to częściej w angielskim i chińskim niż polskim. Przyjmujemy to naturalnie i nie oceniamy tego jako błędu w komunikacji. Jednakże, jeśli komputer przedstawi podobną prośbę, wówczas jesteśmy skłonni ocenić jego działanie jako nieskuteczne.

www.dsp.agh.edu.pl

25 kwi 2013

Korpus mowy z emocjami

AGH udzieliło licencji Uniwersytetowi Adama Mickiewicza w Poznaniu na korpus mowy z emocjami opracowany przez Magdalenę Igras. Korpus będzie wykorzystywany do badań potrzebnych do pracy magisterskiej realizowanej na Wydziale Psychologii.

Korpus składa się z nagrań wyrażających pięć podstawowych emocji (radość, smutek, złość, strach, zdziwienie), ironię oraz stan neutralny/obojętny jako sygnał referencyjny. Należy zaznaczyż, że ironia nie jest emocją w rozumieniu teorii emocji podstawowych. Można uznawać ją za postawę emocjonalną bądź środek wyrazu świadczący o nastawieniu emocjonalnym. Ton ironiczny jest jednak dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści lub odbiorcy.

23 kwi 2013

Dlaczego aplikacje rozpoznawania mowy korporacji takich jak Google czy Apple są darmowe?

Nie są. Płaci się za nie cenną walutą - własnym głosem. Świat ostatnio odkrył ze sporym zdziwieniem i chyba nawet oburzeniem, że Apple gromadzi nagrania i dane o użytkownikach Siri przez 2 lata:

http://www.conowego.pl/aktualnosci/apple-przechowuje-polecenia-glosowe-uzytkownikow-siri-przez-2-lata-9186/

http://appleinsider.com/articles/13/04/19/apple-reveals-it-keeps-anonymized-siri-data-for-up-to-2-years

http://arstechnica.com/apple/2013/04/apple-remembers-where-you-wanted-to-get-drunk-for-up-to-2-years/

http://techcrunch.com/2013/04/19/apple-keeps-anonymized-voice-data-related-to-virtual-assistant-siri-for-up-to-2-years/

Ja nie bardzo wierzę, żeby po 2 latach kasowali je. Kiedy zaczniemy się dziwić, że Facebook gromadzi informacje o tym co piszemy na nim? Wydanie darmowej aplikacji jest najtańszą wersją zgromadzenia dużych zasobów nagrań, a te są niezbędne do rozwijania technologi mowy. Tak więc, jeśli ktoś poświęca czas swoich pracowników na udostępnienie darmowej aplikacji, to wiadomo o co chodzi... Nie bądźmy zaskoczeni oczywistościami.