28 wrz 2012

SNUV.PL

Na stronie snuv.pl powstaje korpus mowy polskiej. Każdy może wziąć udział w nagraniach zarabiając 100 zł za godzinę nagrań.

27 wrz 2012

Human Language Technology Days 2012


Dostępna jest transmisja na żywo z Dni Technologii Językowej, które 27-28 września 2012 dbywają się w Instytucie Podstaw Informatyki PAN w Warszawie, w tym nasze wystąpienie w iątek, w samo południe.

26 wrz 2012

KKZMBM w Krynicy Morskiej


Geograficznie na styku Zalewu Wiślanego i Morza Bałtyckiego, merytorycznie na pograniczu matematyki i biologii, obradują uczestnicy XVIII Krajowej Konferencji Zastosowań Matematyki w Biologii i Medycynie. Biomatematycy, bioinformatycy, biolodzy i lekarze prezentują aplikacje modeli matematycznych i biostatystyki m.in. w leczeniu nowotworów, genomice, farmakologii, i wielu innych dziedzinach, w których modelowanie zjawisk i procesów biologicznych jest narzędziem niezbędnym, a współpraca matematyków i biologów /biotechnologów/lekarzy - warunkiem koniecznym dla sukcesu.

Nasz zespół przedstawił referat dotyczący wykorzystania metod falkowych do modelowania emocji w mowie:

WAVELET EVALUATION OF SPEAKER EMOTIONS 
(Magdalena Igras, Mariusz Ziółko, Jakub Gałka)
Abstract:
The paper presents an approach to automatic recognition of emotions in speech signal. The applied method  bases on energy values in frequency subbands obtained from the perceptual discrete wavelet transform. Overall issues of speech emotion detection are presented and the proposed method is described, including statistical description of results and effects of evaluation tests. 


Tegoroczna konferencja potrwa do 27 września. Kolejna będzie miała miejsce w Jastrzębiej Górze - polecamy!

9 wrz 2012

Gazeta Wyborcza opublikowała ciekawy artykuł o negatywnych doświadczeniach związanych z call centre. Jednym z głównych celów rozpoznawania mowy jest wykonywanie tego typu zadań bez udziału ludzi. Artykuł zaczyna się od słów "Obecne warunki pracy w call center kłócą się z art. 3 Europejskiej Konwencji Praw Człowieka, który mówi wprost, iż nikt nie może być poddany nieludzkiemu lub poniżającemu traktowaniu. Należy zatem zmienić ten stan bez zbędnej zwłoki."

6 wrz 2012

Human Language Technology Days 2012

Instytut Podstaw Informatyki PANu organizuje 27-28 września bieżącego roku w Warszawie warsztaty Human Language Technology Days 2012. Pierwszego dnia odbędą się prezentacje dotyczące obecnego stanu wiedzy o przetwarzaniu języka naturalnego oraz wizje przyszłości tej dziedziny. W drugim dniu zaprezentuje się 13 najważniejszych, polskich zespołów naukowych zajmujących się przetwarzaniem języka. Nasze wystąpienie zaplanowane jest na 12.00-12.30. Spotkanie odbędzie się przy ul. Jana Kazimierza 5. Zapraszamy! Strona internetowa warsztatów.

5 wrz 2012

Zastosowania technologi mowy



Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Technologie mowy mają zastosowanie wszędzie tam, gdzie potrzebna jest automatyczna analiza mowy lub istnieje głosowa interakcja pomiędzy człowiekiem a maszyną. Jednym z najbardziej oczywistych zastosowań jest komunikacja głosowa. Łączy ona w sobie kilka aspektów technologii mowy, głównie rozpoznawanie mowy i jej syntezę. O co chodzi, nie trzeba tłumaczyć miłośnikom filmów science-fiction z Odyseją Kosmiczną na czele, gdzie załoga mogła komunikować się głosowo z komputerem pokładowym. 


Wracając do rzeczywistości, człowiek przeciętnie jest w stanie trzy razy szybciej mówić niż pisać na klawiaturze. Tak więc w teoretycznej sytuacji, po odrzuceniu uczestnictwa w aukcjach internetowych, wykonywaniu telefonów prywatnych i stawianiu pasjansów, każda praca biurowa mogłaby być wykonywana trzy razy szybciej. Pisanie książek mogłoby się stać tak łatwe, że ich nadmiar przyprawiłby wydawców i księgarzy o ból głowy.

Rozpoznawanie mowy jest już wykorzystywane, także w Polsce, w telefonicznych systemach informacyjnych zwanych również call centre. Istniejący system wyszukiwania połączeń w komunikacji miejskiej w Warszawie działa trzy razy wolniej niż odpowiednik opierający się na pracy ludzi, ale jest dziesięć razy tańszy w eksploatacji.

Rozpoznawanie i synteza mowy mogłyby stać się też niezwykle efektywnym sposobem kompresji. Przekazywany cyfrowy głos w wersji nieskompresowanej zajmuje co najmniej kilka tysięcy razy więcej bitów niż jego transkrypcja, a wersja skompresowana mowy, przy zastosowaniu obecnie używanych metod, kilkaset razy więcej niż tekst. Głos mógłby więc być zamieniany na tekst w nadajniku i syntezowany jako mowa w odbiorniku.


Byłoby to powiązane z utratą emocjonalnej treści przekazu, ale nie ma jej także w tak popularnych dziś smsach. Większą więc przeszkodą we wprowadzeniu takiego systemu byłoby zrujnowanie operatorów niż przystosowanie się użytkowników. Z drugiej strony, wyobraźmy sobie sytuację, w której jeden z operatorów zdecydowałby się na taką usługę i ograniczyłby koszt rozmowy jedynie 10-krotnie, przy powiedzmy uzyskiwanej 100-krotnej redukcji przepływu bitów. Czy taka opcja mogłaby wpłynąć na wybór sieci przez klientów? 

Możliwość interakcji głosowej z komputerem pociągnęłaby za sobą całą masę usług związanych z symulacją dialogów. Rynek gier komputerowych, awatarów i wielu innych gadżetów przeżyłby rewolucję. Ludzka natura dyktuje nam dążenie do kontaktów z innymi ludźmi. Jeżeli są one nie do osiągnięcia w dzisiejszym izolowanym społeczeństwie, to szukamy środków zastępczych. Na przykład włączamy telewizor lub radio, nie mając konkretnej potrzeby ich użytkowania. Zwłaszcza osoby żyjące samotnie lubią słyszeć głos ludzki bez względu na treść przekazywanego komunikatu. Czasami używa się wyrażenia „dziecko wychowane przy radio” na określenie osoby, która spędzała dużo czasu w dzieciństwie w samotności i włączała radio, aby przerwać ciszę. 

Istotnym odbiorcą usług technologii mowy są służby bezpieczeństwa i wymiaru sprawiedliwości. Potrzebują one systemów wykrywających zagrożenia na podstawie emocjonalnych wypowiedzi lub krzyków, automatycznie protokołujących posiedzenia sądowe (to zastosowanie staje się rzeczywistością w USA), analizatorów nagrań z podsłuchów, itd. Zastanówmy się jaki jest koszt sprawdzenia przez funkcjonariusza czy na nagraniu z całego tygodnia podsłuchu pojawiło się określone nazwisko. Załóżmy, że należy to sprawdzić w 100 podsłuchach. W takim przypadku człowiek nie ma szans z komputerem. Można także automatycznie sprawdzać, na podstawie cech głosu i sposobu mówienia, czy wypowiadająca się osoba jest na liście podejrzanych.