Rozpoznawanie Mowy

27 wrz 2012

Human Language Technology Days 2012

Dostępna jest transmisja na żywo z Dni Technologii Językowej, które 27-28 września 2012 dbywają się w Instytucie Podstaw Informatyki PAN w Warszawie, w tym nasze wystąpienie w iątek, w samo południe.

26 wrz 2012

KKZMBM w Krynicy Morskiej

Geograficznie na styku Zalewu Wiślanego i Morza Bałtyckiego, merytorycznie na pograniczu matematyki i biologii, obradują uczestnicy XVIII Krajowej Konferencji Zastosowań Matematyki w Biologii i Medycynie. Biomatematycy, bioinformatycy, biolodzy i lekarze prezentują aplikacje modeli matematycznych i biostatystyki m.in. w leczeniu nowotworów, genomice, farmakologii, i wielu innych dziedzinach, w których modelowanie zjawisk i procesów biologicznych jest narzędziem niezbędnym, a współpraca matematyków i biologów /biotechnologów/lekarzy - warunkiem koniecznym dla sukcesu.

Nasz zespół przedstawił referat dotyczący wykorzystania metod falkowych do modelowania emocji w mowie:

WAVELET EVALUATION OF SPEAKER EMOTIONS

(Magdalena Igras, Mariusz Ziółko, Jakub Gałka)

Abstract:

The paper presents an approach to automatic recognition of emotions in speech signal. The applied method bases on energy values in frequency subbands obtained from the perceptual discrete wavelet transform. Overall issues of speech emotion detection are presented and the proposed method is described, including statistical description of results and effects of evaluation tests.

Artykuły konferencyjne zostały opublikowane w Proceedings of the XVIII National Conference Applications of Mathematics to Biology and Medicine.

Tegoroczna konferencja potrwa do 27 września. Kolejna będzie miała miejsce w Jastrzębiej Górze - polecamy!

9 wrz 2012

Gazeta Wyborcza opublikowała ciekawy artykuł o negatywnych doświadczeniach związanych z call centre. Jednym z głównych celów rozpoznawania mowy jest wykonywanie tego typu zadań bez udziału ludzi. Artykuł zaczyna się od słów "Obecne warunki pracy w call center kłócą się z art. 3 Europejskiej Konwencji Praw Człowieka, który mówi wprost, iż nikt nie może być poddany nieludzkiemu lub poniżającemu traktowaniu. Należy zatem zmienić ten stan bez zbędnej zwłoki."

6 wrz 2012

Human Language Technology Days 2012

Instytut Podstaw Informatyki PANu organizuje 27-28 września bieżącego roku w Warszawie warsztaty Human Language Technology Days 2012. Pierwszego dnia odbędą się prezentacje dotyczące obecnego stanu wiedzy o przetwarzaniu języka naturalnego oraz wizje przyszłości tej dziedziny. W drugim dniu zaprezentuje się 13 najważniejszych, polskich zespołów naukowych zajmujących się przetwarzaniem języka. Nasze wystąpienie zaplanowane jest na 12.00-12.30. Spotkanie odbędzie się przy ul. Jana Kazimierza 5. Zapraszamy! Strona internetowa warsztatów.

5 wrz 2012

Zastosowania technologi mowy

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Technologie mowy mają zastosowanie wszędzie tam, gdzie potrzebna jest automatyczna analiza mowy lub istnieje głosowa interakcja pomiędzy człowiekiem a maszyną. Jednym z najbardziej oczywistych zastosowań jest komunikacja głosowa. Łączy ona w sobie kilka aspektów technologii mowy, głównie rozpoznawanie mowy i jej syntezę. O co chodzi, nie trzeba tłumaczyć miłośnikom filmów science-fiction z Odyseją Kosmiczną na czele, gdzie załoga mogła komunikować się głosowo z komputerem pokładowym.

Wracając do rzeczywistości, człowiek przeciętnie jest w stanie trzy razy szybciej mówić niż pisać na klawiaturze. Tak więc w teoretycznej sytuacji, po odrzuceniu uczestnictwa w aukcjach internetowych, wykonywaniu telefonów prywatnych i stawianiu pasjansów, każda praca biurowa mogłaby być wykonywana trzy razy szybciej. Pisanie książek mogłoby się stać tak łatwe, że ich nadmiar przyprawiłby wydawców i księgarzy o ból głowy.

Rozpoznawanie mowy jest już wykorzystywane, także w Polsce, w telefonicznych systemach informacyjnych zwanych również call centre. Istniejący system wyszukiwania połączeń w komunikacji miejskiej w Warszawie działa trzy razy wolniej niż odpowiednik opierający się na pracy ludzi, ale jest dziesięć razy tańszy w eksploatacji.

Rozpoznawanie i synteza mowy mogłyby stać się też niezwykle efektywnym sposobem kompresji. Przekazywany cyfrowy głos w wersji nieskompresowanej zajmuje co najmniej kilka tysięcy razy więcej bitów niż jego transkrypcja, a wersja skompresowana mowy, przy zastosowaniu obecnie używanych metod, kilkaset razy więcej niż tekst. Głos mógłby więc być zamieniany na tekst w nadajniku i syntezowany jako mowa w odbiorniku.

Byłoby to powiązane z utratą emocjonalnej treści przekazu, ale nie ma jej także w tak popularnych dziś smsach. Większą więc przeszkodą we wprowadzeniu takiego systemu byłoby zrujnowanie operatorów niż przystosowanie się użytkowników. Z drugiej strony, wyobraźmy sobie sytuację, w której jeden z operatorów zdecydowałby się na taką usługę i ograniczyłby koszt rozmowy jedynie 10-krotnie, przy powiedzmy uzyskiwanej 100-krotnej redukcji przepływu bitów. Czy taka opcja mogłaby wpłynąć na wybór sieci przez klientów?

Możliwość interakcji głosowej z komputerem pociągnęłaby za sobą całą masę usług związanych z symulacją dialogów. Rynek gier komputerowych, awatarów i wielu innych gadżetów przeżyłby rewolucję. Ludzka natura dyktuje nam dążenie do kontaktów z innymi ludźmi. Jeżeli są one nie do osiągnięcia w dzisiejszym izolowanym społeczeństwie, to szukamy środków zastępczych. Na przykład włączamy telewizor lub radio, nie mając konkretnej potrzeby ich użytkowania. Zwłaszcza osoby żyjące samotnie lubią słyszeć głos ludzki bez względu na treść przekazywanego komunikatu. Czasami używa się wyrażenia „dziecko wychowane przy radio” na określenie osoby, która spędzała dużo czasu w dzieciństwie w samotności i włączała radio, aby przerwać ciszę.

Istotnym odbiorcą usług technologii mowy są służby bezpieczeństwa i wymiaru sprawiedliwości. Potrzebują one systemów wykrywających zagrożenia na podstawie emocjonalnych wypowiedzi lub krzyków, automatycznie protokołujących posiedzenia sądowe (to zastosowanie staje się rzeczywistością w USA), analizatorów nagrań z podsłuchów, itd. Zastanówmy się jaki jest koszt sprawdzenia przez funkcjonariusza czy na nagraniu z całego tygodnia podsłuchu pojawiło się określone nazwisko. Załóżmy, że należy to sprawdzić w 100 podsłuchach. W takim przypadku człowiek nie ma szans z komputerem. Można także automatycznie sprawdzać, na podstawie cech głosu i sposobu mówienia, czy wypowiadająca się osoba jest na liście podejrzanych.

27 sie 2012

Warsztaty "Rozpoznawanie mowy i mówców"

Warsztaty Rozpoznawanie mowy i mówców odbędą się w dniach 17-18 września 2012 roku w Poznaniu w sali konferencyjnej przy ul. Noskowskiego 10. Organizatorem warsztatów jest Laboratorium Zintegrowanych Systemów Przetwarzania Języka i Mowy działające przy Poznańskim Centrum Superkomputerowo-Sieciowym oraz Polskie Towarzystwo Fonetyczne. Więcej informacji na stronie PTFon.

13 sie 2012

Komunikacja, a komputer i matematyka

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Przedstawiciele nauk społecznych i językoznawcy już wiele lat temu starali się opisać język w sposób algorytmiczny. Opracowano wiele modeli i schematów komunikacji głosowej. Zaproponowano algorytmy mające na celu efektywniejsze wpływanie na odbiorców. Wiele z modeli przedstawiono w bardzo ścisły sposób, oparty o matematyczny zapis.

Technologia i matematyka wkroczyła także w zagadnienia łączności głosowej między ludźmi, ze względu na rozwój telekomunikacji. Potrzeba kompresji przesyłanego sygnału mowy była jednym z bodźców do modelowania mowy i języka. Metody automatycznego wydobywania wiedzy z tekstów zapoczątkowały wiele kolejnych modeli atematycznych opisu języka naturalnego. W ten sposób ludzkość podjęła się usystematyzowania tego, co w swej naturze nie jest schematyczne, czyli języka naturalnego.

Kolejnym krokiem stosowania matematyki w opisie ludzkiego języka, było pojawienie się komunikacji człowieka z maszyną, bądź komputerem. Tutaj algorytmy nie służą już jako pomoc i dodatkowe narzędzia przy komunikacji między ludźmi. To urządzenie techniczne ma prowadzić dialog z człowiekiem według zasad ludzkich. Komunikacja człowieka z komputerem od początku stawała się coraz bardziej ludzka, a coraz mniej komputerowa. Początki sięgają kodowania w systemie binarnym, które z czasem rozwinęło się w podstawowe języki programowania, trochę przyjaźniejsze człowiekowi. Następnie pojawiały się języki programowania coraz bardziej przypominające język naturalny, aż do języków obiektowo zorientowanych i skryptowych. Podobna ewolucja przebiegała w systemach operacyjnych, od trybów tekstowych po interfejsy graficzne, będące utrudnieniem dla komputera, ale ułatwieniem dla człowieka.

Wszystkie te procesy powodują, że komputer musi coraz częściej uczyć się ludzkich metod komunikacji, aby symulować je z jak największą ułudą człowieczeństwa. Ma to ułatwić nieprzeszkolonym użytkownikom korzystanie z komputera.

27 wrz 2012

Human Language Technology Days 2012

26 wrz 2012

KKZMBM w Krynicy Morskiej

9 wrz 2012

6 wrz 2012

Human Language Technology Days 2012

5 wrz 2012

Zastosowania technologi mowy

27 sie 2012

Warsztaty "Rozpoznawanie mowy i mówców"

13 sie 2012

Komunikacja, a komputer i matematyka

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń