Rozpoznawanie Mowy

5 wrz 2012

Zastosowania technologi mowy

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Technologie mowy mają zastosowanie wszędzie tam, gdzie potrzebna jest automatyczna analiza mowy lub istnieje głosowa interakcja pomiędzy człowiekiem a maszyną. Jednym z najbardziej oczywistych zastosowań jest komunikacja głosowa. Łączy ona w sobie kilka aspektów technologii mowy, głównie rozpoznawanie mowy i jej syntezę. O co chodzi, nie trzeba tłumaczyć miłośnikom filmów science-fiction z Odyseją Kosmiczną na czele, gdzie załoga mogła komunikować się głosowo z komputerem pokładowym.

Wracając do rzeczywistości, człowiek przeciętnie jest w stanie trzy razy szybciej mówić niż pisać na klawiaturze. Tak więc w teoretycznej sytuacji, po odrzuceniu uczestnictwa w aukcjach internetowych, wykonywaniu telefonów prywatnych i stawianiu pasjansów, każda praca biurowa mogłaby być wykonywana trzy razy szybciej. Pisanie książek mogłoby się stać tak łatwe, że ich nadmiar przyprawiłby wydawców i księgarzy o ból głowy.

Rozpoznawanie mowy jest już wykorzystywane, także w Polsce, w telefonicznych systemach informacyjnych zwanych również call centre. Istniejący system wyszukiwania połączeń w komunikacji miejskiej w Warszawie działa trzy razy wolniej niż odpowiednik opierający się na pracy ludzi, ale jest dziesięć razy tańszy w eksploatacji.

Rozpoznawanie i synteza mowy mogłyby stać się też niezwykle efektywnym sposobem kompresji. Przekazywany cyfrowy głos w wersji nieskompresowanej zajmuje co najmniej kilka tysięcy razy więcej bitów niż jego transkrypcja, a wersja skompresowana mowy, przy zastosowaniu obecnie używanych metod, kilkaset razy więcej niż tekst. Głos mógłby więc być zamieniany na tekst w nadajniku i syntezowany jako mowa w odbiorniku.

Byłoby to powiązane z utratą emocjonalnej treści przekazu, ale nie ma jej także w tak popularnych dziś smsach. Większą więc przeszkodą we wprowadzeniu takiego systemu byłoby zrujnowanie operatorów niż przystosowanie się użytkowników. Z drugiej strony, wyobraźmy sobie sytuację, w której jeden z operatorów zdecydowałby się na taką usługę i ograniczyłby koszt rozmowy jedynie 10-krotnie, przy powiedzmy uzyskiwanej 100-krotnej redukcji przepływu bitów. Czy taka opcja mogłaby wpłynąć na wybór sieci przez klientów?

Możliwość interakcji głosowej z komputerem pociągnęłaby za sobą całą masę usług związanych z symulacją dialogów. Rynek gier komputerowych, awatarów i wielu innych gadżetów przeżyłby rewolucję. Ludzka natura dyktuje nam dążenie do kontaktów z innymi ludźmi. Jeżeli są one nie do osiągnięcia w dzisiejszym izolowanym społeczeństwie, to szukamy środków zastępczych. Na przykład włączamy telewizor lub radio, nie mając konkretnej potrzeby ich użytkowania. Zwłaszcza osoby żyjące samotnie lubią słyszeć głos ludzki bez względu na treść przekazywanego komunikatu. Czasami używa się wyrażenia „dziecko wychowane przy radio” na określenie osoby, która spędzała dużo czasu w dzieciństwie w samotności i włączała radio, aby przerwać ciszę.

Istotnym odbiorcą usług technologii mowy są służby bezpieczeństwa i wymiaru sprawiedliwości. Potrzebują one systemów wykrywających zagrożenia na podstawie emocjonalnych wypowiedzi lub krzyków, automatycznie protokołujących posiedzenia sądowe (to zastosowanie staje się rzeczywistością w USA), analizatorów nagrań z podsłuchów, itd. Zastanówmy się jaki jest koszt sprawdzenia przez funkcjonariusza czy na nagraniu z całego tygodnia podsłuchu pojawiło się określone nazwisko. Załóżmy, że należy to sprawdzić w 100 podsłuchach. W takim przypadku człowiek nie ma szans z komputerem. Można także automatycznie sprawdzać, na podstawie cech głosu i sposobu mówienia, czy wypowiadająca się osoba jest na liście podejrzanych.

27 sie 2012

Warsztaty "Rozpoznawanie mowy i mówców"

Warsztaty Rozpoznawanie mowy i mówców odbędą się w dniach 17-18 września 2012 roku w Poznaniu w sali konferencyjnej przy ul. Noskowskiego 10. Organizatorem warsztatów jest Laboratorium Zintegrowanych Systemów Przetwarzania Języka i Mowy działające przy Poznańskim Centrum Superkomputerowo-Sieciowym oraz Polskie Towarzystwo Fonetyczne. Więcej informacji na stronie PTFon.

13 sie 2012

Komunikacja, a komputer i matematyka

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Przedstawiciele nauk społecznych i językoznawcy już wiele lat temu starali się opisać język w sposób algorytmiczny. Opracowano wiele modeli i schematów komunikacji głosowej. Zaproponowano algorytmy mające na celu efektywniejsze wpływanie na odbiorców. Wiele z modeli przedstawiono w bardzo ścisły sposób, oparty o matematyczny zapis.

Technologia i matematyka wkroczyła także w zagadnienia łączności głosowej między ludźmi, ze względu na rozwój telekomunikacji. Potrzeba kompresji przesyłanego sygnału mowy była jednym z bodźców do modelowania mowy i języka. Metody automatycznego wydobywania wiedzy z tekstów zapoczątkowały wiele kolejnych modeli atematycznych opisu języka naturalnego. W ten sposób ludzkość podjęła się usystematyzowania tego, co w swej naturze nie jest schematyczne, czyli języka naturalnego.

Kolejnym krokiem stosowania matematyki w opisie ludzkiego języka, było pojawienie się komunikacji człowieka z maszyną, bądź komputerem. Tutaj algorytmy nie służą już jako pomoc i dodatkowe narzędzia przy komunikacji między ludźmi. To urządzenie techniczne ma prowadzić dialog z człowiekiem według zasad ludzkich. Komunikacja człowieka z komputerem od początku stawała się coraz bardziej ludzka, a coraz mniej komputerowa. Początki sięgają kodowania w systemie binarnym, które z czasem rozwinęło się w podstawowe języki programowania, trochę przyjaźniejsze człowiekowi. Następnie pojawiały się języki programowania coraz bardziej przypominające język naturalny, aż do języków obiektowo zorientowanych i skryptowych. Podobna ewolucja przebiegała w systemach operacyjnych, od trybów tekstowych po interfejsy graficzne, będące utrudnieniem dla komputera, ale ułatwieniem dla człowieka.

Wszystkie te procesy powodują, że komputer musi coraz częściej uczyć się ludzkich metod komunikacji, aby symulować je z jak największą ułudą człowieczeństwa. Ma to ułatwić nieprzeszkolonym użytkownikom korzystanie z komputera.

3 sie 2012

Inżynieria akustyczna wśród najlepszych

Kierunki na AGH na które było się najtrudniej dostać w tym roku:

1. Informatyka 905 punktów

Automatyka i Robotyka 905 punktów

2. Informatyka Stosowana 888 punktów

3. Inżynieria Akustyczna 880 punktów

Mechatronika 880 punktów

Warto podkreślić, że na Inżynierii Akustycznej przyjmowano jedynie kandydatów pierwszego wyboru. Przyjętym gratulujemy, ciesząc się, że Inżynieria Akustyczna w kolejnej rekrutacji nieustannie zalicza się do grona najbardziej elitarnych kierunków studiów.

AGH najlepszą polską uczelnią techniczną

AGH ponownie zostało sklasyfikowane jako najlepsza polska uczelnia techniczna w automatycznie liczonym rankingu webometrics. W skali świata jest to jednak niska lokata ze względu na małą ilość stron domowych pracowników, mało odniesień do AGH na stronach instytucji współpracujących z AGH i niepublikowanie prac dyplomowych w internecie.

27 lip 2012

SIGMAP

Właśnie kończy się konferencja SIGMAP w której miałem okazję uczestniczyć. Konferencja zaskoczyła pozytywnie i dopisuję ją do listy sygnałowych konferencji na które warto jeździć. Artykuły były na dobrym poziomie (podobno ponad połowa została odrzucona), bardzo dużo zaproszonych mówców z ciekawymi zrozumiałymi wykładami plenarnymi. Do tego prezentujący generalnie posługują się dobrym angielskim. Organizacja konferencji odpowiedzialna i dokładna. Zwrócono dużo uwagi na to aby w planie konferencji nie znalazły się wystąpienia na których nikt się nie pojawi. W 2013 SIGMAP ma być na Islandii. Polecam.

18 lip 2012

Praca na University of Bedfordshire

University of Bedfordshire oferuje grant dla research fellow (12 months, salary + maintenance (accommodation)). It could be a research project for our any Research Institute in any area from here: http://www.beds.ac.uk/research/institutes

In brief:

- preferably young researcher who has not spent much time in the UK and did not study here

- no more than 8y after obtaining PhD

- will stay for 9-12 months

- can bring a spouse

CVs (and preferable a brief project idea (half-page)) należy wysyłać jak najszybcie do alexey.bochenkov na skrzynce beds.ac.uk