Rozpoznawanie Mowy

7 maj 2010

Festiwal Nauki w Krakowie

15 maja będziemy prezentować wyniki naszych badań na stanowisku "Przetwarzanie i rozpoznawanie mowy" w ramach Festiwalu Nauki w Krakowie. Osobą odpowiedzialną za stanowisko jest dr inż. Jakub Gałka.

4 maj 2010

Wspomaganie systemu rozpoznawania mowy przez modele językowe

16 czerwca wygłoszę referat "Wspomaganie systemu rozpoznawania mowy przez modele językowe" w ramach seminarium Katedry Elektroniki AGH. Odbędzie się ono w C3 w sali 501 o godzinie 11.00. Wystąpienie będzie połączone z prezentacją najnowszej wersji systemu rozpoznawania mowy AGH. Zapraszam.

24 kwi 2010

Modelowanie Cybernetyczne Systemów Biologicznych i IIS

2 nasze artykuły zostały przyjęte do druku. Pierwszy opisuje wstępne testy metodologii wykorzystania wiedzy z Wikipedii do modelowania semantycznego. Jego tytuł brzmi "Extracting semantic knowledge from Wikipedia". Zostanie opublikowany na konferencji IPI PANu International Joint Conference Intelligent Information Systems w Siedlcach.

Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych

Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.

Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.

Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.

15 kwi 2010

Separacja mowy i muzyki w systemach dwumikrofonowych

Mgr inż. Rafał Samborski wygłosi 28 kwietnia referat na seminarium Katedry Elektroniki AGH. Tytuł referatu brzmi "Separacja mowy i muzyki w systemach dwumikrofonowych". Seminarium odbędzie się w sali 501 w budynku C3 AGH. Zapraszamy!

8 kwi 2010

Usuwanie szumu

Jeśli potrzebujesz oczyścić swoje nagrania z szumu polecam noisebusters. Można wypróbować system za darmo.

16 mar 2010

Konferencje na temat mowy i języka

13th International Conference on Text, Speech and Dialogue September 6-10 Brno 15,22.III http://www.tsdconference.org/tsd2010/conf_dates.html

2010 International Conference on Audio, Language and Image Processing 23-25.Nov Shanghai 31.III http://www.icalip2010.cn/
SIPS IEEE Workshop on Signal Processing Systems 10.VI
San Francisco 31.III http://www.sips2010.org/

7th International Conference on
Natural Language Processing August 16-18 Reykjavik 12.IV http://icetal.ru.is/

IASTED on Computational Intelligence ~CI 2010~ August 23 – 25 Maui, Hawaii
1.IV http://www.iasted.org/conferences/cfp-711.html

10. Conference on Natural Language Processing September 6-8 Saarbrücken 23.IV http://www.konvens2010.de/home_en.html

Interspeech 26-30.09 Makuhari, Japonia 30.IV 2.VII http://www.interspeech2010.org/

Fourth IEEE International Conference on Semantic Computing September 22-24 Pittsburgh 3.V http://www.ieee-icsc.org/

CLA'10-NL1 :: Computational Linguistics - Applications (CLA'10) October 18-20 Wisła 31.05 http://www.imcsit.org/pg/289/231

ICASSP 2011-05-22 Praga www.icassp2011.com/

10 mar 2010

Ekstrakcja mowy z zagłuszonego sygnału przy użyciu filtrów Wienera

Nasz artykuł "Wiener Filtration for Speech Extraction from the Intentionally Corrupted
Signals" został przyjęty na konferencję IEEE International Symposium on Industrial Electronics (ISIE-2010).

Artykuł opisuje nasze metody i eksperymenty w zakresie stosowania filtrów Wienera do odzyskiwania mowy naumyślnie zagłuszonej na przykład przez radio z muzyką. Metoda zakłada użycie 2 mikrofonów i wykorzystanie różnic w sygnałach w nich wykrywanych.