Rozpoznawanie Mowy

13 maj 2010

4 maj 2010

Wspomaganie systemu rozpoznawania mowy przez modele językowe

16 czerwca wygłoszę referat "Wspomaganie systemu rozpoznawania mowy przez modele językowe" w ramach seminarium Katedry Elektroniki AGH. Odbędzie się ono w C3 w sali 501 o godzinie 11.00. Wystąpienie będzie połączone z prezentacją najnowszej wersji systemu rozpoznawania mowy AGH. Zapraszam.

24 kwi 2010

Modelowanie Cybernetyczne Systemów Biologicznych i IIS

2 nasze artykuły zostały przyjęte do druku. Pierwszy opisuje wstępne testy metodologii wykorzystania wiedzy z Wikipedii do modelowania semantycznego. Jego tytuł brzmi "Extracting semantic knowledge from Wikipedia". Zostanie opublikowany na konferencji IPI PANu International Joint Conference Intelligent Information Systems w Siedlcach.

Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych

Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.

Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.

Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.

15 kwi 2010

13 maj 2010

Słyszenie oczami

9 maj 2010

Humor dla matematyków itp. ;)

7 maj 2010

Festiwal Nauki w Krakowie

4 maj 2010

Wspomaganie systemu rozpoznawania mowy przez modele językowe

24 kwi 2010

Modelowanie Cybernetyczne Systemów Biologicznych i IIS

15 kwi 2010

Separacja mowy i muzyki w systemach dwumikrofonowych

8 kwi 2010

Usuwanie szumu

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń