24 kwi 2010

Modelowanie Cybernetyczne Systemów Biologicznych i IIS

2 nasze artykuły zostały przyjęte do druku. Pierwszy opisuje wstępne testy metodologii wykorzystania wiedzy z Wikipedii do modelowania semantycznego. Jego tytuł brzmi "Extracting semantic knowledge from Wikipedia". Zostanie opublikowany na konferencji IPI PANu International Joint Conference Intelligent Information Systems w Siedlcach.

Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych

Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.

Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.

Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.

15 kwi 2010

Separacja mowy i muzyki w systemach dwumikrofonowych

Mgr inż. Rafał Samborski wygłosi 28 kwietnia referat na seminarium Katedry Elektroniki AGH. Tytuł referatu brzmi "Separacja mowy i muzyki w systemach dwumikrofonowych". Seminarium odbędzie się w sali 501 w budynku C3 AGH. Zapraszamy!