google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
13 maj 2010
Słyszenie oczami
W moim przypadku iluzja nie zadziałała. Polecam sprawdzić na sobie - Efekt McGurka.
9 maj 2010
Humor dla matematyków itp. ;)
Czym się różni lew z wykształceniem matematycznym od zwykłego lwa?
- Lew z wykształceniem matematycznym ekstra poluje.
- Lew z wykształceniem matematycznym ekstra poluje.
7 maj 2010
Festiwal Nauki w Krakowie
15 maja będziemy prezentować wyniki naszych badań na stanowisku "Przetwarzanie i rozpoznawanie mowy" w ramach Festiwalu Nauki w Krakowie. Osobą odpowiedzialną za stanowisko jest dr inż. Jakub Gałka.
4 maj 2010
Wspomaganie systemu rozpoznawania mowy przez modele językowe
16 czerwca wygłoszę referat "Wspomaganie systemu rozpoznawania mowy przez modele językowe" w ramach seminarium Katedry Elektroniki AGH. Odbędzie się ono w C3 w sali 501 o godzinie 11.00. Wystąpienie będzie połączone z prezentacją najnowszej wersji systemu rozpoznawania mowy AGH. Zapraszam.
24 kwi 2010
Modelowanie Cybernetyczne Systemów Biologicznych i IIS
2 nasze artykuły zostały przyjęte do druku. Pierwszy opisuje wstępne testy metodologii wykorzystania wiedzy z Wikipedii do modelowania semantycznego. Jego tytuł brzmi "Extracting semantic knowledge from Wikipedia". Zostanie opublikowany na konferencji IPI PANu International Joint Conference Intelligent Information Systems w Siedlcach.
Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych
Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.
Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.
Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.
Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych
Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.
Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.
Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.
15 kwi 2010
Separacja mowy i muzyki w systemach dwumikrofonowych
Mgr inż. Rafał Samborski wygłosi 28 kwietnia referat na seminarium Katedry Elektroniki AGH. Tytuł referatu brzmi "Separacja mowy i muzyki w systemach dwumikrofonowych". Seminarium odbędzie się w sali 501 w budynku C3 AGH. Zapraszamy!
8 kwi 2010
Usuwanie szumu
Jeśli potrzebujesz oczyścić swoje nagrania z szumu polecam noisebusters. Można wypróbować system za darmo.
Subskrybuj:
Posty (Atom)