google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
4 maj 2010
Wspomaganie systemu rozpoznawania mowy przez modele językowe
16 czerwca wygłoszę referat "Wspomaganie systemu rozpoznawania mowy przez modele językowe" w ramach seminarium Katedry Elektroniki AGH. Odbędzie się ono w C3 w sali 501 o godzinie 11.00. Wystąpienie będzie połączone z prezentacją najnowszej wersji systemu rozpoznawania mowy AGH. Zapraszam.
24 kwi 2010
Modelowanie Cybernetyczne Systemów Biologicznych i IIS
2 nasze artykuły zostały przyjęte do druku. Pierwszy opisuje wstępne testy metodologii wykorzystania wiedzy z Wikipedii do modelowania semantycznego. Jego tytuł brzmi "Extracting semantic knowledge from Wikipedia". Zostanie opublikowany na konferencji IPI PANu International Joint Conference Intelligent Information Systems w Siedlcach.
Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych
Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.
Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.
Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.
Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych
Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.
Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.
Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.
15 kwi 2010
Separacja mowy i muzyki w systemach dwumikrofonowych
Mgr inż. Rafał Samborski wygłosi 28 kwietnia referat na seminarium Katedry Elektroniki AGH. Tytuł referatu brzmi "Separacja mowy i muzyki w systemach dwumikrofonowych". Seminarium odbędzie się w sali 501 w budynku C3 AGH. Zapraszamy!
8 kwi 2010
Usuwanie szumu
Jeśli potrzebujesz oczyścić swoje nagrania z szumu polecam noisebusters. Można wypróbować system za darmo.
16 mar 2010
Konferencje na temat mowy i języka
13th International Conference on Text, Speech and Dialogue September 6-10 Brno 15,22.III http://www.tsdconference.org/tsd2010/conf_dates.html
2010 International Conference on Audio, Language and Image Processing 23-25.Nov Shanghai 31.III http://www.icalip2010.cn/
SIPS IEEE Workshop on Signal Processing Systems 10.VI
San Francisco 31.III http://www.sips2010.org/
7th International Conference on
Natural Language Processing August 16-18 Reykjavik 12.IV http://icetal.ru.is/
IASTED on Computational Intelligence ~CI 2010~ August 23 – 25 Maui, Hawaii
1.IV http://www.iasted.org/conferences/cfp-711.html
10. Conference on Natural Language Processing September 6-8 Saarbrücken 23.IV http://www.konvens2010.de/home_en.html
Interspeech 26-30.09 Makuhari, Japonia 30.IV 2.VII http://www.interspeech2010.org/
Fourth IEEE International Conference on Semantic Computing September 22-24 Pittsburgh 3.V http://www.ieee-icsc.org/
CLA'10-NL1 :: Computational Linguistics - Applications (CLA'10) October 18-20 Wisła 31.05 http://www.imcsit.org/pg/289/231
ICASSP 2011-05-22 Praga www.icassp2011.com/
2010 International Conference on Audio, Language and Image Processing 23-25.Nov Shanghai 31.III http://www.icalip2010.cn/
SIPS IEEE Workshop on Signal Processing Systems 10.VI
San Francisco 31.III http://www.sips2010.org/
7th International Conference on
Natural Language Processing August 16-18 Reykjavik 12.IV http://icetal.ru.is/
IASTED on Computational Intelligence ~CI 2010~ August 23 – 25 Maui, Hawaii
1.IV http://www.iasted.org/conferences/cfp-711.html
10. Conference on Natural Language Processing September 6-8 Saarbrücken 23.IV http://www.konvens2010.de/home_en.html
Interspeech 26-30.09 Makuhari, Japonia 30.IV 2.VII http://www.interspeech2010.org/
Fourth IEEE International Conference on Semantic Computing September 22-24 Pittsburgh 3.V http://www.ieee-icsc.org/
CLA'10-NL1 :: Computational Linguistics - Applications (CLA'10) October 18-20 Wisła 31.05 http://www.imcsit.org/pg/289/231
ICASSP 2011-05-22 Praga www.icassp2011.com/
10 mar 2010
Ekstrakcja mowy z zagłuszonego sygnału przy użyciu filtrów Wienera
Nasz artykuł "Wiener Filtration for Speech Extraction from the Intentionally Corrupted
Signals" został przyjęty na konferencję IEEE International Symposium on Industrial Electronics (ISIE-2010).
Artykuł opisuje nasze metody i eksperymenty w zakresie stosowania filtrów Wienera do odzyskiwania mowy naumyślnie zagłuszonej na przykład przez radio z muzyką. Metoda zakłada użycie 2 mikrofonów i wykorzystanie różnic w sygnałach w nich wykrywanych.
Signals" został przyjęty na konferencję IEEE International Symposium on Industrial Electronics (ISIE-2010).
Artykuł opisuje nasze metody i eksperymenty w zakresie stosowania filtrów Wienera do odzyskiwania mowy naumyślnie zagłuszonej na przykład przez radio z muzyką. Metoda zakłada użycie 2 mikrofonów i wykorzystanie różnic w sygnałach w nich wykrywanych.
Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym
Nasz artykuł "Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym" został przyjęty na konferencje Bazy danych: Aplikacje i Systemy 2010.
Automatyczna klasyfikacja tekstu pisanego znajduje szerokie zastosowanie w systemach informacyjnych, między innymi w filtrach e-mail, eksploracji danych (ang. data mining ) oraz korekcie tekstu. W tej pracy opisujemy system bazodanowy, który słauży pomiarowi stopnia dopasowania hipotez wypowiedzi w systemie automatycznego rozpoznawania mowy. Wypowiedzi są porównywane do tekstów zgromadzonych w hierarchicznie uporządkowanym korpusie.
Model języka polskiego, jaki przyjęliśmy w analizach, jest modelem przestrzeni wektorowej (ang. vector space model ). Każdy dokument pochodzący z korpusu jest traktowany jak wektor należący do przestrzeni wektorowej, co pozwala na zastosowanie metod algebry liniowej na korpusie tekstu jako całości.
W pracy posługujemy się bazami tekstu o rozmiarach rzędu kilku gigabajtów, dlatego przedstawiamy metody o liniowej złożoności czasowej względem rozmiaru korpusu i prezentujemy użycie relacyjnej plikowej bazy danych typu sqlite3 do przechowywania i przeszukiwania danych.
Automatyczna klasyfikacja tekstu pisanego znajduje szerokie zastosowanie w systemach informacyjnych, między innymi w filtrach e-mail, eksploracji danych (ang. data mining ) oraz korekcie tekstu. W tej pracy opisujemy system bazodanowy, który słauży pomiarowi stopnia dopasowania hipotez wypowiedzi w systemie automatycznego rozpoznawania mowy. Wypowiedzi są porównywane do tekstów zgromadzonych w hierarchicznie uporządkowanym korpusie.
Model języka polskiego, jaki przyjęliśmy w analizach, jest modelem przestrzeni wektorowej (ang. vector space model ). Każdy dokument pochodzący z korpusu jest traktowany jak wektor należący do przestrzeni wektorowej, co pozwala na zastosowanie metod algebry liniowej na korpusie tekstu jako całości.
W pracy posługujemy się bazami tekstu o rozmiarach rzędu kilku gigabajtów, dlatego przedstawiamy metody o liniowej złożoności czasowej względem rozmiaru korpusu i prezentujemy użycie relacyjnej plikowej bazy danych typu sqlite3 do przechowywania i przeszukiwania danych.
Subskrybuj:
Posty (Atom)