Rozpoznawanie Mowy

23 sty 2012

FEDCSIS

W dniach 9-12 września odbędzie się konferencja FEDERATED CONFERENCE ON COMPUTER SCIENCE AND INFORMATION SYSTEMS, Wrocław. Na stronie konferencji opublikowano już wezwania do tutoriali, wystaw, demonstracji i innych specjalnych wydarzeń. Przewidziane są także trzy interesujące z punktu widzenia rozpoznawani mowy warsztaty naukowe:
AIMA'2012 - International Workshop on Artificial Intelligence in Medical Applications
ASIR’2012 - 2nd International Workshop on Advances in Semantic Information Retrieval
MMAP'2012 - International Symposium on Multimedia Applications and Processing

Zapraszam

21 sty 2012

1 dzień odwyku od Facebooka

Zagadnienie nie bardzo związane z rozpoznawaniem mowy, ale portale społecznościowe to popularny temat, a nie będę przecież zakładał nowego bloga. W wyniku przeczytania krytycznej uwagi na temat wpisów na Facebooku, doszedłem do wniosku, że przeprowadzę na sobie eksperyment nieużywania Facebooka dopóki nie zniknie z 8 najpopularniejszych stron w przeglądarce na moim komputerze, gdzie był od pewnego czasu na pierwszym miejscu... A więc taki odwyk.

Właśnie minął dzień pierwszy. Były lekkie odczucia głodu, ale główny problem to fakt, że okazało się że do pewnych znajomych mam kontakt tylko przez Facebooka.

19 sty 2012

Rozwinięcie korpusu LUNA

W ramach pracy inżynierskiej Aleksandry Wyszyńskiej rozwinęliśmy korpus rozmów telefonicznych LUNA o anotacje czasowe dla słów w postaci plików .mlf.

"Pliki stworzono za pomocą programu Anotator. Zadanie polegało na załadowaniu pliku dźwiękowego *.wav oraz pliku *.txt zawierającego transkrypcję, następnie zaznaczeniu, w oknie zawierającym przebieg czasowy nagrania, miejsca rozpoczęcia i zakończenia danego słowa. W razie potrzeby należało zmodyfikować plik tekstowy tak, by zgadzał się on z nagraniem. Trudności także wiązały się ze wsłuchaniem się, kiedy kończy się dane słowo, a zaczyna kolejne, gdyż nie zawsze było to wyraźne - człowiek, mówiąc płynnie, przechodzi z jednego słowa do drugiego, łączy fonemy kończące jeden wyraz i rozpoczynający drugi. Często w dialogach występowały słowa wypowiadane równocześnie, co jest zrozumiałe, jako że były to dialogi (rozmówcy sobie przerywali i mówili w tych samych chwilach). W takich sytuacjach kolejność w jakiej anotowano słowa zależała od transkrypcji. [...]"

Szczegóły w dokumentacji cytowanego projektu inżynierskiego.

11 sty 2012

Audycja w Radiofonii

Zapis rozmowy o interfejsach głosowych przeprowadzonej ze mną w ramach programu Rozmowy fakultatywne.

10 sty 2012

Przykłady komercyjnych systemów głosowych na rynku IT

12 stycznia, mgr inż. Łukasz Dyląg wygłosi wykład pt. "Przykłady komercyjnych systemów głosowych na rynku IT" w sali C3 p. 501 o godzinie 10.45. Pan Łukasz jest pracownikiem firmy Pirios S.A. Zapraszamy.

22 gru 2011

O nas na stronie głównej AGH

"Dynamiczny rozwój branży IT już od wielu lat kreśli kierunek rozwoju instytucji, przedsiębiorstw, a nawet całych gałęzi przemysłu. W tej dziedzinie to, co jeszcze wczoraj nie było możliwe, jutro stanie się faktem. Bogactwo pomysłów i rozwiązań jest wprost niewyobrażalne. Dowodem na to, a zarazem kolejną cegiełką w rozwoju technologii informatycznych, jest urządzenie opracowane przez naukowców z Akademii Górniczo-Hutniczej, które możemy określić jako słuchającego wirtualnego doradcę. Nowatorstwo pomysłu polega na opracowaniu programu umożliwiającego rozmowę z komputerem w języku polskim. [...]"

- Ilona Trębacz, Biuletyn AGH

2 gru 2011

Przetwarzanie mowy

Właśnie odebraliśmy pierwsze egzemplarze naszej monografii "Przetwarzanie mowy" opublikowanej przez Wydawnictwa AGH.

Monografia poświęcona jest technologiom mowy ze szczególnym uwzględnieniem języka polskiego. Opisuje historię badań i rozwoju w dziedzinie przetwarzania mowy. Przedstawia liczne aspekty teorii sygnałów jednowymiarowych, zarówno analogowych jak i cyfrowych. Prezentuje zagadnienia filtracji, analizy częstotliwościowej i teorii falek. Opisano również metody parametryzacji, segmentacji i odszumiania sygnału mowy. Zobrazowano sposoby kompresji i standardowe techniki kodowania sygnału mowy w telekomunikacji. Przedstawiono metody klasyfikacji i modele stosowane w rozpoznawaniu mowy i mówców, w tym modele językowe. Omówione zostały zarówno standardowe rozwiązania, takie jak niejawne modele Markowa czy n-gramy, jak i te mniej znane, zwłaszcza powiązane z badaniami prowadzonymi przez autorów i ich współpracowników. Krótko scharakteryzowano inne technologie mowy, takie jak synteza mowy, systemy dialogowe czy rozpoznawanie emocji w sygnale mowy. Dokonano podsumowania osiągnięć i dostępnych zasobów akademickich i komercyjnych, szczególnie dla technologii mowy polskiej.

Streszczenie, spis treści i pierwszy rozdział są dostępne w pdfie.