Zagadnienie nie bardzo związane z rozpoznawaniem mowy, ale portale społecznościowe to popularny temat, a nie będę przecież zakładał nowego bloga. W wyniku przeczytania krytycznej uwagi na temat wpisów na Facebooku, doszedłem do wniosku, że przeprowadzę na sobie eksperyment nieużywania Facebooka dopóki nie zniknie z 8 najpopularniejszych stron w przeglądarce na moim komputerze, gdzie był od pewnego czasu na pierwszym miejscu... A więc taki odwyk.
Właśnie minął dzień pierwszy. Były lekkie odczucia głodu, ale główny problem to fakt, że okazało się że do pewnych znajomych mam kontakt tylko przez Facebooka.
google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
21 sty 2012
19 sty 2012
Rozwinięcie korpusu LUNA
W ramach pracy inżynierskiej Aleksandry Wyszyńskiej rozwinęliśmy korpus rozmów telefonicznych LUNA o anotacje czasowe dla słów w postaci plików .mlf.
Szczegóły w dokumentacji cytowanego projektu inżynierskiego.
"Pliki stworzono za pomocą programu Anotator. Zadanie polegało na załadowaniu pliku dźwiękowego *.wav oraz pliku *.txt zawierającego transkrypcję, następnie zaznaczeniu, w oknie zawierającym przebieg czasowy nagrania, miejsca rozpoczęcia i zakończenia danego słowa. W razie potrzeby należało zmodyfikować plik tekstowy tak, by zgadzał się on z nagraniem. Trudności także wiązały się ze wsłuchaniem się, kiedy kończy się dane słowo, a zaczyna kolejne, gdyż nie zawsze było to wyraźne - człowiek, mówiąc płynnie, przechodzi z jednego słowa do drugiego, łączy fonemy kończące jeden wyraz i rozpoczynający drugi. Często w dialogach występowały słowa wypowiadane równocześnie, co jest zrozumiałe, jako że były to dialogi (rozmówcy sobie przerywali i mówili w tych samych chwilach). W takich sytuacjach kolejność w jakiej anotowano słowa zależała od transkrypcji. [...]"
Szczegóły w dokumentacji cytowanego projektu inżynierskiego.
11 sty 2012
Audycja w Radiofonii
Zapis rozmowy o interfejsach głosowych przeprowadzonej ze mną w ramach programu Rozmowy fakultatywne.
10 sty 2012
Przykłady komercyjnych systemów głosowych na rynku IT
12 stycznia, mgr inż. Łukasz Dyląg wygłosi wykład pt. "Przykłady komercyjnych systemów głosowych na rynku IT" w sali C3 p. 501 o godzinie 10.45. Pan Łukasz jest pracownikiem firmy Pirios S.A. Zapraszamy.
22 gru 2011
O nas na stronie głównej AGH
"Dynamiczny rozwój branży IT już od wielu lat kreśli kierunek rozwoju instytucji, przedsiębiorstw, a nawet całych gałęzi przemysłu. W tej dziedzinie to, co jeszcze wczoraj nie było możliwe, jutro stanie się faktem. Bogactwo pomysłów i rozwiązań jest wprost niewyobrażalne. Dowodem na to, a zarazem kolejną cegiełką w rozwoju technologii informatycznych, jest urządzenie opracowane przez naukowców z Akademii Górniczo-Hutniczej, które możemy określić jako słuchającego wirtualnego doradcę. Nowatorstwo pomysłu polega na opracowaniu programu umożliwiającego rozmowę z komputerem w języku polskim. [...]"- Ilona Trębacz, Biuletyn AGH
2 gru 2011
Przetwarzanie mowy
Właśnie odebraliśmy pierwsze egzemplarze naszej monografii "Przetwarzanie mowy" opublikowanej przez Wydawnictwa AGH.
Monografia poświęcona jest technologiom mowy ze szczególnym uwzględnieniem języka polskiego. Opisuje historię badań i rozwoju w dziedzinie przetwarzania mowy. Przedstawia liczne aspekty teorii sygnałów jednowymiarowych, zarówno analogowych jak i cyfrowych. Prezentuje zagadnienia filtracji, analizy częstotliwościowej i teorii falek. Opisano również metody parametryzacji, segmentacji i odszumiania sygnału mowy. Zobrazowano sposoby kompresji i standardowe techniki kodowania sygnału mowy w telekomunikacji. Przedstawiono metody klasyfikacji i modele stosowane w rozpoznawaniu mowy i mówców, w tym modele językowe. Omówione zostały zarówno standardowe rozwiązania, takie jak niejawne modele Markowa czy n-gramy, jak i te mniej znane, zwłaszcza powiązane z badaniami prowadzonymi przez autorów i ich współpracowników. Krótko scharakteryzowano inne technologie mowy, takie jak synteza mowy, systemy dialogowe czy rozpoznawanie emocji w sygnale mowy. Dokonano podsumowania osiągnięć i dostępnych zasobów akademickich i komercyjnych, szczególnie dla technologii mowy polskiej.
Streszczenie, spis treści i pierwszy rozdział są dostępne w pdfie.
Monografia poświęcona jest technologiom mowy ze szczególnym uwzględnieniem języka polskiego. Opisuje historię badań i rozwoju w dziedzinie przetwarzania mowy. Przedstawia liczne aspekty teorii sygnałów jednowymiarowych, zarówno analogowych jak i cyfrowych. Prezentuje zagadnienia filtracji, analizy częstotliwościowej i teorii falek. Opisano również metody parametryzacji, segmentacji i odszumiania sygnału mowy. Zobrazowano sposoby kompresji i standardowe techniki kodowania sygnału mowy w telekomunikacji. Przedstawiono metody klasyfikacji i modele stosowane w rozpoznawaniu mowy i mówców, w tym modele językowe. Omówione zostały zarówno standardowe rozwiązania, takie jak niejawne modele Markowa czy n-gramy, jak i te mniej znane, zwłaszcza powiązane z badaniami prowadzonymi przez autorów i ich współpracowników. Krótko scharakteryzowano inne technologie mowy, takie jak synteza mowy, systemy dialogowe czy rozpoznawanie emocji w sygnale mowy. Dokonano podsumowania osiągnięć i dostępnych zasobów akademickich i komercyjnych, szczególnie dla technologii mowy polskiej.
Streszczenie, spis treści i pierwszy rozdział są dostępne w pdfie.
28 lis 2011
I miejsce AGH w rankingu „Kuźnia prezesów”!
AGH odniosło wielki sukces wyprzedzając Politechnikę Warszawską i zajmując pierwsze miejsce w kluczowym i najbardziej przejrzystym rankingu oceniającym losy absolwentów "Kuźnia prezesów" Rzeczpospolitej.
Subskrybuj:
Posty (Atom)