google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0

23 lip 2013

Definicje multimediów i sygnałów

Tradycyjnie przez multimedia definiuje się przekaz połączonych mediów, np. wideo i dźwięku, lub obrazu i tekstu itp. Zakończona niedawno IEEE International Conference on Multimedia and Expo, uświadomiła mi dobitnie, że powszechne odczucie jest inne. Około 90% prac dotyczyło wideo i to samego wideo. Tak więc, właściwie nie spełniało warunku definicji multimediów. Drugą w kolejności tematyką były "nowe media" - dotyk, media wynikające z powiązań społecznych itp. O dźwięku nie wiele było mowy, a jeśli już, to głównie w kontekście muzyki. Tak więc IEEE ICME jest niewątpliwie bardzo dobrą konferencją, ale niekoniecznie o multimediach ...

Podobnie dziwny trend zauważyłem odnośnie nazw typu "obrazy i sygnały", tak jakby obrazy nie były sygnałami. Takie może nieprzydatne teoretyzowanie, ale dość ciekawe, a może także jednak warto wiedzieć co ludzie myślą mówiąc multimedia.

www.dsp.agh.edu.pl

Sposoby gromadzenia danych

Fragment książki B. i M. Ziółko, "Przetwarzanie mowy".

Sposoby gromadzenia danych językowych można podzielić na trzy kategorie: nielegalne, tylko na własny użytek i z prawami autorskimi. W Polsce istnieje dość specyficzna sytuacja prawna, która powoduje, że pierwszej kategorii właściwie nie ma. Zgodnie z polskim prawem wolno ściągać z internetu na własny użytek dowolny materiał, nie będący oprogramowaniem, który jest chroniony prawem autorskim. Nielegalna jest jedynie ich dystrybucja. Należy jednak pamiętać, że większość programów peer-to-peer ściąga i rozprowadza równocześnie. Z drugiej strony, takie systemy wymiany plików, nie są najlepszym źródłem materiałów lingwistycznych.

Nasze doświadczenia w gromadzeniu danych językowych opierają się na kilku źródłach. Jedną z opcji są negocjacje z wydawnictwami, organizacjami, radiami itp. Instytucje te dysponują ogromną ilością danych, które byłyby bezcenne w badaniach dla technologii mowy. Jednakże często pojawiają się problemy natury prawnej z udostępnianiem takich materiałów. Nawet jeżeli przepisy prawne nie stoją na przeszkodzie, to często wewnętrzne ustalenia firm są barierą. Tak było na przykład z portalem Nasza-klasa, gdy pytaliśmy o statystyki polskich nazwisk. Niektóre firmy nie są też zainteresowane współpracą, gdyż sprawa z ich punktu widzenia nie przynosi profitów. Nie zajmują się inwestowaniem w rozwój IT, a środki lub promocja, którą mogą zaproponować w zamian zespoły badawcze, są zwykle zbyt małe.

Dużą część materiałów zebraliśmy bezpośrednio z zasobów różnych osób, głównie studentów. W akademikach można znaleźć niesamowite rzeczy, w niesamowitych ilościach. Studenci znali także adresy stron internetowych, z których można było ściągnąć całe biblioteki. Można również pobrać audiobooki, jako nagrania mowy, co więcej, są to zwykle wypowiedzi, do których można także znaleźć wersję tekstową, czyli właściwą książkę. W wypadku audiobooków należy jednak zwrócić uwagę, czy nie był on utworzony z wykorzystaniem syntezatora mowy i czy nie zawiera muzyki lub fragmentów śpiewanych. Nagrania mowy można również uzyskać z radia internetowego. Do tego celu najlepszą stacją jest TOK FM, nadająca wyłącznie wiadomości i wywiady. Trzeba jedynie uważać na drobne wstawki z efektami dźwiękowymi i używać programu, który nie zawiesi się przy długotrwałym odbieraniu strumienia dźwięku z internetu.

www.dsp.agh.edu.pl

21 lip 2013

MAVEBA 2013

Nasz artykuł "DIFFERENT TYPES OF PAUSES AS A SOURCE OF INFORMATION FOR LANGUAGE MODELING IN ASR" został przyjęty na 8th International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications, MAVEBA 2013 we Florencji. Nasza praca podsumowuje wstępnie statystyki zebrane w trakcie badań nad pauzami w mowie polskiej. Mogą one mieć zastosowanie zarówno do rozpoznawania mowy jak i charakteryzowania mówcy, a także w medycynie do analizy stanu pacjenta. 

www.dsp.agh.edu.pl

18 lip 2013

Kierunki na AGH na które było najtrudniej się dostać

W rekrutacji na studia pierwszego stopnia na AGH w 2013 roku najtrudniej było się dostać na następujące kierunki:
1. Automatyka i Robotyka (EAIiIB) 942
2. Informatyka (IET) 932
3. Informatyka (EAIiIB) 920
4. Inżynieria Akustyczna 908
Teleinformatyka 908

Inżynieria akustyczna utrzymuje swoją wysoką pozycję. Warto także zwrócić uwagę, że po raz pierwszy w historii AGH trudniej się było dostać na kierunek prowadzony po angielsku niż po polsku. Chodzi o Elektronikę i Telekomunikację. Różnica była w prawdzie znikoma (751 i 750 punktów), ale zawsze było odwrotnie i zawsze różnica była zdecydowanie większa.

www.dsp.agh.edu.pl

Szukamy pracowników na stanowiska asystenta naukowego

17 lip 2013

Pacific Voice Conference w Krakowie, 2014

Polska Sekcja IEEE i Instytut Fizjologii i Patologii Słuchu dołączyły do grupy instytucji organizujących XXII Annual Pacific Voice Conference w 2014 roku w Krakowie. Ta edycja konferencji będzie skupiać się na zastosowaniach technologii. Skład organizatorów zapewnia jej najwyższą jakość i popularność. Obecnie trwają rozmowy z firmami zainteresowanymi sponsorowaniem i(lub) prezentacją produktów na PVC.

15 lip 2013

Active Learning na ICME

W San Jose w Kalifornii rozpoczęła się International Conference on Multimedia and Expo i już na samym początku był ciekawy tutorial o active learning. Oczywiście mowa tu o automatycznym uczeniu ... AL zakłada (słusznie) dużą ilość dostępnych danych nie anotowanych. W wypadku mowy mamy na przykład audycje radiowe, nagrania youtube'a itd. W skrócie, metoda polega na znalezieniu danych będących na granicy różnych klas istniejącego modelu. Te dane poddaje się anotowaniu, a z tych które wydaje się łatwo sklasyfikować, rezygnuje się. Wątpliwe dane zostają poddane ręcznej anotacji i użyte do wyćwiczenia nowego modelu.

www.dsp.agh.edu.pl