Rozpoznawanie Mowy: 2012

26 gru 2012

Zasady udanej interakcji człowieka z maszyną c.d.

Należy być ostrożnym z ilością efektów dźwiękowych wydawanych przez komputer. Istnieje ryzyko, że przy intensywnym użytkowaniu inferfejsu lub przy problemach w komunikacji, system zacznie wydawać tak dużo dźwięków, że słuchający je człowiek, będzie tylko i wyłącznie chciał, aby już przestał wydawać te dźwięki i może po prostu wyłączyć komputer lub rozłączyć rozmowę, będąc wściekłym, że nie udało mu się zrealizować zaplanowanego zadania. Z tego powodu, zwykle nie możemy sobie pozwolić na każdorazowe głosowe wymienianie opcji które użytkownik może wybrać.

W wypadku komputerów i innych urządzeń mających ekran, należy zawsze pozostawić wizualną komunikację, nawet jeśli jest się przekonanym, że nasz interfejs głosowy jest dla każdego wymarzonym rozwiązaniem. Użycie dwóch zmysłów nie zaszkodzi. Poza tym większość użytkowników oczekuje okna dialogowego z paskiem postępu, w wypadku realizacji czynności zajmujących więcej niż 10 sekund. Z przyczyn podanych w poprzednim paragrafie, zwykle niemądrym byłoby zastępowanie takiego graficznego paska postępu, komunikatami głosowymi, przypominającymi odliczanie do wybuchu bomby. Standaryzacja jest istotną cechą dobrych interfejsów. Ludzie przyzwyczajają się do różnych rozwiązań i chcą ich powtórek gdzie indziej. Z tego powodu rozwinęły się z takim sukcesem firmy takie jak McDonalds. Jakość jedzenia dla wielu osób jest kwestią drugorzędną po tym, aby zjeść coś, co już kiedyś się jadło i było nienajgorsze. W wypadku interfejsów należy uważać z wprowadzaniem nowinek. Większość pasjonujących doświadczeń użytkownika skończy się na jego niezadowoleniu i rozmowie z kosztownym w utrzymaniu serwisem obsługi klienta lub rezygnacją z towaru bądź usług. Podobne rzeczy w różnych częściach systemu powinny być tak samo nazywane i używane. Powiniśmy używać różnych, lecz podobnych słów, jak na przykład przedmiot i produkt, tylko i wyłącznie jeżeli odnosimy się do zdecydowanie różnych elementów.

Nawigacja w bardziej złożonych systemach powinna być jasna i łatwo powtarzalna. Czynność raz wykonana poprawnie nie powinna nigdy więcej stwarzać użytkownikowi jakichkolwiek problemów. Ponadto użytkownik powinien mieć zawsze możliwość z łatwością wrócić do wcześniejszych opcji. Niektórzy użytkownicy mogą mieć problemy z mówieniem lub mogą posługiwać się nietypowym, odmiennym dialektem, uniemożliwiającym skuteczne rozpoznawanie mowy. Z tego powodu zawsze należy pozostawić użytkownikowi możliwość interakcji innym sposobem niż mowa, na przykład poprzez przyciski. Dotyczy to także rozwiązań bez komputerów, bądź telefonów.

Wszystkie interfejsy należy intensywnie testować z wieloma różnymi użytkownikami. To, co wydawało się autorowi wspaniałym rozwiązaniem, może się zupełnie nie spodobać innym osobom.

18 gru 2012

Bierzemy udział w III edycji LIDERa

Kick-off'a, czyli Galę (lub odwrotnie, czy jakoś tak) III edycji programu Lider mamy za sobą. Niestety nie byłem pomimo zaproszenia. Relacja na stronie Ministerstwa i Polskiej Agencji Prasowej. Mój projekt to TELEDS "System dialogowy człowiek-komputer oparty na łączach telefonicznych".

17 gru 2012

Szukamy do pracy osoby spoza Krakowa

Praca naukowa w dziedzinie przetwarzania sygnałów, NIE od zaraz. Wymagany doktorat w informatyce, elektronice lub pokrewnej dziedzinie uzyskany poza Krakowem. Osoba nie może być obecnie i ostatnio zatrudniona na AGH. Więcej szczegółów w e-mailu lub w rozmowie. Wynagrodzenie około 6000 zł.

14 gru 2012

Wystąpienie na HLT DAYS "Lingwistyka matematyczna w Katedrze Elektroniki AGH"

12 gru 2012

Synteza mowy pomaga w randkowaniu

BBC opisuje system dla osobom niemówiących umożliwiający wzajemne spotkania z wykorzystaniem syntezy mowy. Prace są prowadzone przez Human-Computer Interaction Group z Wydziału Informatyki na University of York.

11 gru 2012

Seminarium poświęcone finansowaniu badań młodych naukowców

"Rada Młodych Naukowców zaprasza na trzecie seminarium z cyklu „Mechanizmy finansowania badań młodych naukowców w Polsce", które odbędzie się 14 grudnia 2012 roku w Auditorium Maximum Uniwersytetu Jagiellońskiego (przy ul. Krupniczej 33). Początek o godz. 11.00. Celem spotkań jest przybliżenie naukowcom zasad przygotowywania wniosków o granty badawcze. Przedstawiciele Narodowego Centrum Nauki oraz Narodowego Centrum Badań i Rozwoju przedstawiają nie tylko aktualnie oferowane programy, ale także omawiają błędy popełniane przez wnioskodawców oraz doradzają jak ich unikać."

- agh.edu.pl

10 gru 2012

Zasady udanej interakcji człowieka z maszyną

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Jest wiele zasad tworzenia interfejsów graficznych. Zasady przydatne przy opracowaniu interakcji głosowej nie zostały tak dokładnie przeanalizowane. Jest jednak kilka ogólnych i podstawowych, do których należy się stosować. Komunikacja powinna być szybka. Oznacza to, że użytkownik nie powinien być narażony na wykonywanie żadnych czynności, które nie są niezbędne w danej sytuacji. Przykładowo wymuszanie potwierdzania każdorazowo “tak, to miałem na myśli”, jest wbrew tej zasadzie.

Dobry interfejs powinien także zakładać, że użytkownik ma tendencję do zapominania ważnych rzeczy, jeśli nie są one jego celem. Standardowym przykładem jest to, że bankomaty (w Europie) najpierw oddają kartę, a potem wydają pieniądze. W założeniu (poniekąd słusznym), w odwrotnej sytuacji ludzie często zapominaliby zaczekać na kartę, po otrzymaniu pieniędzy, po które przyszli do bankomatu. W praktyce, w Stanach Zjednoczonych i Azji (gdzie zwykle kolejność jest odwrotna i wiąże się z komendą wysunięcia karty) użytkownicy nawykli do pamiętania o karcie. Jednakże przybysze z Europy często zapominają o odbiorze, co z kolei wiąże się z problemami pojawiającymi się przy braku standaryzacji rozwiązań.

Istotą jest rozumienie potrzeb i możliwości użytkownika. Ludzie mogą więcej danych i słów rozpoznać, niż natychmiastowo wywołać z pamięci. Przykładowo, istnieje gra w której jednym z zadań jest wymyślenie przez parę osób 20 rzeczowników zaczynających się na ustaloną literę. Wbrew pozorom okazuje się to dość trudnym zadaniem, pomimo, że te same osoby rozpoznałyby tysiące takich słów, wertując słownik. Dlatego w wypadku interfejsów graficznych stosuje się raczej listy możliwości, niż opcje wprowadzania z pamięci. W wypadku interfejsu głosowego wiąże się to jednak z zagadnieniem opisanym w kolejnym paragrafie, z którym stoi niestety w sprzeczności, ponieważ syntezowanie wszystkich istniejących możliwości do wyboru byłoby męczące dla użytkownika.

c.d.n.

29 lis 2012

Robot IURO

"W ramach europejskiego projektu powstaje IURO - Interaktywny Robot Miejski. Zadaniem robota będzie np. poruszanie się po mieście. Na podstawie zdobytych od przechodniów informacji IURO będzie musiał np. zrobić zakupy. Na przykładzie IURO naukowcy uczą się, jak powinna przebiegać interakcja między człowiekiem a robotem - opowiada w czasie Dnia Robotów w Centum Nauki Kopernik dr inż. Batłomiej Stańczyk z Accrea Engineering, firmy, która uczestniczy w projekcie." - PAP, więcej.

23 lis 2012

Konferencje w 2013 dotyczące m.in. przetwarzania mowy

Oto konferencje w których warto wziąć udział w 2013 roku zajmując się przetwarzaniem mowy (pierwsza data to termin konferencji, a druga zgłaszania referatów).

ICASSP 38th International Conference on Acoustics, Speech, and Signal Processing May 26-31 Vancouver 30 November
NOSSDAV 2013 The 23rd ACM Workshop on Network and Operating Systems Support for Digital Audio and Video February 26 – 27 Oslo Dec 3
7th International Conference on COMMUNICATIONS and INFORMATION TECHNOLOGY (CIT '13) Jan 30-1Feb Cambridge, US Nov 30
5th International Conference on Future Computer and Communication (ICFCC 2013) 26-27 May Phuket, Tajlandia Dec 1
IEEE International Conference on Multimedia and Expo (ICME 2013) July 15-19, 2013 San Jose, California December 10
Cores 2012 27-29 May Miłków 15 December
9th International Conference on Machine Learning and Data Mining MLDM 2013 July 19-25 New York 18.12
International Conference Language Processing and Intelligent Information Systems 17-18 June Warszawa January 17th
AAAI Conference (AAAI-13) July 14–18 Bellevue, Washington January 19
Interspeech 2013 25-29 August Lyon
36th Int Conf on Telecommunications & Signal Processing JULY 2-4 ROME February 11
SIGMAP 2013 29-31 July Reyklavik February 22
The 18th International Conference on Methods and Models in Automation and Control 26-29 August Międzyzdroje Feb 25
Approaches to Phonology and Phonetics 21-23 June Lublin February 28
EUSIPCO 2013 9-13 Sept Marrakech 3rd March
ELMAR 2013 25-27 Sept Zadar March 13 May 20

22 lis 2012

Lingwistyczna baza danych AGH

Nasz artykuł "Special key-value store - Header Only Database for n-gram models" opisujący naszą własną bazę danych stosowaną w systemie rozpoznawania mowy SARMATA, został przyjęty do JOURNAL OF APPLIED COMPUTER SCIENCE. Baza danych jest bazą typu noSQL, ukierunkowaną na szybkie odpowiadanie na zapytania w modelu n-gramowym. Nasze testy pokazały dużo większą wydajność niż SQL oraz trochę lepszą w najbardziej kluczowym operacjach niż BerkeleyDB.

16 lis 2012

SPPRA 2013

Nasz artykuł "Vocal Tract Normalisation in Computer Games" został przyjęty na konferencję Signal Processing, Pattern Recognition and Applications ~SPPRA 2013~ w Innsbruku. Praca opisuje metody modyfikacji głosu ludzkiego na potrzeby tańszego realizowania ciekawszych nagrań do dialogów w grach komputerowych.

15 lis 2012

Komunikacja człowieka z maszyną

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Maszyny i komputery coraz intensywniej wkraczają w nasze życie. Wykonują dla nas i za nas pracę. Czasami nas zabawiają, czasami ratują. Coraz częściej ograniczeniem nie jest możliwość wykonania określonej czynności przez maszynę lub komputer, ale problemem jest sformułowanie istniejącej potrzeby przez niewykwalifikowaną osobę. Zatem istotne są kolejne ułatwienia w dialogu człowieka z komputerem.

Stosowano różne metody komunikacji człowieka z maszyną, od prawie zapomnianych taśm papierowych i kart z dziurkami po klawiaturę. Na przestrzeni lat, komunikacja człowieka z maszyną ewoluowała w stronę upodabniania się do komunikacji międzyludzkiej. Najwygodniejszą dla nas metodą jest oczywiście rozmowa i dlatego technologie mowy można traktować jako docelowe sposoby komunikacji człowieka z maszynami, co pokazują liczne filmy gatunku science-fiction z Odyseją Kosmiczną i komputerem pokładowym HAL 9000 na czele. Są one najwygodniejsze i nie wymagają, od użytkownika przeszkolenia. Stworzenie interfejsu głosowego jest jednak sprawą trudną. Wymaga pokonania zarówno trudności koncepcyjnych jak i sprzętowych, bo komputery osobiste muszą być odpowiednio efektywne. Wspomniany HAL 9000 jest jednak realną rzeczywistością.

9 lis 2012

Microsoft Research o rozpoznawaniu mowy

26 paź 2012

Roboty jak ludzie

Roboty niczym z filmu "Cherry 2000" szykowane są do sprzedaży. Firma iRobot zademonstrowała robota kobietę z silikonową nibyskórą i imitacją oddechu.

http://wyborcza.pl/piatekekstra/1,129243,12741231,Moj_czuly_kochanek_robot.html

http://www.irobot.pl/aktualnosci.php

17 paź 2012

Wywiad z mgr inż. Stanisławem Kacprzakiem

Do naszego zespołu dołączył nowy doktorant Stanisław Kacprzak. Jest on nie tylko obiecującym młodym naukowcem, ale także ciekawym przykładem nowoczesności rekrutacji w naszym zespole. Po pierwsze Stanisław jest absolwentem Politechniki Łódzkiej na Wydziale Fizyki Technicznej, Informatyki i Matematyki Stosowanej. Studiował kierunek Informatyka, ze specjalizacją Sztuczna Inteligencja i Inżynieria Oprogramowania. Nie dość, że mamy tu więc do czynienia z pełną mobilnością to jeszcze sama rekrutacja do jego pracy w naszym projekcie odbywała się wyłącznie poprzez elektroniczną wymianę korespondencji, i to nie z Łodzi do Krakowa, a z Łodzi do Kalifornii, gdzie wówczas przebywałem. Co więcej, Stanisław nie przybył do nas świeżo po zakończeniu studiów magisterskich. Przez rok pracował w komercyjnej firmie jako programista. Tak więc obalił swoim przykładem trzy wielkie stereotypy polskiej nauki: o braku mobilności i kumoterstwie, wszechogarniającej biurokracji i braku łączności między nauką a przemysłem.

Jak przeprowadzka z Łodzi do Krakowa?

Dziękuję, dobrze. Podczas dwóch kursów udało mi się przetransportować większość najpotrzebniejszych rzeczy. Na razie mieszkam w akademiku, ale pewnie niedługo rozejrzę się za mieszkaniem.

Skąd dowiedziałeś się o naszym zespole?

Moja praca magisterska dotyczyła zagadnień rozpoznawania mowy w języku polskim. Pisząc ją natrafiłem na publikacje i prace doktorskie związane z tą tematyką autorstwa członków zespołu.

Dlaczego zainteresował Cię nasz zespół?

Od czasu do czasu zaglądałem na tego bloga i z dużym uznaniem obserwowałem ciągłe postępy w pracy naukowej zespołu jak publikacje, udziały w konferencjach czy wydanie książki "Przetwarzanie Mowy".

Skąd Twoje zainteresowanie technologiami mowy?

Miałem okazję odbywać trzymiesięczne praktyki w ramach programu IAESTE w dziale R&D firmy INDRA Software Labs w Madrycie. Podczas tych praktyk zajmowałem się między innymi tworzeniem programu do nagrywania i katalogowania danych treningowych oraz implementacją algorytmu wyznaczania parametrów MFCC. Wiedza i doświadczenie jakie tam zdobyłem zachęciły mnie do kontynuowania zajmowania się tematyką rozpoznawania
mowy w ramach pracy magisterskiej.

Co wcześniej Cię łączyło z AGH?

Chyba tylko książki profesora Tadeusiewicza.

Jak oceniałeś swoje szanse na pracę na AGH, gdy pierwszy raz przyszedł Ci taki pomysł do głowy?

Wydawało mi się, że na pewno jakieś są, bo tematyka mojej pracy magisterskiej pokrywa się z zainteresowaniami zespołu, ale spodziewałem się, że zgłosi się dużo studentów AGH.

Co najbardziej Cię zaskoczyło na AGH?

Ilość studentów. Naprawdę są ich tłumy, a to przecież jeszcze nie Juwenalia.

Co Cię skłoniło na zmianę kierunku kariery, od przemysłu do akademii?

Możliwość skupienia się na tym co naprawdę mnie interesuje, perspektywa ciągłego poszerzania wiedzy, co w przypadku "zwykłej" pracy nie zawsze jest możliwe.

Jakie atuty dostrzegasz w pracy na uczelni?

Możliwość rozwijania własnych zainteresowań, dostęp do zasobów naukowych uczelni oraz ułatwiony kontakt z ekspertami z danej dziedziny. Większa niezależność w organizowaniu swojego czasu pracy.

Co radzisz studentom 5 roku, którzy myślą o przyszłej pracy na uczelni?

Jeśli rozważają taką możliwość, to już jakiś znak. Na pewno warto napisać jakąś publikację, może dotyczącą pracy magisterskiej czy inżynierskiej. Taką radę ja otrzymałem, ale poniewczasie.

Dziękuję za wywiad i powodzenia!

11 paź 2012

Procesor do rozpoznawania mowy

Diotex połączyło siły z Conexant i stworzyło nowoczesny i zaawansowany układ do rozpoznawania mowy. Zastosowaniem ma być elektronika konsumencka i zabawki edukacyjne. Zapewniać ma wysoką wydajność przy niskich kosztach. Więcej na evertiq.pl

8 paź 2012

Praat - doing phonetics by computer

Praat jest darmowym programem do przetwarzania mowy pod kątem fonetyki. Oferuje narzędzia do analizy i syntezy mowy, na bazie zaimplementowanych algorytmów przetwarzania czasowo-częstotliwościowego (w tym filtrowanie, segmentacja, parametryzacja, analiza intonacji, analiza spektralna). Zawiera również podstawowe narzędzia do anotacji mowy, modelowania traktu głosowego, uczenia maszynowego (klasyfikator kNN, sieci neuronowe) i analizy statystycznej (m.in. PCA, analiza dyskryminacyjna).

Program jest lekki (ok. 5 MB, nie wymaga instalacji), ma wyjątkowo prosty i przejrzysty interfejs. Dostępne są wersje na różne systemy operacyjne, jak również kod źródłowy programu. Posiada własny (bardzo przystępny) język skryptowy pozwalający na zautomatyzowanie wielu operacji.

Dzięki dość dużej społeczności użytkowników Praata, powstaje wiele darmowych manuali, tutoriali i toolboxów. Twórcy Praata, Paul Boersma i David Weenink (University of Amsterdam), regularnie aktualizują i wzbogacają program o kolejne funkcjonalności (ostatnia aktualizacja kilka dni temu - wersja 5.3.29).

Źródło: http://www.fon.hum.uva.nl/praat/

7 paź 2012

Rozpoznawanie myśli

Naukowcy z UCLA i Technion zbadali aktywność mózgu podczas produkowania dźwięków poszczególnych samogłosek. Ustalenie, które rejony mózgu są odpowiedzialne za kodowanie wytwarzania dźwięków mowy ma być krokiem ku opracowaniu interfejsów umożliwiających komunikację osobom sparaliżowanym.

Źródła: http://www.sciencedaily.com/releases/2012/08/120821143612.htm
http://www.nature.com/ncomms/journal/v3/n8/full/ncomms1995.html#/affil-auth

5 paź 2012

Aktywowany głosem system w samochodach Chryslera

Chrysler wprowadza do oferty wyposażenia auta system UConnect Voice Command, wraz z wbudowanym systemem łączności UConnect Acess. Ma on umożliwiać m.in. sterowanie urządzeniami (np. radiem), korzystanie z nawigacji i wyszukiwarki, jak również dyktowanie wiadomości (będzie kompatybilny ze smartphone'ami posiadającymi Message Access Profile - MAP).

Źródło: http://www.speechtechmag.com/Articles/News/News-Feature/Chrysler-Adds-Voice-to-Select-Models-85178.aspx

4 paź 2012

'Wyborcy wolą polityków o niższym głosie' - jak profil mowy wpływa na ocenę cech przywódczych

Preferencje wyborców dotyczące wysokości głosu polityków zbadali amerykańscy naukowcy. Okazuje się, że osobom o niższym tonie głosu (zarówno mężczyznom, jak i kobietom) ludzka percepcja podświadomie przypisuje takie cechy jak kompetencje, siła, czy zaufanie.

(C. A. Klofstad, R. C. Anderson, S. Peters. Sounds like a winner: voice pitch influences perception of leadership capacity in both men and women.

Proceedings of the Royal Society B: Biological Sciences, 2012)

źródła: http://www.sciencedaily.com/releases/2012/03/120313230602.htm

http://rspb.royalsocietypublishing.org/content/279/1738/2698

Z kolei jak mówią polscy politycy z punktu widzenia ekspertów mowy - możemy zobaczyć w prezentacji opracowanej przed Prof. Izdebskiego oraz dr Zei-Pollerman w materiale dla Tygodnika Powszechnego:

3 paź 2012

Natural Language Processing - kurs online na platformie Coursera

COURSERA jest internetową plaftormą edukacyjną, umożliwiającą każdemu uczestniczenie w bezpłatnych kursach on-line czołowych światowych uczelni. W COURSERA zaangażowane są m.in. Stanford University, Princeton University, University of Pennsylvania czy University of Michigan (obecnie łącznie 33 uczelnie).

Kilkutygodniowe kursy mają formę sekwencji filmików edukacyjnych, połączonych z quizzami (i egzaminami online!), można też uzyskać certyfikat potwierdzający ukończenie kursu. W ofercie tematycznej kursów przybywa z miesiąca na miesiąc, powiększa się dynamicznie też społeczność uczestników COURSERA.

Niedawno zapowiedziano kurs Natural Language Processing.

Czas trwania: 10 tygodni

Planowany start: 11 luty 2013

2 paź 2012

Między mową a muzyką - 'mówiące pianino'

Ciekawy efekt uzyskał austriacki kompozytor Peter Ablinger, przypisując spektra ludzkiego głosu do dźwięków sterowanego komputerowo mechanicznego pianina:

28 wrz 2012

SNUV.PL

Na stronie snuv.pl powstaje korpus mowy polskiej. Każdy może wziąć udział w nagraniach zarabiając 100 zł za godzinę nagrań.

27 wrz 2012

Human Language Technology Days 2012

Dostępna jest transmisja na żywo z Dni Technologii Językowej, które 27-28 września 2012 dbywają się w Instytucie Podstaw Informatyki PAN w Warszawie, w tym nasze wystąpienie w iątek, w samo południe.

26 wrz 2012

KKZMBM w Krynicy Morskiej

Geograficznie na styku Zalewu Wiślanego i Morza Bałtyckiego, merytorycznie na pograniczu matematyki i biologii, obradują uczestnicy XVIII Krajowej Konferencji Zastosowań Matematyki w Biologii i Medycynie. Biomatematycy, bioinformatycy, biolodzy i lekarze prezentują aplikacje modeli matematycznych i biostatystyki m.in. w leczeniu nowotworów, genomice, farmakologii, i wielu innych dziedzinach, w których modelowanie zjawisk i procesów biologicznych jest narzędziem niezbędnym, a współpraca matematyków i biologów /biotechnologów/lekarzy - warunkiem koniecznym dla sukcesu.

Nasz zespół przedstawił referat dotyczący wykorzystania metod falkowych do modelowania emocji w mowie:

WAVELET EVALUATION OF SPEAKER EMOTIONS

(Magdalena Igras, Mariusz Ziółko, Jakub Gałka)

Abstract:

The paper presents an approach to automatic recognition of emotions in speech signal. The applied method bases on energy values in frequency subbands obtained from the perceptual discrete wavelet transform. Overall issues of speech emotion detection are presented and the proposed method is described, including statistical description of results and effects of evaluation tests.

Artykuły konferencyjne zostały opublikowane w Proceedings of the XVIII National Conference Applications of Mathematics to Biology and Medicine.

Tegoroczna konferencja potrwa do 27 września. Kolejna będzie miała miejsce w Jastrzębiej Górze - polecamy!

9 wrz 2012

Gazeta Wyborcza opublikowała ciekawy artykuł o negatywnych doświadczeniach związanych z call centre. Jednym z głównych celów rozpoznawania mowy jest wykonywanie tego typu zadań bez udziału ludzi. Artykuł zaczyna się od słów "Obecne warunki pracy w call center kłócą się z art. 3 Europejskiej Konwencji Praw Człowieka, który mówi wprost, iż nikt nie może być poddany nieludzkiemu lub poniżającemu traktowaniu. Należy zatem zmienić ten stan bez zbędnej zwłoki."

6 wrz 2012

Human Language Technology Days 2012

Instytut Podstaw Informatyki PANu organizuje 27-28 września bieżącego roku w Warszawie warsztaty Human Language Technology Days 2012. Pierwszego dnia odbędą się prezentacje dotyczące obecnego stanu wiedzy o przetwarzaniu języka naturalnego oraz wizje przyszłości tej dziedziny. W drugim dniu zaprezentuje się 13 najważniejszych, polskich zespołów naukowych zajmujących się przetwarzaniem języka. Nasze wystąpienie zaplanowane jest na 12.00-12.30. Spotkanie odbędzie się przy ul. Jana Kazimierza 5. Zapraszamy! Strona internetowa warsztatów.

5 wrz 2012

Zastosowania technologi mowy

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Technologie mowy mają zastosowanie wszędzie tam, gdzie potrzebna jest automatyczna analiza mowy lub istnieje głosowa interakcja pomiędzy człowiekiem a maszyną. Jednym z najbardziej oczywistych zastosowań jest komunikacja głosowa. Łączy ona w sobie kilka aspektów technologii mowy, głównie rozpoznawanie mowy i jej syntezę. O co chodzi, nie trzeba tłumaczyć miłośnikom filmów science-fiction z Odyseją Kosmiczną na czele, gdzie załoga mogła komunikować się głosowo z komputerem pokładowym.

Wracając do rzeczywistości, człowiek przeciętnie jest w stanie trzy razy szybciej mówić niż pisać na klawiaturze. Tak więc w teoretycznej sytuacji, po odrzuceniu uczestnictwa w aukcjach internetowych, wykonywaniu telefonów prywatnych i stawianiu pasjansów, każda praca biurowa mogłaby być wykonywana trzy razy szybciej. Pisanie książek mogłoby się stać tak łatwe, że ich nadmiar przyprawiłby wydawców i księgarzy o ból głowy.

Rozpoznawanie mowy jest już wykorzystywane, także w Polsce, w telefonicznych systemach informacyjnych zwanych również call centre. Istniejący system wyszukiwania połączeń w komunikacji miejskiej w Warszawie działa trzy razy wolniej niż odpowiednik opierający się na pracy ludzi, ale jest dziesięć razy tańszy w eksploatacji.

Rozpoznawanie i synteza mowy mogłyby stać się też niezwykle efektywnym sposobem kompresji. Przekazywany cyfrowy głos w wersji nieskompresowanej zajmuje co najmniej kilka tysięcy razy więcej bitów niż jego transkrypcja, a wersja skompresowana mowy, przy zastosowaniu obecnie używanych metod, kilkaset razy więcej niż tekst. Głos mógłby więc być zamieniany na tekst w nadajniku i syntezowany jako mowa w odbiorniku.

Byłoby to powiązane z utratą emocjonalnej treści przekazu, ale nie ma jej także w tak popularnych dziś smsach. Większą więc przeszkodą we wprowadzeniu takiego systemu byłoby zrujnowanie operatorów niż przystosowanie się użytkowników. Z drugiej strony, wyobraźmy sobie sytuację, w której jeden z operatorów zdecydowałby się na taką usługę i ograniczyłby koszt rozmowy jedynie 10-krotnie, przy powiedzmy uzyskiwanej 100-krotnej redukcji przepływu bitów. Czy taka opcja mogłaby wpłynąć na wybór sieci przez klientów?

Możliwość interakcji głosowej z komputerem pociągnęłaby za sobą całą masę usług związanych z symulacją dialogów. Rynek gier komputerowych, awatarów i wielu innych gadżetów przeżyłby rewolucję. Ludzka natura dyktuje nam dążenie do kontaktów z innymi ludźmi. Jeżeli są one nie do osiągnięcia w dzisiejszym izolowanym społeczeństwie, to szukamy środków zastępczych. Na przykład włączamy telewizor lub radio, nie mając konkretnej potrzeby ich użytkowania. Zwłaszcza osoby żyjące samotnie lubią słyszeć głos ludzki bez względu na treść przekazywanego komunikatu. Czasami używa się wyrażenia „dziecko wychowane przy radio” na określenie osoby, która spędzała dużo czasu w dzieciństwie w samotności i włączała radio, aby przerwać ciszę.

Istotnym odbiorcą usług technologii mowy są służby bezpieczeństwa i wymiaru sprawiedliwości. Potrzebują one systemów wykrywających zagrożenia na podstawie emocjonalnych wypowiedzi lub krzyków, automatycznie protokołujących posiedzenia sądowe (to zastosowanie staje się rzeczywistością w USA), analizatorów nagrań z podsłuchów, itd. Zastanówmy się jaki jest koszt sprawdzenia przez funkcjonariusza czy na nagraniu z całego tygodnia podsłuchu pojawiło się określone nazwisko. Załóżmy, że należy to sprawdzić w 100 podsłuchach. W takim przypadku człowiek nie ma szans z komputerem. Można także automatycznie sprawdzać, na podstawie cech głosu i sposobu mówienia, czy wypowiadająca się osoba jest na liście podejrzanych.

27 sie 2012

Warsztaty "Rozpoznawanie mowy i mówców"

Warsztaty Rozpoznawanie mowy i mówców odbędą się w dniach 17-18 września 2012 roku w Poznaniu w sali konferencyjnej przy ul. Noskowskiego 10. Organizatorem warsztatów jest Laboratorium Zintegrowanych Systemów Przetwarzania Języka i Mowy działające przy Poznańskim Centrum Superkomputerowo-Sieciowym oraz Polskie Towarzystwo Fonetyczne. Więcej informacji na stronie PTFon.

13 sie 2012

Komunikacja, a komputer i matematyka

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Przedstawiciele nauk społecznych i językoznawcy już wiele lat temu starali się opisać język w sposób algorytmiczny. Opracowano wiele modeli i schematów komunikacji głosowej. Zaproponowano algorytmy mające na celu efektywniejsze wpływanie na odbiorców. Wiele z modeli przedstawiono w bardzo ścisły sposób, oparty o matematyczny zapis.

Technologia i matematyka wkroczyła także w zagadnienia łączności głosowej między ludźmi, ze względu na rozwój telekomunikacji. Potrzeba kompresji przesyłanego sygnału mowy była jednym z bodźców do modelowania mowy i języka. Metody automatycznego wydobywania wiedzy z tekstów zapoczątkowały wiele kolejnych modeli atematycznych opisu języka naturalnego. W ten sposób ludzkość podjęła się usystematyzowania tego, co w swej naturze nie jest schematyczne, czyli języka naturalnego.

Kolejnym krokiem stosowania matematyki w opisie ludzkiego języka, było pojawienie się komunikacji człowieka z maszyną, bądź komputerem. Tutaj algorytmy nie służą już jako pomoc i dodatkowe narzędzia przy komunikacji między ludźmi. To urządzenie techniczne ma prowadzić dialog z człowiekiem według zasad ludzkich. Komunikacja człowieka z komputerem od początku stawała się coraz bardziej ludzka, a coraz mniej komputerowa. Początki sięgają kodowania w systemie binarnym, które z czasem rozwinęło się w podstawowe języki programowania, trochę przyjaźniejsze człowiekowi. Następnie pojawiały się języki programowania coraz bardziej przypominające język naturalny, aż do języków obiektowo zorientowanych i skryptowych. Podobna ewolucja przebiegała w systemach operacyjnych, od trybów tekstowych po interfejsy graficzne, będące utrudnieniem dla komputera, ale ułatwieniem dla człowieka.

Wszystkie te procesy powodują, że komputer musi coraz częściej uczyć się ludzkich metod komunikacji, aby symulować je z jak największą ułudą człowieczeństwa. Ma to ułatwić nieprzeszkolonym użytkownikom korzystanie z komputera.

3 sie 2012

Inżynieria akustyczna wśród najlepszych

Kierunki na AGH na które było się najtrudniej dostać w tym roku:

1. Informatyka 905 punktów

Automatyka i Robotyka 905 punktów

2. Informatyka Stosowana 888 punktów

3. Inżynieria Akustyczna 880 punktów

Mechatronika 880 punktów

Warto podkreślić, że na Inżynierii Akustycznej przyjmowano jedynie kandydatów pierwszego wyboru. Przyjętym gratulujemy, ciesząc się, że Inżynieria Akustyczna w kolejnej rekrutacji nieustannie zalicza się do grona najbardziej elitarnych kierunków studiów.

AGH najlepszą polską uczelnią techniczną

AGH ponownie zostało sklasyfikowane jako najlepsza polska uczelnia techniczna w automatycznie liczonym rankingu webometrics. W skali świata jest to jednak niska lokata ze względu na małą ilość stron domowych pracowników, mało odniesień do AGH na stronach instytucji współpracujących z AGH i niepublikowanie prac dyplomowych w internecie.

27 lip 2012

SIGMAP

Właśnie kończy się konferencja SIGMAP w której miałem okazję uczestniczyć. Konferencja zaskoczyła pozytywnie i dopisuję ją do listy sygnałowych konferencji na które warto jeździć. Artykuły były na dobrym poziomie (podobno ponad połowa została odrzucona), bardzo dużo zaproszonych mówców z ciekawymi zrozumiałymi wykładami plenarnymi. Do tego prezentujący generalnie posługują się dobrym angielskim. Organizacja konferencji odpowiedzialna i dokładna. Zwrócono dużo uwagi na to aby w planie konferencji nie znalazły się wystąpienia na których nikt się nie pojawi. W 2013 SIGMAP ma być na Islandii. Polecam.

18 lip 2012

Praca na University of Bedfordshire

University of Bedfordshire oferuje grant dla research fellow (12 months, salary + maintenance (accommodation)). It could be a research project for our any Research Institute in any area from here: http://www.beds.ac.uk/research/institutes

In brief:

- preferably young researcher who has not spent much time in the UK and did not study here

- no more than 8y after obtaining PhD

- will stay for 9-12 months

- can bring a spouse

CVs (and preferable a brief project idea (half-page)) należy wysyłać jak najszybcie do alexey.bochenkov na skrzynce beds.ac.uk

11 lip 2012

Inżynieria akustyczna ponownie ...

... jednym z najpopularniejszych kierunków studiów na AGH. Zgłosiło się 4,4 osób na miejsce co daje 7 miejsce w tym rankingu. W ważniejszych rankingach ułożonych wg. progu punktowego inżynieria akustyczna była zawsze wyżej. Szczegóły tegorocznej rekrutacji powinny być wkrótce upublicznione. Cieszy także fakt, że na AGH niżu demograficznego nie ma i ogólnie na całą uczelnię także było bardzo dużo zgłoszeń. Więcej w artykule krakow.gazeta.pl.

2 lip 2012

Problemy związane z technologiami mowy

Fragment książki "Przetwarzanie mowy" B. Ziółko i M. Ziółko

Istnieje kilka barier ograniczających rozwój technologii mowy. Pierwsza z nich jest powiązana z jedną z głównych barier rozwoju metod sztucznej inteligencji. Większość metod mniej lub bardziej opiera się na statystykach. Wiarygodność statystyki zależy od ilości danych użytych do ich wygenerowania. Z tego powodu ograniczeniem jakości metod technologii mowy są rozmiary dostępnych zbiorów mowy lub tekstu, zwanych korpusami. Teoretycznie, wiele z modeli działa perfekcyjnie jedynie przy nieskończenie wielkich zasobach szkoleniowych.

Drugim ograniczeniem jest to, że większość metod technologii mowy jest pewnego rodzaju symulacją procesów zachodzących w naszych zmysłach i mózgu. Szczególnie zrozumienie funkcjonowania mózgu jest jak na razie nieosiągalne. Potrafimy bowiem wytworzyć elektroniczne transplanty zastępujące ucho, syntezatory mowy są niemalże idealne. Jednak bardzo duża część przetwarzania informacji zachodzi w mózgu, w oparciu o połączenie danych otrzymywanych aktualnie z różnych zmysłów i porównanie z nabytym doświadczeniem. Proces słuchania jest dużo bliższy zgadywaniu i interpretacji, niż większość z nas podejrzewa. Przykładowo, gdy jesteśmy za granicą, często wydaje się nam, że słyszymy język polski, a po odwróceniu się widzimy osoby narodowości, które nigdy nie posługują się naszym językiem. Po uważniejszym przysłuchaniu, orientujemy się, że to zupełnie inny język.

Wyzwaniem jest również fakt, że użytkownicy nie będą korzystać z systemów, które nie spełniają wygórowanych oczekiwań. Powstrzymuje to rozwój technologii mowy, bo trudno rozwijać systemy bez użytkowników końcowych i ich komentarzy. Większość osób oczekuje od technologii mowy jakości co najmniej takiej, jak możliwości człowieka. Gdy takich nie ma, zniechęcają się do systemu.

30 cze 2012

Popularność Linuksa

Z zaciekawieniem i zdziwieniem zauważyłem w statystykach bloga, że "tylko" 57% wchodzących to użytkownicy Windowsa. Większość reszty wejść to linuksy. Hmm skąd takie odchylenie od statystyk ogółu użytkowników internetu? W sumie blog miał już ponad 20 000 odwiedzin, a najpopularniejszym postem jest ten o programie moich studentów do nauki ustalania częstotliwości na słuch.

25 cze 2012

Diagnozowanie choroby Parkinsona głosem

Ciekawy artykuł na temat zastosowania komputerowej analizy głosu w diagnozowaniu choroby Parkinsona przedstawia BBC. Prowadzone w Wielkiej Brytanii pracy polegają w dużej mierze na gromadzeniu dużej bazy nagrań. Autorzy proszą o zgłaszanie się do nagrań i testów. System wykazał się do tej pory 86% skuteczności. Więcej na BBC.

Wyzwania i możliwe korzyści technologii mowy

Fragment książki "Przetwarzanie Mowy" Bartosz Ziółko, Mariusz Ziółko, Wydawnictwa AGH

Istnieją ciekawe zależności pomiędzy światowym tempem rozwoju technologii mowy w ostatnich dziesięcioleciach a polityką. Najbardziej spektakularny rozwój w zakresie technologii mowy miał miejsce w Stanach Zjednoczonych w czasie zimnej wojny. Pokój skutecznie zwolnił udoskonalanie istniejących rozwiązań. Zagrożenie terrorystyczne spowodowało ponowne pojawienie się potrzeby rozwijania tych technologii, badania ruszyły więc z nowym impetem.

Większość artykułów naukowych ma charakterystyczne dopiski niewielkimi literami na temat źródeł finansowania badań. Zwykle ignoruje się je, ale w wypadku cenionych prac dotyczących rozpoznawania mowy przed latami osiemdziesiątymi, wyróżniają się swoją jednorodnością. Mówimy tu o efektach badań podstawowych dla pracujących systemów, których opisy zawierają niewinne, dość niepraktycznie wyglądające wzory matematyczne. Zawierają jednak także podpisy takie jak „Finansowane przez Siły Lotnicze Stanów Zjednoczonych” lub „Badania dla tej pracy były sponsorowane przez DARPA” (DARPA, czyli Defense Advanced Research Projects Agency). Przez pewien okres akronim skrócono do ARPA. Agencja podlega amerykańskiemu ministerstwu obrony. Została założona w 1958 roku w odpowiedzi na wystrzelenie Sputnika (satelity ZSRR). DARPA została powołana, aby zapobiegać w przyszłości takim niespodziankom, a w praktyce sama zaczęła je sprawiać rywalom Stanów Zjednoczonych.

Nie jest odkrywczym stwierdzenie, że rozwój wielu technologii opiera się na rozwoju techniki wojskowej. Przykładowo, współczesne systemy telekomunikacyjne są następstwem badań mających zaspokoić militarne potrzeby z czasów zimnej wojny. Systemy rozproszonego widma, będące obecnie popularnym sposobem jak najlepszego wykorzystania dostępnego pasma transmisji, mają swój początek w opracowanej wkrótce po drugiej wojnie światowej specjalnej technice radiowego naprowadzania torpedy. W układach transmisyjnych torpedy rozmywano widmo, aby chronić transmisję przed wykryciem częstotliwości sterującej. W zastosowaniach cywilnych rozmycie widma chroni przed zakłóceniami i umożliwia pełne wykorzystanie widma.

Podobnie, systemy telefonii komórkowej wywodzą się z potrzeby decentralizacji wojskowego systemu telekomunikacyjnego, co dobrze ilustruje rysunek z wykładu profesora Jajszczyka, przedstawiający chmurę po wybuchu nuklearnym na tle uproszczonej mapy sieci komórkowej. Nasze przenośne, kochane i tak często kradzione, miniaturowe telefony są więc efektem potrzeby systemu działającego bez niezastępowalnych węzłów komunikacyjnych. Te przykłady są jednak cywilnymi zastosowaniami będącymi następstwem prowadzonych badań na potrzeby wojskowe. Nie każdy zauważa, jak poszczególne ścieżki nauki były i są radykalnie przyspieszane przez polityków. Jeszcze mniej osób zauważa, jak gałęzie nauki są zapominane popadając w stagnację, gdy wielkie życzliwe oko zwróci się w inną stronę.

Dobrym przykładem jest tutaj podbój kosmosu. Pomijając, dość realne teorie wedle których Amerykanie nigdy nie wylądowali na Księżycu, szybkość rozwoju badań w zakresie podboju kosmosu była spektakularna. Pewna osoba zatrudniona swego czasu w NASA nie kryła, że koniec jej pracy w zakresie badań ułatwiających wyprawy pozaziemskie, spowodowany był tym, że sukcesy w kosmosie przestały być potrzebne, a w następstwie fundusze dla NASA stały się dużo niższe. [Z około 5% budżetu państwa do 2/3%]

Mamy tu więc do czynienia z tezą nie do przyjęcia dla wielu osób na gruncie moralnym. Z punktu widzenia rozwoju nauki i techniki, zimna wojna była błogosławieństwem, a jej ostateczny koniec zablokował wiele możliwości. Jak wyglądałoby nasze życie, gdyby nie było konfliktów? Ile spośród powszechnie ułatwiających życie wynalazków nie pojawiłoby się, gdyby na świecie panował pokój? Czy istniałby internet, dziś odbierany za swego rodzaju symbol świata bez granic, medium większości działaczy pokojowych, a spędzający sen z oczu władcom państw totalitarnych? Aby ułatwić odpowiedź na to pytanie, podpowiemy, że protokół TCP/IP został odtajniony przez ARPĘ w 1971, która zaczęła sukcesywnie dołączać kolejne uniwersytety do ARPANETu.

Wbrew pozorom, politycy nie dyktują trendów tylko i wyłącznie w technice i nauce. Ciekawym przykładem jest tutaj Grecja. Badania archeologiczne są potrzebne między innymi, aby udowodnić, że Aleksander Wielki był Grekiem. Oczywiście z podobnych względów, z punktu widzenia rządu niewielkiego, młodego kraju o historycznie słynnej nazwie, Macedonii, warto wydawać pieniądze na wykopaliska, aby pokazać, że Aleksander był jednym z pierwszych Słowian. Nie trzeba zresztą szukać przykładów zbyt daleko. Ustalanie na ile słowiańscy są Kaszubi i Słowianie Połabscy, przypominało wyścig historyków greckich i macedońskich.

Wyzwanie rzucone przez terrorystów otworzyło nową rzekę badań w zakresie technologii informacyjnych. Naukowcy-informatycy zajmują się teraz głównie automatycznymi metodami wspierania śledztwa, wykrywania zagrożeń, prewencją i wspomaganiem sądownictwa. Ponieważ terroryści podważyli przede wszystkim autorytet Stanów Zjednoczonych, to one zajmują się antyterroryzmem z bardzo dużym zaangażowaniem. Nie są to tylko czynności polityczne i militarne, czyli ataki na kraje podejrzewane o wspieranie terroryzmu. Jest to także rozwój metod analizy przesyłanych informacji i sygnałów oraz automatycznego wnioskowania.

Jednakże Europa, a w tym Polska, nie pozostają z tyłu. Co więcej, odnoszą spektakularne sukcesy. Jeden z największych spisków terrorystycznych, któremu udało się zapobiec, to planowany zamach na pokładach samolotów przy użyciu wybuchowych mieszanek płynów, udaremniony przez służby brytyjskie. Dlaczego Brytyjczykom udała się sztuka, z którą kompletnie nie poradzili sobie Amerykanie kilka lat wcześniej? Odpowiedź jest prosta – bo byli przygotowani, zarówno w sensie taktycznym jak i technicznym. Po zamachu na World Trade Centre, w krajach rozwiniętych popłynęły milionowe sumy na sprostanie takim wydarzeniom. Pieniądze te zostały dobrze wydane i dzięki temu terroryści zostali pochwyceni przed zamachem.

To dzięki aktywności terrorystów badania naukowe w wielu dziedzinach ruszyły ponownie z impetem. Powiedzenie, że potrzeba jest matką wynalazku jest niezwykle trafne. Metody dziś opracowywane dla służb śledczych i sądownictwa będą podstawami technologii, które w kolejnym dziesięcioleciu będą ułatwiać nam życie. Bez względu na to, jak się odnosimy do tego zjawiska, które powszechnie oceniamy jako zło, jest ono motywacją i motorem rozwoju, podczas gdy pokój i dobro przynoszą rozleniwienie i stagnację.

Technologie informacyjne nie są obce przestępcom. Tego faktu nie można ignorować. Rozwój niesie za sobą także ryzyko ich wykorzystania przez przestępców. Przykładowo, niedawno w Stanach Zjednoczonych odnotowano pierwsze użycie syntezatora mowy do zawiadomienia o podłożeniu bomby. Profesor Alan Black, jeden z twórców systemu, który został do tego wykorzystany, powiedział, że był bardzo szczęśliwy, że ten kto groził bombą, nie wybrał wersji syntezatora opartego na jego głosie do przekazania groźby.

21 cze 2012

Leczenie i analizowanie głosu z prof. Izdebskim

Wczoraj z Mirką Długosz odwiedzaliśmy klinikę prof. Izdebskiego w San Francisco, znanego w Polsce najbardziej z analizy głosów polityków i najważniejszych księży. Relacja na blogu zAGHnaSTANFORD.

8 cze 2012

Krótka relacja z BDAS 2012

Konferencja BDAS się bardzo udała, a nasze prace cieszyły się dużym zainteresowaniem.

25 maj 2012

Studia doktoranckie z Zespołem Przetwarzania Sygnałów AGH

Zapraszamy studentów 5 roku elektroniki, telekomunikacji, informatyki i pokrewnych kierunków na studia doktoranckie od października. W ramach prowadzonych badań przewidziany jest udział w projektach naukowych z wynagrodzeniem 3000-4000 zł miesięcznie.

Zgłoszenia z CV, ocenami ze studiów i tematem pracy magisterskiej wraz z nazwiskiem promotora prosimy kierować emailem na adres bziolko na poczcie AGH.

18 maj 2012

Seminarium Katedry Elektroniki AGH

Serdecznie zapraszamy w dniu 23 maja 2012 o godz. 1100 do sali 501 C-3 na seminarium pt.

„Normalizacja traktu głosowego w aplikacjach mowy”

które wygłosi

Mgr inż. Mariusz Mąsior

10 maj 2012

Nasz artykuł "CONFIDENCE MEASURE BY SUBSTRING COMPARISON FOR AUTOMATIC SPEECH RECOGNITION" został przyjęty na konferencji ICALIP 2012. Artykuł opisuje eksperymentalną ocenę hipotez rozpoznań na podstawie analizy podobnych ciągów fonemów w najbardziej prawdopodobnych hipotezach i porównaniu ich prawdopodobieństw.

26 kwi 2012

Z AGH na Stanford

Trwają ostatnie przygotowania do naszego wyjazdu na Stanford University w rmaach programu TOP 500 Innovators. Wydarzenia związane z tym wyjazdem będę dla odmiany opisywać na Facebooku. Zapraszam do polubienia strony i jej częstego odwiedzania.

2 kwi 2012

AUDIOWIZUALNA BAZA NAGRAŃ MOWY POLSKIEJ

Nasza prezentacja "AUDIOWIZUALNA BAZA NAGRAŃ MOWY POLSKIEJ" została przyjęta na konferencji BDAS 2012 a artykuł o tej samej nazwie do czasopisma Studia Informatica. Artykuł opisuje wykonaną przez nas bazę zasobów audiowizualnych mowy polskiej. Jest ona największą tego typu bazą dla języka polskiego, a zarazem jedyną zrealizowaną w technologii HD. Artykuł przedstawia także krótki opis podobnych baz dla innych języków oraz opis techniczny wykonanej bazy. Omówiono także napotkane wyzwania w trakcie realizacji bazy danych i jej planowane zastosowania.

20 mar 2012

Postdoc w Helsinkach

"The Department of Information and Computer Science at Aalto University in Espoo/Helsinki, Finland, pursues research on advanced computational methods for modelling, analysing, and solving complex tasks in technology and science. The research aims at the development of fundamental computer science methods for the analysis of large and high-dimensional data sets, and for the modelling and design of complex software, networking and other computational systems.

To promote its ambitious research agenda, the Department is seeking postdoctoral researchers. While the present call focuses on the topics listed below, outstanding candidates in other areas of information and computer science compatible with the Department’s mission are also welcome. Applications should be received at latest on 2 April 2012 for full consideration. The Department may decide to make offers to exceptional candidates already before the end of the call."

Jednym z tematów jest "Speech and language processing" w zespole Dr Mikko Kurimo, mikko.kurimo na serwerze aalto.fi

Więcej na stronie Aalto university

13 mar 2012

RAYAV

Otrzymaliśmy finansowanie nowego projektu w ramach programu Innotech, którego będę kierownikiem. Budżet całego projektu to 1 940 891 zł. Będzie realizowany przez konsorcjum AGH i Teyon, gdzie AGH będzie zajmować się zadaniami związanymi z soundtracingiem i realizacją bazy nagrań, a Teyon raytracingiem grafiki.

Projekt badawczy RAYAV (Raytracer Audio i Video) tworzony w ramach konsorcjum firmy Teyon i Akademii Górniczo-Hutniczej ma na celu zrobienie hybrydowego renderera obrazu poprzez użycie ray-tracing’u oraz zbliżonego soundtracera. Rezultaty projektu zostaną użyte w komercyjnych projektach z branży gier video.

Ray-tracing jest techniką generowania fotorealistycznych obrazów scen trójwymiarowych, umożliwiająca odwzorowanie odbić od obiektów, generowanie cieni oraz realistyczne liczenie oświetlenia. Ze względu na złożoność obliczeniową, przez wiele lat jej wykorzystanie ograniczało się do branży filmowej.

Soundtracing pozwoli na precyzyjną i wydajną obróbkę dźwięku na architekturach wielordzeniowych uwzględniającą rzeczywiste odbicia od ścian, tłumienia na przeszkodach, obliczanie precyzyjnego echa i generowanie wielu źródeł dźwięku w sposób automatyczny.

12 mar 2012

TOP 500 Innovators

Zostałem zakwalifikowany do programu TOP 500 Innovators -

" [...] dwumiesięcznym programie stażowo-szkoleniowym na najlepszych uczelniach świata z rankingu szanghajskiego (Academic Ranking of World Universities) takich jak Stanford University.

Program ma na celu podniesienie kwalifikacji naukowców i pracowników centrów transferu technologii w zakresie współpracy z gospodarką, zarządzania badaniami naukowymi oraz komercjalizacji ich wyników. Realizacja projektu powinna przyczynić się do jak najlepszego wykorzystania krajowych i europejskich środków przeznaczonych na badania tak, aby zapewnić transfer wyników prac B+R do gospodarki. Uczestnik programu w ciągu miesiąca po powrocie do Polski sporządza założenia planu komercjalizacji badań lub założenia planu poprawy efektywności działań centrum transferu technologii z wykorzystaniem wiedzy i umiejętności zdobytych podczas trwania programu."

Informacje na stronie AGH.

8 mar 2012

BDAS

Nasz artykuł "COMPERATIVE STUDY OF SQLITE AND BERKELEY DB IMPLEMENTATIONS OF N-GRAM MODEL OF POLISH LANGUAGE" został przyjęty na konferencję BDAS'12 i do czasopisma Studia Informatica. Przedstawiono zagadnienia dotyczące stosowania baz danych w lingwistyce komputerowej. Omówiono także przykład słownika i modelu n-gramowego systemu rozpoznawania mowy AGH. Pokazano na tym przykładzie znaczącą przewagę implementacji wykonanej w Berkeley DB nad implementacją SQLite w sensie wydajności czasowej.

9 lut 2012

Praca w Londynie

4 research positions at Imperial College London
(http://ibug.doc.ic.ac.uk/vacancies):

- 1 x ERC sponsored Postdoctoral Research Associate (18 months) in Machine Learning for Human Behaviour Behaviour (Ref: MAH10 MP 0212)

- 1 x ERC sponsored Postdoctoral Research Associate (18 months) in Computer Vision for Human Behaviour Behaviour (Ref: MAH12 MP 0212)

- 2 x ERC sponsored Scientific Programmer (18 months) for Automatic Audiovisual Analysis of Naturalistic Behaviour (Ref:
MAH09-SE 0212)

The positions relate to an ERC-funded project, ‘Multimodal Analysis of Human Nonverbal Behaviour in Real-World Settings (MAHNOB)’.

The project build on recent developments in Computer Vision, Pattern Recognition and Machine Learning in order to develop methods for recognition and localisation of human behaviours in naturalistic data. Specifically, successful candidates will be working on development of technology that will be based on findings in cognitive sciences and it will represent a set of visual and audiovisual spatiotemporal methods
for automatic analysis of human spontaneous (as opposed to posed and exaggerated) patterns of behavioural cues including continuous analysis of social and/or affective behaviour.

The successful candidate will be based at Imperial College London, Computing Department, and iBUG Group, one of UK's leading research groups in vision-based and audiovisual analysis of human behaviour, working with Prof. Maja Pantic (http://ibug.doc.ic.ac.uk/~maja/).

The positions are for 18 months or more preferably starting from 1st of April 2012 or as soon as possible thereafter. Starting salary will be in the range £31, 300 - £39,920 per annum inclusive of London Allowance.

Further details on these positions and how to apply can be found at: http://ibug.doc.ic.ac.uk/vacancies

Should you have any queries regarding the application process please contact Joanne Day by email to: research.officer at server doc.ic.ac.uk

The closing date for the applications is Friday 9th March 2012.

7 lut 2012

Nagrania z 1889

Odnaleziono nagrania wykonane na zlecenie Edisona. Pochodzą z 1889 roku. Więcej na TVN.

3 lut 2012

Olbrzymi sukces krakowskich uczelni

AGH awansowało o 251 miejsc w najnowocześniej sporządzanym rankingu światowych uczelni Webometrics zajmując 298 miejsce, 2 spośród polskich uczelni, zaraz po Uniwersytecie Jagielońskim (280 pozycja). Ranking sporządzany jest przede wszystkim na podstawie liczb zewnętrznych linków internetowych prowadzących na strony należące do uczelni. Pokazuje więc rozgłos, udział w konsorcjach, korzystanie z wiedzy publikowanej przez uczelnię itd. Uwzględnia się także rozmiar strony internetowej danej uczelni, ilość pdfów dostępnych w sieci, sklasyfikowanych jako naukowe z afiliacją danej uczelni i liczba cytowań tych artykułów według Google. Moim zdaniem taka forma jest zdecydowanie przejrzystsza niż tradycyjne metody oparte na decyzjach ludzi oraz bardziej wymierna, aczkolwiek należy pamiętać, że są małe kłamstwa, duże kłamstwa i statystyki.

Ranking polskich uczelni według Webometrics.

1 lut 2012

12 dzień bez Facebooka

Właśnie spadł na drugie miejsce. Prawdziwego nałogu nie ma, bo problemy wewnętrzne z nieużywaniem Facebooka zanikają. Co pewien czas znajomi mówią lub piszą mi w takich czy innych okolicznościach, że Facebook jest przydatny do różnych rzeczy i wtedy w myślach trochę smutno kiwam głową, bo faktycznie tak jest. Ale eksperyment nie jest jeszcze skończony. :)

24 sty 2012

4 dzień bez facebooka

Facebook dalej widnieje mi jako najczęściej używana strona. Regularnie okazuje się, że jakieś informacje miałem tylko na Facebooku. Oszczędzam na prądzie - komputer jest dużo częściej wyłączony. Jest nawyk otwierania Facebooka przed którym trzeba się powstrzymywać. I ostatnia ciekawostka, w wyniku mojego wcześniejszego wpisu, Google zaczęły mi masowo proponować reklamy na temat leczenia uzależnień.

23 sty 2012

FEDCSIS

W dniach 9-12 września odbędzie się konferencja FEDERATED CONFERENCE ON COMPUTER SCIENCE AND INFORMATION SYSTEMS, Wrocław. Na stronie konferencji opublikowano już wezwania do tutoriali, wystaw, demonstracji i innych specjalnych wydarzeń. Przewidziane są także trzy interesujące z punktu widzenia rozpoznawani mowy warsztaty naukowe:
AIMA'2012 - International Workshop on Artificial Intelligence in Medical Applications
ASIR’2012 - 2nd International Workshop on Advances in Semantic Information Retrieval
MMAP'2012 - International Symposium on Multimedia Applications and Processing

Zapraszam

21 sty 2012

1 dzień odwyku od Facebooka

Zagadnienie nie bardzo związane z rozpoznawaniem mowy, ale portale społecznościowe to popularny temat, a nie będę przecież zakładał nowego bloga. W wyniku przeczytania krytycznej uwagi na temat wpisów na Facebooku, doszedłem do wniosku, że przeprowadzę na sobie eksperyment nieużywania Facebooka dopóki nie zniknie z 8 najpopularniejszych stron w przeglądarce na moim komputerze, gdzie był od pewnego czasu na pierwszym miejscu... A więc taki odwyk.

Właśnie minął dzień pierwszy. Były lekkie odczucia głodu, ale główny problem to fakt, że okazało się że do pewnych znajomych mam kontakt tylko przez Facebooka.

19 sty 2012

Rozwinięcie korpusu LUNA

W ramach pracy inżynierskiej Aleksandry Wyszyńskiej rozwinęliśmy korpus rozmów telefonicznych LUNA o anotacje czasowe dla słów w postaci plików .mlf.

"Pliki stworzono za pomocą programu Anotator. Zadanie polegało na załadowaniu pliku dźwiękowego *.wav oraz pliku *.txt zawierającego transkrypcję, następnie zaznaczeniu, w oknie zawierającym przebieg czasowy nagrania, miejsca rozpoczęcia i zakończenia danego słowa. W razie potrzeby należało zmodyfikować plik tekstowy tak, by zgadzał się on z nagraniem. Trudności także wiązały się ze wsłuchaniem się, kiedy kończy się dane słowo, a zaczyna kolejne, gdyż nie zawsze było to wyraźne - człowiek, mówiąc płynnie, przechodzi z jednego słowa do drugiego, łączy fonemy kończące jeden wyraz i rozpoczynający drugi. Często w dialogach występowały słowa wypowiadane równocześnie, co jest zrozumiałe, jako że były to dialogi (rozmówcy sobie przerywali i mówili w tych samych chwilach). W takich sytuacjach kolejność w jakiej anotowano słowa zależała od transkrypcji. [...]"

Szczegóły w dokumentacji cytowanego projektu inżynierskiego.

11 sty 2012

Audycja w Radiofonii

Zapis rozmowy o interfejsach głosowych przeprowadzonej ze mną w ramach programu Rozmowy fakultatywne.

10 sty 2012

Przykłady komercyjnych systemów głosowych na rynku IT

12 stycznia, mgr inż. Łukasz Dyląg wygłosi wykład pt. "Przykłady komercyjnych systemów głosowych na rynku IT" w sali C3 p. 501 o godzinie 10.45. Pan Łukasz jest pracownikiem firmy Pirios S.A. Zapraszamy.

26 gru 2012

18 gru 2012

17 gru 2012

14 gru 2012

12 gru 2012

11 gru 2012

10 gru 2012

29 lis 2012

23 lis 2012

22 lis 2012

16 lis 2012

15 lis 2012

9 lis 2012

26 paź 2012

17 paź 2012

11 paź 2012

8 paź 2012

7 paź 2012

5 paź 2012

4 paź 2012

3 paź 2012

2 paź 2012

28 wrz 2012

27 wrz 2012

26 wrz 2012

9 wrz 2012

6 wrz 2012

5 wrz 2012

27 sie 2012

13 sie 2012

3 sie 2012

27 lip 2012

18 lip 2012

11 lip 2012

2 lip 2012

30 cze 2012

25 cze 2012

21 cze 2012

8 cze 2012

25 maj 2012

18 maj 2012

10 maj 2012

26 kwi 2012

2 kwi 2012

20 mar 2012

13 mar 2012

12 mar 2012

8 mar 2012

9 lut 2012

7 lut 2012

3 lut 2012

1 lut 2012

24 sty 2012

23 sty 2012

21 sty 2012

19 sty 2012

11 sty 2012

10 sty 2012

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń