Rozpoznawanie Mowy

1 paź 2010

Interspeech

Interspeech okazało się jeszcze lepsze niż sądziłem. Można było zobaczyć prawie wszystkich znanych autorów artykułów, wiele sensownych trendów badań, wyników i prezentacji. Byli przedstawiciele wszystkich cenionych uczelni i firm. Zawsze się na innych konferencjach zastanawiałem, dlaczego nie przyjeżdżają. Teraz już wiem, przygotowywali się do Interspeech ;).

30 wrz 2010

Praca w Edynburgu

We have an open postdoc position here at CSTR. Applicants need a background in HMM-based speech processing (ideally for speech synthesis, but expertise in HMM-based speech recognition would also be appropriate). The current position is for 12 months, but we hope to be able to extend this with additional funding.

Simon

------

Post-doctoral Research Associate

HMM-based speech synthesis

The Centre for Speech Technology Research (CSTR)
University of Edinburgh

The School of Informatics at the University of Edinburgh invites applications for the post of Postdoctoral Research Associate on a project concerning voice reconstruction and personalised voice communication aids. The project will develop clinical applications of speaker-adaptive statistical text-to-speech synthesis in collaboration with the Euan MacDonald Centre, who are funding this project. Applications include the reconstruction of voices of patients who have disordered speech as a consequence of Motor Neurone Disease, by using statistical parametric model adaptation. The project will also investigate better voice reconstruction methods.

You will be part of a dynamic and creative research team within the Centre for Speech Technology Research, at the forefront of developments in statistical speech synthesis. The application of statistical parametric speech synthesis to clinical applications such as voice banking, voice reconstruction and assistive devices, is an exciting new development and an area in which we expect to have increased research activity in the coming years. We are seeking additional long-term funding for this work and there may be the possibility of extending this Research Associate position.

You have (or will be near completion of) a PhD in speech processing, computer science, cognitive science, linguistics, engineering, mathematics, or a related discipline.

You will have the necessary programming ability to conduct research in this area, a background in statistical modelling using Hidden Markov Models and strong experimental planning and execution skills.

A background in one or more of the following areas is also desirable: statistical parametric text-to-speech synthesis using HMMs and HSMMs; speaker adaptation using the MLLR or MAP family of techniques; familiarity with software tools including HTK, HTS, Festival; ability to implement web applications.; Familiarity with the issues surrounding degenerative diseases which affect speech, Motor Neurone Disease, Parkinson's disease, Cerebral Palsy or Multiple Sclerosis is desirable.

For further information and to apply.

--
Simon King

24 wrz 2010

Roboty

Skonstruowano sztuczną skórę dla robotów wrażliwą nawet na delikatne bodźce. Rozmawiałem też z ludźmi z CMU i twierdzili, że w 2015 roku poleci na księżyc pierwsza misja górnicza. Poszukiwanym surowcem będzie platyna. Oczekuje się jej dużo na księżycu ze względu na liczne krateru, a platyna na ziemi występują głównie w miejscach uderzeń meteorytów.

23 wrz 2010

IEEE ICSC

IEEE International Conference on Semantic Computing organizowana na Carnegie Mellon University w Pittsburghu wyróżnia się wśród innych konferencji na których byłem. Jest dużo uczestników z firm. Jest dużo "niestandardowych" punktów programu takich jak demonstracje działających systemów czy prezentacje laboratoriów uniwersytetu. Dość specyficzne jest także to, że trwa około 12 godzin dziennie. Nie łatwo jest temu podołać.

28 lip 2010

CLA IMCSIT

Nasz artykuł "Polish Phones Statistics" został przyjęty na Computational Linguistics – Applications (CLA'10) w ramach International Multiconference on Computer Science and Information Technology w Wiśle.

Artykuł opisuje statystyki fonemów, bifonów i trifonów, uwzględniając połączenia między wyrazowe, ponieważ spacja nie została włączona do słowniaka możliwych fonemów. Wyniki są opracowane na podstawie przeanalizowania tekstów z 267 000 000 słowami. Zostały również porównane do wyników profesora Jassema opublikowanych kilka dzięsięcioleci temu na podstawie niewielkiej liczby trankrypcji audycji radiowych.

19 lip 2010

Oblężenie na AGH

"Podczas tegorocznej rekrutacji chęć studiowania na Akademii Górniczo-Hutniczej zgłosiło ponad 15,5 tys. maturzystów. To o prawie 4 tys. więcej niż przed rokiem. Uczelnia obsadziła wszystkie przygotowane miejsca. UJ, na którym wolne miejsca jeszcze zostały, ogłosił już drugi nabór.

[...]

Na Akademii największą popularnością cieszyły się: budownictwo (8,4 osoby na jedno miejsce), geodezja i kartografia (7,8), kulturoznawstwo (6,4), socjologia (6) oraz mniej znane kierunki, jak inżynieria akustyczna (5,2), inżynieria biomedyczna (4,8), zarządzanie (4,5) oraz turystyka i rekreacja, gdzie na jedno miejsce było prawie 4 chętnych.
[...]
"

- Aneta Zadroga, Gazeta Wyborcza Kraków

Informacje zamieszczone w gazecie nie oddają jednak poprawnie jak trudno było dostać się na poszczególne kierunki dlatego podaję progi punktowe wybranych kierunków na AGH w 2010 (7 najwyższych, Elektronikę i Telekomunikację oraz 2 wymienione w artykule jako cieszące się największą popularnością):

1. Automatyka i Robotyka, inż. (EAIiE) 909
2. Informatyka, inż.(EAIiE) 865
Informatyka Stosowana, (EAIiE) inż. 865
3. Inżynieria Akustyczna, inż. 851
4. Budownictwo, inż. 846
5. Inżynieria Biomedyczna, inż. 830
Geodezja i Kartografia, inż. 830
[...]
Elektronika i Telekomunikacja, inż. 708
Turystyka i Rekreacja, lic. 652
Kulturoznawstwo, lic. 625

9 lip 2010

2nd IEEE/IET International Conference on Audio, Language and Image Processing

Nasz artykuł "SPEECH MODELLING USING PHONEME SEGMENTATION AND MODIFIED WEIGHTED
LEVENSHTEIN DISTANCE" został przyjęty do prezentacji na The 2nd IEEE/IET International Conference on Audio, Language and Image Processing, będącej jedną z największych konferencji wyspecjalizowanych w przetwarzaniu mowy i języka. Praca opisuję naszą najskuteczniejszą metodę modelowania akustycznego umożliwiającą generowanie listy hipotez słów na podstawie porównywania parametrów sygnału mowy z bazą wzorców głosek. Metoda opiera się o metrykę edycyjną (Levenshteina). Modyfikacja polega na precyzyjniejszej ocenie podstawień zależnie od różnic między oczekiwanym fonemem a zaobserwowanymi parametrami.