Rozpoznawanie Mowy: 2010

10 gru 2010

Praca - zlecenie

Poszukujemy osoby do prowadzenia zajęć laboratoryjnych z przetwarzania sygnałów w ramach zlecenia (w dzień powszedni lub w soboty, zależnie od preferencji kandydata). Chętnych prosimy o wysyłanie CV, listy ocen i informacji na temat obecnego zatrudnienia na bziolko na serwerze agh.

28 lis 2010

Seminarium KE AGH

1 grudnia o 11.00 w sali 501 budynku C-3 odbędzie się seminarium poświęcone prezentacji wyników naszej pracy. Będzie połączone z demonstracją działających systemów. Zapraszam.

19 lis 2010

IARIA Best Paper Award

Nasz artykuł Speech Modelling Based on Phone Statistics uzyskał nagrodę Best Paper Award od International Academy, Research, and Industry Association na The Fifth International Multi-Conference on Computing in the Global Information Technology, w Walencji.

17 lis 2010

Spotkanie z Teyon

W ramach przedmiotu Artificial Intelligence in Games w czwartek o 15.45 w sali H.67 w D-8 odbędzie się spotkanie z pracownikiem firmy Teyon zajmującej się produkcją gier komputerowych. Zapraszam także osoby nie uczęszczające na przedmiot.

11 paź 2010

Studia po angielsku na AGH

Zająłem się przedmiotem Information Technologies na kierunku Electronics and Telecommunications, prowadzonych w całości po angielsku. Miałem już pierwszy wykład, ale nie wiem ilu spośród moich studentów to obcokrajowcy. Dlatego z ciekawością przeczytałem artykuł Gazety.

"Akademia Górniczo-Hutnicza w Krakowie ma już 89 obcokrajowców spoza Europy - nie tylko z Chin, ale także z Peru, Mongolii, Ekwadoru i Kamerunu. Płacą za studia rocznie od 2 do 8 tys. euro. Co roku AGH otrzymuje aż 500 zapytań od chętnych z zagranicy. - Zamierzamy przyjmować ich więcej - mówi Bartosz Dembiński, rzecznik prasowy uczelni. - Dlatego pojawiamy się na targach edukacyjnych w krajach spoza Europy - m.in. w Arabii Saudyjskiej.

Więcej... http://wyborcza.pl/1,75248,8491741,Chinczycy_tropia_Blechacza.html#ixzz124y3P2Qd"

- Emilia Iwanciw

4 paź 2010

Małopolskie Targi Innowacyjne

"13 października b.r. w namiocie wystawienniczym na krakowskim Małym Rynku odbędzie się kolejna edycja Małopolskich Targów Innowacji "Biznes + Nauka". Wśród pięćdziesięciu wystawców znajdzie się siedemnaście firm i trzydzieści trzy instytucje, których wspólnym celem jest promowanie innowacyjności poprzez świadczenie innowacyjnych usług lub wdrażanie innowacji.

Małopolskim Targom Innowacji będzie towarzyszyć konferencja pod hasłem "Być albo nie być (oto jest) pytanie o współpracę Nauka-Biznes", która będzie miała miejsce w Międzynarodowym Centrum Kultury (przy Rynku Głównym). Wśród prelegentów znajdą się polscy uznani w swojej dziedzinie eksperci, którzy zaprezentują szanse i bariery współpracy na linii biznes i nauka w Małopolsce. Wstęp na konferencję jest bezpłatny (wymaga wcześniejszej rejestracji na stronie internetowej Targów . Rozpoczęcie rejestracji 1 października.

Centrum Transferu Technologii jako reprezentant AGH weźmie udział w Małopolskich Targach Innowacji Biznes + Nauka 2010, jednocześnie zachęca wszystkich twórców innowacyjnych rozwiązań, pracowników AGH, zamierzających propagować swoje osiągnięcia do kontaktu z Działem Współpracy z Gospodarką CTT AGH w celu uzgodnienia form promowania na wystawie i/lub uczestnictwa w towarzyszącej targom konferencji."

- agh.edu.pl

1 paź 2010

Interspeech

Interspeech okazało się jeszcze lepsze niż sądziłem. Można było zobaczyć prawie wszystkich znanych autorów artykułów, wiele sensownych trendów badań, wyników i prezentacji. Byli przedstawiciele wszystkich cenionych uczelni i firm. Zawsze się na innych konferencjach zastanawiałem, dlaczego nie przyjeżdżają. Teraz już wiem, przygotowywali się do Interspeech ;).

30 wrz 2010

Praca w Edynburgu

We have an open postdoc position here at CSTR. Applicants need a background in HMM-based speech processing (ideally for speech synthesis, but expertise in HMM-based speech recognition would also be appropriate). The current position is for 12 months, but we hope to be able to extend this with additional funding.

Simon

------

Post-doctoral Research Associate

HMM-based speech synthesis

The Centre for Speech Technology Research (CSTR)
University of Edinburgh

The School of Informatics at the University of Edinburgh invites applications for the post of Postdoctoral Research Associate on a project concerning voice reconstruction and personalised voice communication aids. The project will develop clinical applications of speaker-adaptive statistical text-to-speech synthesis in collaboration with the Euan MacDonald Centre, who are funding this project. Applications include the reconstruction of voices of patients who have disordered speech as a consequence of Motor Neurone Disease, by using statistical parametric model adaptation. The project will also investigate better voice reconstruction methods.

You will be part of a dynamic and creative research team within the Centre for Speech Technology Research, at the forefront of developments in statistical speech synthesis. The application of statistical parametric speech synthesis to clinical applications such as voice banking, voice reconstruction and assistive devices, is an exciting new development and an area in which we expect to have increased research activity in the coming years. We are seeking additional long-term funding for this work and there may be the possibility of extending this Research Associate position.

You have (or will be near completion of) a PhD in speech processing, computer science, cognitive science, linguistics, engineering, mathematics, or a related discipline.

You will have the necessary programming ability to conduct research in this area, a background in statistical modelling using Hidden Markov Models and strong experimental planning and execution skills.

A background in one or more of the following areas is also desirable: statistical parametric text-to-speech synthesis using HMMs and HSMMs; speaker adaptation using the MLLR or MAP family of techniques; familiarity with software tools including HTK, HTS, Festival; ability to implement web applications.; Familiarity with the issues surrounding degenerative diseases which affect speech, Motor Neurone Disease, Parkinson's disease, Cerebral Palsy or Multiple Sclerosis is desirable.

For further information and to apply.

--
Simon King

24 wrz 2010

Roboty

Skonstruowano sztuczną skórę dla robotów wrażliwą nawet na delikatne bodźce. Rozmawiałem też z ludźmi z CMU i twierdzili, że w 2015 roku poleci na księżyc pierwsza misja górnicza. Poszukiwanym surowcem będzie platyna. Oczekuje się jej dużo na księżycu ze względu na liczne krateru, a platyna na ziemi występują głównie w miejscach uderzeń meteorytów.

23 wrz 2010

IEEE ICSC

IEEE International Conference on Semantic Computing organizowana na Carnegie Mellon University w Pittsburghu wyróżnia się wśród innych konferencji na których byłem. Jest dużo uczestników z firm. Jest dużo "niestandardowych" punktów programu takich jak demonstracje działających systemów czy prezentacje laboratoriów uniwersytetu. Dość specyficzne jest także to, że trwa około 12 godzin dziennie. Nie łatwo jest temu podołać.

28 lip 2010

CLA IMCSIT

Nasz artykuł "Polish Phones Statistics" został przyjęty na Computational Linguistics – Applications (CLA'10) w ramach International Multiconference on Computer Science and Information Technology w Wiśle.

Artykuł opisuje statystyki fonemów, bifonów i trifonów, uwzględniając połączenia między wyrazowe, ponieważ spacja nie została włączona do słowniaka możliwych fonemów. Wyniki są opracowane na podstawie przeanalizowania tekstów z 267 000 000 słowami. Zostały również porównane do wyników profesora Jassema opublikowanych kilka dzięsięcioleci temu na podstawie niewielkiej liczby trankrypcji audycji radiowych.

19 lip 2010

Oblężenie na AGH

"Podczas tegorocznej rekrutacji chęć studiowania na Akademii Górniczo-Hutniczej zgłosiło ponad 15,5 tys. maturzystów. To o prawie 4 tys. więcej niż przed rokiem. Uczelnia obsadziła wszystkie przygotowane miejsca. UJ, na którym wolne miejsca jeszcze zostały, ogłosił już drugi nabór.

[...]

Na Akademii największą popularnością cieszyły się: budownictwo (8,4 osoby na jedno miejsce), geodezja i kartografia (7,8), kulturoznawstwo (6,4), socjologia (6) oraz mniej znane kierunki, jak inżynieria akustyczna (5,2), inżynieria biomedyczna (4,8), zarządzanie (4,5) oraz turystyka i rekreacja, gdzie na jedno miejsce było prawie 4 chętnych.
[...]
"

- Aneta Zadroga, Gazeta Wyborcza Kraków

Informacje zamieszczone w gazecie nie oddają jednak poprawnie jak trudno było dostać się na poszczególne kierunki dlatego podaję progi punktowe wybranych kierunków na AGH w 2010 (7 najwyższych, Elektronikę i Telekomunikację oraz 2 wymienione w artykule jako cieszące się największą popularnością):

1. Automatyka i Robotyka, inż. (EAIiE) 909
2. Informatyka, inż.(EAIiE) 865
Informatyka Stosowana, (EAIiE) inż. 865
3. Inżynieria Akustyczna, inż. 851
4. Budownictwo, inż. 846
5. Inżynieria Biomedyczna, inż. 830
Geodezja i Kartografia, inż. 830
[...]
Elektronika i Telekomunikacja, inż. 708
Turystyka i Rekreacja, lic. 652
Kulturoznawstwo, lic. 625

9 lip 2010

2nd IEEE/IET International Conference on Audio, Language and Image Processing

Nasz artykuł "SPEECH MODELLING USING PHONEME SEGMENTATION AND MODIFIED WEIGHTED
LEVENSHTEIN DISTANCE" został przyjęty do prezentacji na The 2nd IEEE/IET International Conference on Audio, Language and Image Processing, będącej jedną z największych konferencji wyspecjalizowanych w przetwarzaniu mowy i języka. Praca opisuję naszą najskuteczniejszą metodę modelowania akustycznego umożliwiającą generowanie listy hipotez słów na podstawie porównywania parametrów sygnału mowy z bazą wzorców głosek. Metoda opiera się o metrykę edycyjną (Levenshteina). Modyfikacja polega na precyzyjniejszej ocenie podstawień zależnie od różnic między oczekiwanym fonemem a zaobserwowanymi parametrami.

Interspeech 2010

Naszym dużym sukcesem było przyjęcie artykułu "Perceptual Wavelet Decomposition for Speech Segmentation" na Interspeech 2010, ponieważ jest to najbardziej ceniona konferencja w dziedzinie przetwarzania języka mówionego na świecie. Prawie połowa nadesłanych prac została odrzucona. Artykuł opisuje modyfikację transformaty falkowej dostosowującą ją do lepszego scharakteryzowania sygnału mowy i umożliwiając trafniejszą segmentację.

The 4th International Conference on Multimedia and Ubiquitous Engineering (MUE 2010)

Nasz artykuł "Polish n-grams and their correction process" został przyjęty na konferencję The 4th International Conference on Multimedia and Ubiquitous Engineering (MUE 2010). Artykuł opisuje zebrane przez nas statystyki n-gramowe języka polskiego wraz z oprogramowaniem utworzonym do ich półautomatycznego poprawiania.

Fourth IEEE International Conference on Semantic Computing

Nasza propozycja dema systemu rozpoznawania mowy została przyjęta na Fourth IEEE International Conference on Semantic Computing w Pitsburgu, USA. W materiałach konferencyjnych zostanie również opublikowany artykuł "Automatic Speech Recognition System Based on Wavelet Analysis". Zaprezentujemy najnowszą wersję systemu AGH ASR. Będzie ona zawierała między innymi 3 metody modelowania akustycznego, konstruowanie zdań, modelowanie 1 i 2 gramami oraz analizą semantyczną.

2 lip 2010

Oferta pracy z Zespole Inżynierii Lingwistycznej IPI PAN

Zespół Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN
poszukuje osób do współpracy w kilku prowadzonych przez nas projektach
związanych z różnymi poziomami lingwistycznego znakowania tekstu.

Praca polega na weryfikacji poprawności, uzupełnieniu i modyfikacji
informacji wprowadzonej metodami automatycznymi. Jest to np.:

• „głęboki” opis składniowy w formie drzew składników bezpośrednich
(selekcja spośród automatycznie generowanych drzew),

• „płytki” opis w formie grup składniowych,

• ujednoznacznianie sensów słów na podstawie kontekstu,

• znakowanie nazw własnych i jednostek wieloczłonowych (za pomocą
graficznego edytora struktur drzewiastych).

Prace, w zależności od projektu, będą się odbywać w najbliższych kilku
do kilkunastu miesiącach.

lkobylinski na serwerze ipipan.waw.pl.

25 cze 2010

Oferty pracy badawczej w Imperial College w Londynie

- 1 x ERC sponsored Postdoctoral (or PhD) Research Associate (Assistant)
in Automatic Audiovisual Analysis of Naturalistic Behaviour (Ref: MAH7 MP 0610)

- 1 x EC FP7 sponsored Postdoctoral (or PhD) Research Associate (Assistant)
in Automatic Audiovisual Analysis of Social Behaviour (Ref: SSP3 MP 0610)

- 2 x ERC sponsored Scientific Programmer
for Automatic Audiovisual Analysis of Naturalistic Behaviour (Ref: MAH8 MP 0610)

The ERC-sponsored positions relate to an ERC-funded project,
‘Multimodal Analysis of Human Nonverbal Behaviour in Real-World
Settings (MAHNOB)’.
The EC FP7-sponsored positions relate to an EC-funded project, 'Social
Signal Processing Network of Excellence (SSPNet)'

Both projects build on recent developments in Computer Vision, Pattern
Recognition and Machine Learning in order to develop methods for
recognition and localisation of human behaviours in naturalistic data.
Specifically, the successful candidate will be working on development
of technology that will be based on findings in cognitive sciences and
it will represent a set of visual and audiovisual spatiotemporal
methods for automatic analysis of human spontaneous (as opposed to
posed and exaggerated) patterns of behavioural cues including
continuous analysis of social and/or affective behaviour.

The successful candidate will be based at Imperial College London,
Computing Department, and iBUG Group, one of UK's leading research
groups in vision-based and audiovisual analysis of human behaviour,
working with Prof. Maja Pantic (http://www.doc.ic.ac.uk/~maja/).

The positions are for 2 or more years starting from 1st of October
2010 or as soon as possible thereafter. Starting salary will be in the
range £26,580 - £38,730 per annum inclusive of London Allowance.

Further details on these positions and how to apply can be found at:
1) http://www3.imperial.ac.uk/computing/vacancies#4
2) http://www3.imperial.ac.uk/computing/vacancies#5
3) http://www3.imperial.ac.uk/computing/vacancies#6

Should you have any queries regarding the application process please
contact Joanne Day by email to: research.officer@doc.ic.ac.uk

The closing date for the applications is Thursday 15th July 2010.

14 cze 2010

Oferta pracy na AGH

Oferta pracy

Katedra Elektroniki zatrudni kompetentną osobę na stanowisku asystenta w Zespole Przetwarzania Sygnałów (http://www.dsp.agh.edu.pl). Preferowani będą absolwenci kierunków Informatyka lub pokrewne mogący wykazać umiejętności i wiedzę w następujących dziedzinach (lub części z nich):
- tworzenie aplikacji z wykorzystaniem technologii .NET w środowisku Visual Studio (zarządzane C++, C#),
- technologie mowy,
- technologie programowania współbieżnego,
- przetwarzanie języka naturalnego,
- rozpoznawanie wzorców,
- systemy uczące się,
- optymalizacja,
- bazy danych.

ZAKRES OBOWIĄZKÓW:
Prowadzenie zajęć dydaktycznych w zakresie programowania. Badania i rozwój w dziedzinie rozpoznawania mowy polskiej, ze szczególnym uwzględnieniem implementacji i testów algorytmów opracowywanych przez innych członków zespołu.

Ponadto od kandydatów oczekuje się biegłego posługiwania się językiem angielskim.

Stanowisko dostępne od 1 października 2010.

Kandydaci proszeni są o przesyłanie CV i listy ocen ze studiów na adres bziolko na serwerze agh.edu.pl.

8 cze 2010

Artificial Intelligence in Games

28 studentów informatyki zgłosiło się na przedmiot Artificial Intelligence in Games. AIG ruszy w październiku 2010 roku. Poniżej syllabus.

Cel przedmiotu, uzyskiwane kompetencje
Gaining skills and experience in computer games designing and programing. The module will introduce students to working in large teams. Students will learn aspects of game theory, machine learning, natural language processing and taking decisions by a computer.

Program wykładu
Introduction to game theory. Graphs in computer games. Classic search algorithms: minimax, alpha-beta pruning, expected value. Machine learning in games. Pathfinding. Elements of natural language processing. Agent-based approaches: reactive and logic-based agents. Reinforcement learning, behavioural cloning, and evolutionary learning. Visiting lecturer from a company producing computer games.

Charakterystyka pozostałych zajęć
Three supervised computer game projects. The tasks will be divided between students but all teams will meet regularly in a classroom. The results of the projects will be publically available on Internet to promote the course. First game will be based on designing fighting algorithms. Second one on role-playing and natural language processing. The third one on strategy and economy decisions.

2 cze 2010

Przedmiot obieralny Automatic Speech Recognition

14 studentów informatyki AGH zgłosiło się na zaproponowany przez mnie przedmiot Automatic Speech Recognition jako swój przedmiot obieralny na 9 semestrze studiów jednolitych. W związku z tym Prodziekan Wydziału EAIiE zadecydował o wprowadzeniu tego przedmiotu. Będzie on prowadzony z językiem angielskim jako obieralnym. Poniżej załączam syllabus.

Cel przedmiotu, uzyskiwane kompetencje:
Gaining skills and experience in automatic speech recognition. The module will introduce students to working in research groups. Students will learn aspects of speech and language modelling.

Program wykładu:
Speech and language resources available for automatic speech recognition. Speech parameterisation and segmentation (mel frequency cepstral coefficients (MFCC), perceptual linear predictive analysis (PLP)). Speech modelling (hidden Markov model (HMM), artificial neural networks (ANN)). Dictionaries in computer systems. Grammar modelling (parsers, n-grams, part of speech taggers). Semantic modelling. Current research trends in ASR. Academic and commercial ASR systems.

Charakterystyka pozostałych zajęć:
Participation in speech recognition research conducted in signal processing group. The students will conduct designing, programming and testing tasks in real work on speech recognition systems. The exact nature of the projects will vary from a year to year according to exact works conducted in the signal processing group research projects.

1 cze 2010

ICCGI 2010

Nasz artykuł SPEECH MODELLING BASED ON PHONE STATISTICS został przyjęty na The Fifth International Multi-Conference on Computing in the Global Information Technology (
ICCGI 2010). Artykuł opisuje eksperymenty w wykorzystywaniu statystyk fonrmów, di i tri fonów do wspierania konstruowania słów z hipotez akustycznych.

27 maj 2010

Interfejs głosowy Google'a

Google planuje interfejs głosowy oparty o rozpoznawanie i syntezę mowy do obsługi stron internetowych zarówno dla komputerów jak i urządzeń mobilnych.

23 maj 2010

Polskie Imperium

Szukuje się nowa świetna gra komputerowa.

18 maj 2010

Zdjęcia z Festiwalu Nauki w Krakowie

Jak już pisałem mieliśmy swoje stoisko na Festiwalu Nauki w Krakowie. Namiot naszego wydziału był jednym z najbardziej obleganych, oczywiście nie tylko dzięki naszym prezentacjom. Mogliśmy zaprezentować osiągnięte wyniki szerokiemu gronu odbiorców.

13 maj 2010

Słyszenie oczami

W moim przypadku iluzja nie zadziałała. Polecam sprawdzić na sobie - Efekt McGurka.

9 maj 2010

Humor dla matematyków itp. ;)

Czym się różni lew z wykształceniem matematycznym od zwykłego lwa?
- Lew z wykształceniem matematycznym ekstra poluje.

7 maj 2010

Festiwal Nauki w Krakowie

15 maja będziemy prezentować wyniki naszych badań na stanowisku "Przetwarzanie i rozpoznawanie mowy" w ramach Festiwalu Nauki w Krakowie. Osobą odpowiedzialną za stanowisko jest dr inż. Jakub Gałka.

4 maj 2010

Wspomaganie systemu rozpoznawania mowy przez modele językowe

16 czerwca wygłoszę referat "Wspomaganie systemu rozpoznawania mowy przez modele językowe" w ramach seminarium Katedry Elektroniki AGH. Odbędzie się ono w C3 w sali 501 o godzinie 11.00. Wystąpienie będzie połączone z prezentacją najnowszej wersji systemu rozpoznawania mowy AGH. Zapraszam.

24 kwi 2010

Modelowanie Cybernetyczne Systemów Biologicznych i IIS

2 nasze artykuły zostały przyjęte do druku. Pierwszy opisuje wstępne testy metodologii wykorzystania wiedzy z Wikipedii do modelowania semantycznego. Jego tytuł brzmi "Extracting semantic knowledge from Wikipedia". Zostanie opublikowany na konferencji IPI PANu International Joint Conference Intelligent Information Systems w Siedlcach.

Drugi to właściwie streszczenie o tytule "Strategie poszukiwań najlepszej ścieżki przez graf reprezentujący hipotezy słów". Zostanie przedstawiony na konferencji Modelowanie Cybernetyczne Systemów Biologicznych

Automatyczne rozpoznawanie mowy ciągłej jest nadal poważnym wyzwaniem, zwłaszcza dla języka polskiego, będącego językiem wysoce fleksyjnym. Rozpoznawanie izolowanych słów jest rozwiązaniem technicznym niewystarczającym dla większości zastosowań. Aby umożliwić bardziej skomplikowane zadania, na przykład dyktowanie, konieczne jest budowanie zdań z dużej liczby możliwych słów. Hipotezy słów są zwykle podobne akustycznie do siebie, co oznacza, że często mogą być różnymi odmianami tego samego słowa. Wybranie spośród nich poprawnej hipotezy zdania jest skomplikowanym zadaniem.
Istnieją dwie typowe struktury, które mogą być użyte do modelowania zdania z hipotez słów: lista najlepszych propozycji lub graf skierowany, będący siatką. Lista n najlepszych hipotez jest prostsza w realizacji, ale nie zapewnia takiej jakości jak graf, umożliwiający rozpatrzenie większej liczby kombinacji bardzo podobnych do siebie akustycznie słów. Dlatego w systemie rozpoznawania mowy Akademii Górniczo - Hutniczej zdecydowaliśmy się na użycie grafu.

Klasyfikator mowy szuka słów z nagrań różnych długości, w przybliżeniu równych czasowi wymawiania słowa. Wszystkie hipotezy są oceniane przez porównywanie ze słowami występującymi w słowniku, używając metryki edycyjnej. Wybierana jest najlepsza hipoteza dla danego słowa (pod kątem czasu trwania). Wówczas algorytm przechodzi do nagrań rozpoczynających się bezpośrednio po końcu wybranej hipotezy. Występuje zawsze kilka równoległych hipotez z różnymi słowami. Algorytm łączy je, jeżeli ich początki i końce sobie odpowiadają. W ten sposób powstaje siatka do dalszego użycia.

Typową strategią poszukiwania najlepszej ścieżki przez siatkę słów jest zastosowanie algorytmu Viterbiego. W przypadku naszego systemu, chcemy przede wszystkim zmniejszyć ilość krawędzi w grafie, poprzez rozcięcie połączeń między słowami niewystępującymi w statystykach 2-słów. Dysponujemy statystykami zebranymi z ponad 10 gigabajtów tekstu. Uważamy, że są wystarczająco reprezentatywne. W większości przypadków, można założyć, że jeśli nie ma odnotowanego połączenia dwóch słów, to nie mogą one po sobie występować w poprawnym zdaniu. Ta strategia umożliwi znaczne zmniejszenie stopnia komplikacji siatki. Pozwoli to przeprowadzać obliczenia w czasie rzeczywistym, nawet z zastosowaniem dużego słownika.

15 kwi 2010

Separacja mowy i muzyki w systemach dwumikrofonowych

Mgr inż. Rafał Samborski wygłosi 28 kwietnia referat na seminarium Katedry Elektroniki AGH. Tytuł referatu brzmi "Separacja mowy i muzyki w systemach dwumikrofonowych". Seminarium odbędzie się w sali 501 w budynku C3 AGH. Zapraszamy!

8 kwi 2010

Usuwanie szumu

Jeśli potrzebujesz oczyścić swoje nagrania z szumu polecam noisebusters. Można wypróbować system za darmo.

16 mar 2010

Konferencje na temat mowy i języka

13th International Conference on Text, Speech and Dialogue September 6-10 Brno 15,22.III http://www.tsdconference.org/tsd2010/conf_dates.html

2010 International Conference on Audio, Language and Image Processing 23-25.Nov Shanghai 31.III http://www.icalip2010.cn/
SIPS IEEE Workshop on Signal Processing Systems 10.VI
San Francisco 31.III http://www.sips2010.org/

7th International Conference on
Natural Language Processing August 16-18 Reykjavik 12.IV http://icetal.ru.is/

IASTED on Computational Intelligence ~CI 2010~ August 23 – 25 Maui, Hawaii
1.IV http://www.iasted.org/conferences/cfp-711.html

10. Conference on Natural Language Processing September 6-8 Saarbrücken 23.IV http://www.konvens2010.de/home_en.html

Interspeech 26-30.09 Makuhari, Japonia 30.IV 2.VII http://www.interspeech2010.org/

Fourth IEEE International Conference on Semantic Computing September 22-24 Pittsburgh 3.V http://www.ieee-icsc.org/

CLA'10-NL1 :: Computational Linguistics - Applications (CLA'10) October 18-20 Wisła 31.05 http://www.imcsit.org/pg/289/231

ICASSP 2011-05-22 Praga www.icassp2011.com/

10 mar 2010

Ekstrakcja mowy z zagłuszonego sygnału przy użyciu filtrów Wienera

Nasz artykuł "Wiener Filtration for Speech Extraction from the Intentionally Corrupted
Signals" został przyjęty na konferencję IEEE International Symposium on Industrial Electronics (ISIE-2010).

Artykuł opisuje nasze metody i eksperymenty w zakresie stosowania filtrów Wienera do odzyskiwania mowy naumyślnie zagłuszonej na przykład przez radio z muzyką. Metoda zakłada użycie 2 mikrofonów i wykorzystanie różnic w sygnałach w nich wykrywanych.

Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym

Nasz artykuł "Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym" został przyjęty na konferencje Bazy danych: Aplikacje i Systemy 2010.

Automatyczna klasyfikacja tekstu pisanego znajduje szerokie zastosowanie w systemach informacyjnych, między innymi w filtrach e-mail, eksploracji danych (ang. data mining ) oraz korekcie tekstu. W tej pracy opisujemy system bazodanowy, który słauży pomiarowi stopnia dopasowania hipotez wypowiedzi w systemie automatycznego rozpoznawania mowy. Wypowiedzi są porównywane do tekstów zgromadzonych w hierarchicznie uporządkowanym korpusie.
Model języka polskiego, jaki przyjęliśmy w analizach, jest modelem przestrzeni wektorowej (ang. vector space model ). Każdy dokument pochodzący z korpusu jest traktowany jak wektor należący do przestrzeni wektorowej, co pozwala na zastosowanie metod algebry liniowej na korpusie tekstu jako całości.
W pracy posługujemy się bazami tekstu o rozmiarach rzędu kilku gigabajtów, dlatego przedstawiamy metody o liniowej złożoności czasowej względem rozmiaru korpusu i prezentujemy użycie relacyjnej plikowej bazy danych typu sqlite3 do przechowywania i przeszukiwania danych.

22 lut 2010

Ankieta: 77 proc. absolwentów AGH z 2008 r. znalazło pracę

"Ponad trzy czwarte (77 proc.) absolwentów Akademii Górniczo-Hutniczej w Krakowie z 2008 roku znalazło już zatrudnienie - 80 proc. z nich pracuje w zawodzie zgodnym z wykształceniem, a niemal 90 proc. deklaruje, że w swojej pracy korzysta z wiedzy uzyskanej na studiach - wynika z badań "Losy zawodowe absolwentów AGH - rocznik 2008"."

PAP - Nauka w Polsce agt/kap/

19 lut 2010

Zdjęcia z ceremonii wręczenia dyplomów - York 2010

Ceremonie w Anglii są zawsze bardzo uroczyste i dumne. Tak i było z wręczeniem dyplomu doktora. Poniżej w stroju doktora. Kolor szarfy oznacza dziedzinę, a kształt czapki uzyskany tytuł.

Główna ceremonia

Uścisk rektora, po prawej profesor informatyki wywołujący dyplomantów ze swojego wydziału.

Uroczystość na wydziale

Zdjęcie z jednym z moich promotorów

15 lut 2010

Nasz artykuł "Evaluation of Errors in Polish Phones Segmentation for Different Types of Transitions" został przyjęty na konferencji MELECON. Artykuł opisuje skuteczność segmentacji mowy na fonemy w zależności od rozdzielanej pary. Najłatwiejsze w wykryciu są granice miedzy dwoma głoskami zwartymi(/p/, /b/, /t/, /d/, /k/, /g/), a najtrudniejsze między samogłoskami ustnymi (/i/, /y/, /e/, /a/, /o/, /u/), a samogłoskami nosowymi (/ę/, /ą/).

5 lut 2010

Rozpoznawanie myśli

"Przez pięć lat uważano, że znajduje się w stanie wegetatywnym. 29-letni mężczyzna okazał się jednak być świadomy i komunikuje się za pomocą myśli. [...]

Naukowcy z Wielkiej Brytanii i Belgii za pomocą funkcjonalnego rezonansu magnetycznego zbadali mózg mężczyzny, który uległ w 2003 roku wypadkowi. Seria testów ujawniła, że sparaliżowany i pozbawiony świadomości (przynajmniej tak sądzono) jest w stanie udzielać myślami odpowiedzi "tak" i "nie" na pytania (m.in. czy twój ojciec ma na imię Thomas")."

- tvn24

29 sty 2010

Konferencja KU KDM'10

Nasz artykuł na temat obliczeń prowadzonych na superkomputerach został przyjęty na konferencję KU KDM'10.

27 sty 2010

Najlepszy zawód na świecie

"Zawodem o największych perspektywach jeszcze na wiele lat jest specjalista IT, i dotyczy to również Polski - powiedział Orłowski. Dodał, że przedsiębiorcy zarówno w Polsce, jak i za granicą, oczekują od rządów zmiany systemu edukacji tak, by kształcił on specjalistów od zarządzania produkcją, ograniczania ryzyka, optymalizacji zatrudnienia, inżynierów."

- tvn24

25 sty 2010

Typy przejść fonemów i trudności w ich wykrywaniu

Nasz artykuł na temat skuteczności segmentacji na głoski z wykorzystaniem metody opartej na dyskretnej transfomacji falkowej, w zależności od typów graniczących ze sobą fonemów został przyjęty na Melecon.

19 sty 2010

Rozpoznawanie mowy przez Matlaba

Matlab udostępnia skrypty do rozpoznawania izolowanych słów.

8 sty 2010

Pol-nord

"Studenci oraz młodzi inżynierowie zainteresowani komercjalizacją wynalazków mogą wziąć udział w projekcie Pol-Nord Bridge. Zorganizowane przez nich grupy już w marcu wyjadą na dwutygodniowe staże, podczas których zaprezentują inwestorom i przedsiębiorcom wyselekcjonowane przez siebie innowacje lub wynalazki gotowe do wdrożenia w gospodarce.

Pol-Nord Bridge to nowatorska inicjatywa Politechniki Warszawskiej(PW) oraz norweskiego Norwegian University of Science and Technology z Trondheim (NTNU), która ma wykształcić grupę specjalistów z zakresu zarządzania własnością intelektualną oraz popularyzować tę tematykę w środowisku studenckim.

Projekt jest skierowany głównie do młodych inżynierów, zainteresowanych komercjalizacją wynalazków, również własnych, a także do studentów kierunków ekonomicznych i prawniczych.

Uczestnicy wezmą udział w warsztatach, które odbędą się w obu krajach marcu i październiku 2010 roku. Zdobędą tam umiejętności z zakresu kompleksowego wdrażania innowacji; będą poznawali specyfikę dziedzin takich jak: wycena wartości wynalazku/innowacji, ocena możliwości jego komercjalizacji, przygotowywanie biznesplanu i umieszczanie nowego produktu na rynku. Dowiedzą się również, jak sprzedawać innowacyjen pomysły i jak na nich zarabiać.

Osoby, które chcą wziąć udział w programie powinny wypełnić formularz zgłoszeniowy dostępny na stronie projektu, a w nim krótko przedstawić swoją sylwetkę. W ciągu kilku dni otrzymają odpowiedź wraz z zaproszeniem na około 15 minutową rozmowę w języku angielskim. Po zakończeniu spotkań z wszystkimi kandydatami, otrzymają informację o zakwalifikowaniu lub niezakwalifikowaniu się do programu.

Szczegółowe informacje na temat projektu są dostępne na stronie: www.pol-nord.eu/index.php"

- pap

7 sty 2010

Homofonia

6 sty 2010

2010 International Workshop on Multimedia and Semantic Technologies (MUST 2010)

Zostałem członkiem komitetu technicznego 2010 International Workshop on Multimedia and Semantic Technologies (MUST 2010). Warsztaty odbędą się w maju w Busan, w Korei. Zapraszam.