Rozpoznawanie Mowy: 2014

28 lis 2014

Kraków Startup TV Ep. 21: Top 500 Innovators

www.dsp.agh.edu.pl

14 lis 2014

Praca w Durham, UK

Background

Complex networks are fundamental to transport and communication in biological systems, but little is known about their architecture and dynamics due to the fact that the size and complexity of modern imaging datasets exceeds human analysis ability. In this project we will overcome these limitations through the development of novel intensity-independent image informatics approaches exploring low-contrast features to provide a key methodology for the quantitative understanding of the role of complex biological networks in life systems.

Aims:

    develop intensity-independent image analysis and processing solutions to extract and characterise the architecture of structural biological networks from 2D/3D/3D time-series images;

    validate the proposed approaches using images of fungal, leaf vein and cytoskeletal networks with 10^6 of links across a range of physical scales;

    build a unique benchmarking repository of complex biological networks with their topological characteristics.

The approaches developed here will enable robust extraction and quantitative characterisation of the architecture of 2D/3D/3D time-series biological networks. These quantitative measures will allow researchers to understand in which way topology and functions of the biological networks are related. This will then open new avenues, especially for researchers exploring the importance of fungal networks in causing diseases in crops, and of leaf veins and cytoskeletal networks in plant growth. Most importantly, adaptation of the proposed approaches need not be limited to biological images but can be applied to any images that contain curvilinear features. Specifically, the approach for a low-contrast feature extraction will be extremely beneficial to both the academic and industrial computing and bioimaging communities, as it will allow the confident use of low-contrast features in a wide range of different domains, such as biomedical imaging, robotics, astronomy, security and art, where image processing methods also play an essential role.

The applicant should have:

    BSc/MSc in Computer Science, Engineering, Physics or Mathematics
    BSc/MSc thesis within Image Processing, Computer Vision, Visualisation, Bioinformatics, …
    Excellent programming skills, experience in MATLAB and Java/C++
    A solid background in mathematics and statistics
    Knowledge on depth image data analysis and processing
    Excellent communication skills in English, both spoken and written
    UK citizenship or EU citizenship

For further information please contact Dr Boguslaw Obara (boguslaw [dot] obara [AT] durham [dot] ac [dot] uk)

28 paź 2014

Robot obsługujący klientów w Dolinie Krzemowej

"Klient może przyjść do sklepu z jakąś śrubką i powiedzieć: "Panie robocie, potrzebuję tego więcej". Jeśli takie śruby są dostępne, robot poinformuje o tym, a następnie zaprowadzi klienta do właściwej półki - mówi Kyle Nel, dyrektor laboratorium innowacji firmy Lowe's Companies Inc., do której należą sklepy Orchard Supply Hardware. Roboty rozpoznają język angielski i hiszpański."

Więcej na TVN24bis

The Role of Acoustic Features in Marking Accent and Delimiting Sentence Boundaries in Spoken Polish

Nasza publikacja "The Role of Acoustic Features in Marking Accent and Delimiting Sentence Boundaries in Spoken Polish" została przyjęta do druku w czasopiśmie Acta Physica Polonica (Impact Factor 0.604). Opisujemy w niej modele statystyczne dotyczące korelacji między realizacjami fonemów a ich położeniem w zdaniu i akcentem.

www.dsp.agh.edu.pl

23 paź 2014

Two-Microphone Dereverberation for Automatic Speech Recognition of Polish

Nasz artykuł "Two-Microphone Dereverberation for Automatic Speech Recognition of Polish" ukazał się w Archives of Acoustics (IF: 0.829). Publikacja prezentuje metody wspierające rozpoznawanie mowy nagrań z echem. Publikacja jest wynikiem wyjazdu jednego z naszych studentów (Mikołaj Kundegórski) na staż w ramach programu Erasmus- Socrates do Anglii. Obecnie Mikołaj jest pracownikiem Uniwersytetu w Durham gdzie zajmuje się przetwarzaniem obrazów.

www.dsp.agh.edu.pl

Magic Leap

"Google pracuje nad wirtualną rzeczywistością. Świat wirtualnej rzeczywistości robi wrażenie z każdym nowym wynalazkiem. Brakuje mu tylko jednego – spójnego pomysłu na wykorzystanie magicznych możliwości.

Prawdopodobnie bliżej osiągnięcia konkretnego celu w upowszechnianiu technologii wirtualnej rzeczywistości jest Google. Firma przeznaczyła właśnie 542 mln dolarów na inwestycję w startup o nazwie Magic Leap. Przedsiębiorstwo wsparli także tacy ważni gracze ze świata IT jak Qualcom czy Andreessen Horowitz. Wartość Magic Leap wynosi obecnie ponad 2 mld dolarów."

- Rafał Tomański, więcej na ekonomia.rp.pl

19 paź 2014

Biometria w bankach

"Historia zaczęła się od telefonu na infolinię jednego z amerykańskich banków. Roztrzęsiony głos kobiety informował, że właśnie spłonął jej dom. Prosiła o przesłanie na jej tymczasowy adres nowej karty kredytowej, by móc przeżyć, zanim ubezpieczyciel wypłaci odszkodowanie.
Bank początkowo nie robił trudności z przesłaniem nowej karty na podany adres. Jednak w trakcie rozmowy komputer analizował głos w słuchawce i porównywał go z bazą danych oszustów bankowych. Gdy okazało się, że rozmówca to nie tylko kobieta, ale i poszukiwany przez policję oszust, pod podanym adresem pojawiła się policja. Oszuści, którzy czekali na kartę, nawet nie wiedzieli, co się dzieje."

- Arkadiusz Przybysz, Gazeta.pl

30 wrz 2014

Automatyczna sekretarka przychodni

Prosimy o pomoc w zbieraniu danych do badań. Proszę wczuć się w rolę pacjenta, który dzwoni do przychodni i umawia się na wizytę. Chodzi o sformułowanie kilku wypowiedzi na podstawie przedstawionych danych o celu i terminie wizyty. Znajduje się ona pod poniższym linkiem:

https://docs.google.com/forms/d/1eLVidso0I7xUwA5y9nAUTX4GKzGuiJ_28UXqCPW4QUM/viewform

Dziękujemy z góry za wypełnienie ankiety!
www.dsp.agh.edu.pl

22 wrz 2014

Nowi Doktoranci

Piotrek Żelasko i Irek Gawlik zdali dzisiaj egzaminy na studia doktoranckie (odpowiednio z Elektroniki i Informatyki). Gratulujemy! Zwiększa to liczbę doktorantów w naszym zespole do 11!

www.dsp.agh.edu.pl

17 wrz 2014

Zapraszamy na Studia podyplomowe Kształcenie Głosu i Mowy organizowane przez Szkołę Wyższą Psychologii Społecznej.

16 wrz 2014

Syntezowanie mowy oddechem

Science Alert opisuje ciekawy wynalazek dla osób z zaburzeniami mowy. Polega on na generowaniu mowy w oparciu o oddechy. Więcej na Science Alert.

1 wrz 2014

Kolejny rekord oglądalności

Sierpień będąc miesiącem zamknięcia uczelni i wakacji nie brzmi jak termin pobicia ilości odwiedzin naszej strony www.dsp.agh.edu.pl, ale jednak. Było 4769. Wynik ten osiągnęliśmy w dużej mierze w ostatnim dniu, dzięki temu, że Slashdot opublikował na stronie głównej kategorii "games" artykuł o nowym filmie pokazującym naszą bibliotekę dźwiękową w Quake'u.

18 sie 2014

IEEE Region 8 Student and Young Professional Congress

W ramach IEEE Region 8 Student and Young Professional Congress młodzi naukowcy z Europy, Afryki i Bliskiego wschodu tłumnie odwiedzili nasze laboratorium. Marcin Witkowski prezentował nasz system biometryczny, a Tomek Pędzimąż trójwymiarowy silnika audio do gier.

www.dsp.agh.edu.pl

8 sie 2014

PAP o Sarmacie i Techmo

"Sarmata to system komputerowy, który rozpoznaje polskie słowa. Większość podobnych technologii jest opartych na języku angielskim. Konstruktorzy z AGH „nauczyli” swój system rozpoznawać tysiąc polskich komend. Tym samym otworzyli Polakom możliwość głosowego komunikowania się z urządzeniami cyfrowymi. Pierwsze wdrożenia nastąpią w telekomunikacji."

Więcej na PAP

6 sie 2014

Two-microphone dereverberation for Polish ASR

Nasz artykuł "Two-microphone dereverberation for Polish ASR" został przyjęty do druku w czasopiśmie z Listy Filadelfijskiej Archives of Acoustics. Praca powstała we współpracy z University of Surrey i opisuje eksperymenty z rozpoznawaniem mowy polskiej i angielskiej w warunkach pogłosu.

www.dsp.agh.edu.pl

5 sie 2014

PVC zindeksowane w SCOPUSie

Pełne artykuły pokonferencyjne XXII PVC zostały zindeksowane przez Scopus. Scopus to baza artykułów porównywalna jakościowo z Web of Knowledge Thomson Reuters, tylko trochę większa, ale za to z bardziej klarownymi zasadami indeksowania konferencji, które w wypadku WoK nie są w żaden sposób zdefiniowane i coraz częściej sprowadzają się do tego, że jeśli wydawcą jest konkurencja Thomson Reuters to artykuły nie są indeksowane. Niestety z jakiś powodów Scopus jest zupełnie ignorowany przez polskie Ministerstwo Nauki i Szkolnictwa Wyższego. Ale juz na przykład cenione raporty SCIMAGO (m.in. używane do wyliczania rankingu Webometrics) korzystają z danych SCOPUSa.

www.dsp.agh.edu.pl

23 lip 2014

Mgr inż. Piotr Żelasko

Jako pierwszy na swoim roku obronił się dzisiaj Piotr Żelasko. Jego praca "Rozpoznawanie mowy w telefonii" została oceniona na 5.0.

"Centrum zainteresowań mojej pracy stanowi problem nauczenia systemu rozpoznawania mowy radzenia sobie z obecnością oddechów i pauz wypełnionych. W szczególności, zajmę się:

- stworzeniem prostego, pokazowego systemu dialogowego z modułem rozpoznawania mowy opartym na systemie Sarmata [Ziółko et al., 2011];

- przygotowaniem korpusu zawierającego oddechy i pauzy wypełnione wyekstrahowane ze spontanicznej mowy ciągłej;

- opracowaniem rozwiązania, które pozwoli systemowi rozpoznawania mowy osiągnąć lepsze rezultaty podczas rozpoznawania mowy, w której znajdują się wyraźne oddechy i pauzy wypełnione.

W pierwszej kolejności omówię strukturę transferu danych pomiędzy urządzeniem klienta a centralą systemu dialogowego oraz przedstawię przygotowany przeze mnie scenariusz przykładowego systemu dialogowego. Następnie opiszę krótko najważniejsze cechy systemu rozpoznawania mowy i przykładowy sposób połączenia go z systemem dialogowym. Pozostałą część pracy poświęcę na szczegółowy opis oddechów i pauz wypełnionych oraz na przedstawienie mojej metody uwzględnienia ich w modelu wypowiedzi, wraz z wynikami testów."

www.dsp.agh.edu.pl

11 lip 2014

XXII PVC - Scopus

Pełne publikacje XXII konferencji PVC będę zindeksowane w Scopusie. Otrzymaliśmy potwierdzenie z Elsevier.

www.dsp.agh.edu.pl

6 lip 2014

Pokonferencyjne artykuły XXII Pacific Voice Conference

IEEE opublikowało wybrane prace organizowanej przez nas XXII Pacific Voice Conference. Zapraszamy do lektury. Prace dotyczą rozpoznawania mówców i mowy, w tym zastosowań do leczenia mowy patologicznej, rozwiajania własnego głosu przez ludzi.

www.dsp.agh.edu.pl

27 cze 2014

Praca w Wenecji :)

*PhD Position in Computer Vision*

*University IUAV of Venice, Italy*

*Closing date: 15th July 2014*

Applications are invited for a fully-funded PhD studentship in Computer Vision.

The successful candidate will be working on specific projects related to mobile vision and video surveillance.

The candidate must be grounded in the basics of computer vision, have solid mathematical ability and good programming skills (knowledge of C/C++ and OpenCV is preferable, and basic knowledge on mobile programming - Android/Java - is a good addition, though not mandatory), and have attitude in scientific research and publications.

*Candidates must have a master degree or equivalent.*

The three-year PhD program will take place in the historical city centre of Venice, the most beatiful city in the world.

Supervisor: Dr Andrea Prati

For expression of interest or enquiries, please contact Dr. Andrea Prati: andrea.prati@iuav.it. You may be asked to participate to a Skype (or equivalent) meeting for a specific informal interview.

24 cze 2014

Pół godziny na infolinii

Dzisiaj próbowałem odblokować telefon który w nie do końca znanych mi okolicznościach został zablokowany gdy byłem w Stanach. Sam początek był tragiczny. W tej samej informacji w której przekazano mi, że nie mogę wykonywać połączeń wychodzących napisano też że mam zadzwonić na infolinię. Gdy odpisałem, że nie mogę zadzwonić bo właśnie zablokowaliście mi telefon, firma nie widziała w tym żadnego problemu.

Potem było coraz gorzej. Zadzwoniłem na wskazany numer z pożyczonego telefonu. Najpierw klapa bo chcą żebym wybrał numer 1 lub 2 a tu ekran dotykowy nieaktywny w trakcie rozmowy... (rozpoznawanie mowy między 1 a 2 to potrafi zrobić 90% naszych studentów).

Przełożyłem nieswoją kartę do swojego telefonu i dzwonię ponownie. Po wybraniu numeru odezwała się Pani, tłumacze jej swój problem, na spokojnie. Ona weryfikuje moją tożsamość pytając o nazwisko i pesel (i to podobno jest bezpieczniejsze od biometrii!!!). Potem mówi żebym czekał. Po kilku minutach wraca i mówi, że ma problemy techniczne i mnie przełączy do koleżanki. Ok. Myślę sobie poznam koleżankę. Niestety nie, kolejny automat i wybór menu. Rozłączam się i dzwonię ponownie do pierwszej. Mówię, że było menu, na co ona to proszę wybrać opcję odblokowanie karty. Acha ... Przełącza mnie. Takiej opcji nie ma, wybieram "czy jesteś naszym klientem - tak". "Podaj identyfikator klienta"... Dzwonię do pierwszej i mówię, że nie pamiętam swojego identyfikatora (a w domu, gdzie mam to zapisane, nie będę miał nie swojej karty sim żeby móc zadzwonić ...). Pani mówi żebym czekał i że mi sprawdzi. Kolejna minuta upływa i mówi że ma problemy techniczne, że spróbuje mnie połączyć jeszcze raz, a jak się nie uda to żebym zadzwonił na pełnopłatny numer bezpośrednio do owej koleżanki (na razie płaciłem tylko 1 zł za każde dzwonienie).

Po przełączeniu pojawiło sie to samo menu, więc tym razem wybrałem "połącz z konsultantem". Nie było koleżanki, był pan. Tłumaczę swoją sprawę, mówi żebym poczekał, wraca po kilku minutach i mówi żebym zasilił konto. Na co ja że tego już próbowałem i system nie chciał przyjąć ode mnie pieniędzy. Podpowiadam , że może jest jakaś kwota którą trzeba wrzucić gdy numer jest zablokowany. Pan mówi żebym znowu czekał. Po jakimś czasie wraca i mówi, że puści mi melodyjkę i żebym czekał dalej. Kilka minut później melodyjka niepokojąca zarzyna się jakby w analogowym urządzeniu zaczęło brakować zasilania, ale czekam. Pan wraca i mówi żebym spróbował jeszcze raz, a jak się nie uda to spróbował nie przez internet ,tylko w bankomacie i żebym spisywał komunikaty. Jak się z różnych źródeł nie uda, to żebym wysłał pisemnie reklamację.

Naprawdę potrzebujemy przełomu technologicznego w tym temacie ...

www.dsp.agh.edu.pl

SIGMAP

Nasz artykuł o modelowaniu ciszy, oddechów itp. w rozpoznawaniu mowy "HMM-based breath and Filled Pauses Elimination in ASR" został przyjęty na konferencji SIGMAP 2014. Jest to bardzo ambitna konferencja, w niektórych latach indeksowana przez Thomson Reuters w Web of Knowledge oraz w Scopusie. Cieszymy się szczególnie, ponieważ głównym autorem tak dojrzałej publikacji i samego toku badań jest student przed obroną pracy magisterskiej - Piotr Żelasko. Gratulujemy!

www.dsp.agh.edu.pl

21 cze 2014

Tak to się robi

Jak to, w Polsce się nie da? Tak powinny wyglądać badania stosowane:

http://wyborcza.biz/Mikrofirmy/1,137126,16185674,Zarabiaja_na_opiniach_ludzi_w_internecie.html

20 cze 2014

Siri sprzedana?

Podczas gdy Apple i Samsung walczą o dominację na rynku telefonów, Carl Icahn liczy że te tarcia wywindują cenę jednego z należących do niego holdingów.

Mowa tu o Nuance Communications, firmie, która stoi za słynną Siri Apple'a, a która rozważa... wystawienie się na sprzedaż. W miniony poniedziałek Wall Street Journal donosił o wstępnych rozmowach prowadzonych na ten temat z Samsungiem.

Ta właśnie informacja z pewnością skłoni Apple'a do włączenia się do gry i przeznaczenia części swoich środków (szacowanych na 150 miliardów dolarów) na stawkę w tej swoistej licytacji.

O ile sama Siri jest produktem SRI international, która odpowiada za jej funkcjonalności osobistego asystenta, o tyle kluczowy moduł rozpoznawania mowy jest dziełem Nuance - co jednak było tajemnicą aż do czasu, kiedy Apple zakupił Siri.

Jeśli więc Nuance szykuje się na przejęcie, Apple jest w kropce. Choć może z łatwością przelicytować Samsunga, to jednak musi liczyć się z kosztami rzędu 4,8 miliarda dolarów (na tyle szacowana jest wartość rynkowa firmy). Ewentualna wygrana Apple'a oznaczałaby też konieczność zaangażowania się w inne obszary, w jakich działa obecnie Nuance (np. opieka zdrowotna i technologie medyczne), a które, jak na razie, leżą poza zasięgiem zainteresowań giganta z Cupertino.

Utrata Siri byłaby jednak przede wszystkim kryzysem wizerunkowym, który z pewnością zostałby skrzętnie rozdmuchany przez Samsunga już w chwilę po przejęciu Nuance - podgryzanie pozycji i wizerunku Apple to dla koreańskiego koncernu ważny element strategii walki o rynek.

www.dsp.agh.edu.pl

17 cze 2014

Samsung kupi Nuance?

Taka właśnie plotka krąży. Pisze o tym Wall Street Journal. Czy to by oznaczało że Siri przestanie działać, bo licencja dla Apple zostanie wycofana? W efekcie tej wiadomości akcje Nuance podrożały prawie o 10%. Więcej.

dsp.agh.edu.pl

4 cze 2014

Siri ma znać polski?

Pojawiają się doniesienia prasowe, że nowa wersja SIRI będzie znać język polski. Szczegóły na spidersweb.

31 maj 2014

Prozodia a semantyka

Kiedy pauza jest wypowiedzią? Jak ton wypowiedzenia słowa może zmienić jego sens, a nawet znaczenie artykułu Konstytucji? Czy prozodia istnieje w języku migowym? Jaki sposób wypowiedzi jest odbierany jako niepewny?
O tym i innych zagadnieniach można było usłyszeć w minionych dniach (29-30 maja) w Warszawie na konferencji 'Prozodia w semantyce - semantyka w prozodii', w której mieliśmy przyjemność uczestniczyć.
Konferencja była wspólnym projektem UKSW i UW. Była to doskonała okazja do spotkania i wymiany doświadczeń badawczych dla lingwistów, fonetyków, filologów, logopedów i ... inżynierów. Interdyscyplinarność konferencji zaowocowała wieloma cennymi burzami mózgów i na pewno owocować będzie w przyszłości, również współpracą na tym bardzo ciekawym polu badawczym.

Organizatorom serdecznie dziękujemy za zaproszenie, gratulujemy przedsięwzięcia i życzymy kolejnych tak udanych inicjatyw!

www.dsp.agh.edu.pl

27 maj 2014

Skype będzie tłumaczył rozmowy w czasie rzeczywistym.

Skype, już od dawna ułatwia ludziom komunikację na odległość za pomocą wideo, głosu i czatu. Teraz Microsoft pragnie zwiększyć możliwości Skype'a, testując nową funkcjonalność, umożliwiającą ludziom, którzy nie posługują się wspólnym językiem, prowadzenie ze sobą rozmów.

W dniu dzisiejszym, na pierwszej edycji CODE Conference, Microsoft zaprezentował nową technologię tłumaczeń speech-to-speech (mowa-mowa), którą ma zamiar zaimplementować w przyszłych wersjach Skype'a, co ma pozwolić na przekład mowy z jednego języka na drugi niemal w czasie rzeczywistym.

W ramach prezentacji pokazano m.in., tłumaczenie z angielskiego na niemiecki w postaci zarówno pisemnej transkrypcji jak i audio - oraz w drugą stronę, z niemieckiego na angielski.

Przesłaniem płynącym od twórców tej technologii jest "Zbliżanie ze sobą ludzi i niwelowanie dzielących ich różnic". Wszystko zaczęło się od przełamania monopolu tradycyjnych sieci telekomunikacyjnych na rozmowy międzynarodowe i wprowadzenie obsługi wideo. Teraz czas na przełamanie bariery językowej.

Opisywana funkcjonalnośc jest rezultatem ścisłej współpracy pomiędzy działami odpowiedzialnymi za Skype, Bing i Microsoft Research Lab (laboratorium badań Microsoftu), które już od dawna pracują nad zagadnieniami przetwarzania ludzkiej mowy i uczenia maszynowego. Nowe rozwiązania z podobnych technologii, co Cortana - osobisty asystent posiadaczy urządzeń z systemem Windows 8.1.

www.dsp.agh.edu.pl

1 maj 2014

Rekordowy kwiecień

W kwietniu nasza strona dsp.agh.edu.pl pobiła rekord popularności mając 3764 odwiedzających. To zapewne głównie efekt konferencji która organizowaliśmy - XXII Annual Pacific Voice Conference. Tak a propos konferencji praktyka pokazała również, że konferencja jest bardzo dobrą metodą pozycjonowania strony w naturalny sposób. Dużo różnych organizacji, często nam nieznanych pisało o niej podając link. Tak więc jeśli organizujecie międzynarodową konferencję, to jeśli tylko to możliwe trzymajcie jej stronę we własnej domenie.

30 kwi 2014

Wynajem sprzętu audio i video

Istnieje możliwość wynajmu sprzętu naszego laboratorium. Zainteresowanych zapraszamy do kontaktu. szczegóły na stronie http://www.dsp.agh.edu.pl/pl:resources:wynajem.

29 kwi 2014

The First Conference of the International Association for Cognitive Semiotics (IACS 2014)

Nasz referat 'Emotional profiles of emergency phone callers' został przyjęty na

The First Conference of the International Association for Cognitive Semiotics (IACS 2014) w Lund (25-27 września). Zaprezentujemy m.in. różne sposoby wizualizacji profilu emocjonalnego mówcy oraz pokażemy, w jakich kombinacjach emocje podstawowe pojawiają się w sytuacjach z życia codziennego.

www.dsp.agh.edu.pl

28 kwi 2014

8th International Conference on Interfaces and Human Computer Interaction 2014

Nasz artykuł na temat metod czasowo-częstotliwościowych w określaniu profilu osoby mówiącej pod kątem emocji został przyjęty na 8th International Conference on Interfaces and Human Computer Interaction 2014, która odbędzie się w Lizbonie.

www.dsp.agh.edu.pl

25 kwi 2014

Biomedical Signal Processing and Control

Nasz artykuł DIFFERENT TYPES OF PAUSES AS A SOURCE OF INFORMATION FOR BIOMETRY został przyjęty (warunkowo) do czasopisma z Listy Filadelfijskiej "Biomedical Signal Processing and Control". Praca opisuje możliwości związane z wykorzystaniem charakterystyki oddechów i innych pauz w rozpoznawaniu mówcy.

www.dsp.agh.edu.pl

21 kwi 2014

Praca w INRIA (Bordeaux)

INRIA to ceniony ośrodek w badaniach nad mową. Nazwa wakatu który obecnie chcą zapełnić to "Nonlinear speech analysis for differential diagnosis between Parkinson's disease and Multiple-System Atrophy". Szczegóły oferty są na stronie INRIA.

17 kwi 2014

Podsumowanie Pacific Voice Conference

Konferencja była bardzo udaną (poza jednym zgubionym telefonem). Wiele osób chce powtórki, my właściwie też :). Udział wzięły osoby z 17 krajów (autorzy nadsyłanych prac - z 21 krajów - części nie przyjęto, a część to byli współautorzy). W sumie licząc studentów i kilku innych "wolnych słuchaczy" udział wzięło prawie 100 osób. Dyplomy za najlepsze prace otrzymali Brian Wong, Marcin Just i Jerzy Wolf.

15 kwi 2014

Korpusy audiovideo i emocjonalny

Niedawno się zorientowałem że mamy filmiki demonstrujące nasze korpusy audiovideo i emocjonalny a nie ma ich na youtubie. Szybko naprawiłem ten błąd:

14 kwi 2014

Face Controller

"Niedrogi system, który pozwoli na sterowanie komputerem bez użycia myszki czy klawiatury - tylko za pomocą mimiki, ruchów głowy i komend głosowych opracowali studenci z Politechniki Rzeszowskiej. System ma służyć m.in. osobom sparaliżowanym.

Autorzy projektu Face Controller - zespół Power of Vision z Politechniki Rzeszowskiej dzięki swojemu rozwiązaniu zajęli pierwsze miejsce w kategorii "Projekty Społeczne" w polskiej edycji Imagine Cup."

- PAP

13 kwi 2014

Prof. Mariusz Ziółko otrzymał honorowe dożywotnie członkowstwo w Pacific Voice & Speech Foundation

9 kwi 2014

Olympus sponsorem XXII Pacific Voice Conference

Właśnie otrzymaliśmy ostateczne (finansowe) potwierdzenie udziału Olympus w PVC. Poprosiłem o opis firmy aby ją zaprezentować. Cytuję:
"Opis:
NBI to opatentowana technologia Olympus.

Tylko tyle. "
I słusznie. To się nazywa siła silnych patentów.

P.S. NBI - Narrow Band Imaging

P.S. 2 Stoisko Olympusa będzie najprawdopodobniej czynne tylko w piątek.

4 kwi 2014

Nasza międzynarodowa konferencja

Na PVC prezentowane będą prace autorów z 19 krajów. Miało być 21, ale autorzy z Turcji i Egiptu zrezygnowali. Chyba...

2 kwi 2014

Na jakie cyfry stranskrybował się Slayer?

Dawid wpuścił wczoraj na wejście systemu Sarmata ustawionego na rozpoznawanie cyfr piosenkę Slayera. Kto zgadnie jakie cyfry się rozpoznały? ;)

1 kwi 2014

TVP o naszej biometrii

Technologie jak z filmów s-f. AGH tworzy system identyfikacji głosowej - TVP

31 mar 2014

Poznasz bliźniego po głosie jego - PAP

"Pierwszy w Polsce system umożliwiający identyfikację osoby na podstawie brzmienia wypowiadanych przez nią słów czy akcentowania wyrazów, opracowali naukowcy z AGH w Krakowie." [...]

- Ewelina Krajczyńska, PAP [więcej]

27 mar 2014

Ortfon 2

Nowy Ortfon jest oficjalnie gotowy. Nieoficjalnie dalej obawiamy się, że są w nim jakieś błędy. Planujemy także zupełnie nowy model licencjonowania - poprzez nasz serwer. Czym się różni nowy Ortfon? Po pierwsze, jest edytorem transkrypcji - w łatwy sposób można modyfikować zasady lub nawet skonstruować własny system. Po drugie działa na dużym alfabecie - stary Ortfon był w tej kwestii uproszczeniem, co wywoływało błędy, zwłaszcza z ę. Po tzrecie nowy Ortfon działa dużo szybciej i zużywa dwa razy mniej pamięci. A będzie można o tym wszystkim dokładniej się dowiedzieć na PolTal, pod warunkiem że przyjmą nasz artykuł ;).

P.S. Wersja demonstracyjna na stronie dsp.agh.edu.pl jest dalej starym Ortfonem.

18 mar 2014

Mgr inż. Aleksandra Wyszyńska

Z opóźnieniem, ale z pełnymi gratulacjami, ogłaszamy, że Aleksandra Wyszyńska obroniła swoją pracę magisterską Analiza komercyjnych wdrożeń systemu rozpoznawania mowy SARMATA.

16 mar 2014

Ciekawe zajęcia dla dzieci ...

oferuje nasz były student - Paweł Jujeczko. Zajęcia są zaplanowane na rozbudzenie ciekawości światem, zafascynowaniu dzieci nauką, odkryciu tkwiących w nich pasji i inspirowaniu. Szczegóły na jujeczko.com .

Praca w Indiach

Electrical Engineering Department, Indian Institute of Technology, Kanpur, India zaprasza doktorów do aplikowania na 3 letnie staże. CV należy wysłać przed 30 kwietnia do Head, Electrical Engineering Department, IIT Kanpur-208016, UP, India. http://www.iitk.ac.in/ee Email: head_ee@iitk.ac.in, spdas@iitk.ac.in

15 mar 2014

Rozpoznawanie mowy i mówcy na CEBIT

Wywiad na CEBIT z Prezesem Jackiem Mireckim współpracującej z nami firmy VoiceFinder:

8 mar 2014

Wyszukiwane hasła na dsp.agh.edu.pl

Dzisiaj ciekawostka. Prezentujemy statystyki co jest najczęściej wyszukiwane na www.dsp.agh.edu.pl wg narzędzia webmaster tool Google:

Wyświetlenia	Kliknięcia
dsp agh	254
praca inżynierska	3 248
transformata z	344
przetwarzanie sygnałów	128
transformata hilberta	77
filtry analogowe	29
praca inzynierska	313
dialekty polskie	238
filtry adaptacyjne	28
rayav	93
praca inżynierska agh	43
przykładowa praca inżynierska	267
dsp	849
mariusz ziółko	76
ziółko agh	58
metodyki programowania	30
program do transkrypcji fonetycznej	14
rozpoznawanie mowy polskiej	33
filtr komplementarny	32
technologia mowy	13
filtr hilberta	87
filtr adaptacyjny	28
transformacja hilberta	23
system rozpoznawania mowy	55
sygnał analityczny	34

5 mar 2014

Oferty pracy

Ciekawa oferta pracy dla osób z doktoratem w zakresie przetwarzania sygnałów pojawiła się na Tampere University of Technology (Finlandia). Szczegóły
Inna w Massachusetts w firmie iZotope dla DSP Engineer .

Diagnova Technologies

Diagnova Technologies zostało oficjalnie pierwszym sponsorem i komercyjnym wystawcą XXII Pacific Vocie Conference. Firma zajmuje się rozwijaniem i wprowadzaniem nieinwazyjnych, innowacyjnych i tanich rozwiązań dla diagnostyki medycznej. Pracuje nad łączeniem różnych metod diagnostycznych w celu osiągnięcia maksymalnej efektywności diagnozowania przy niskich kosztach.

4 mar 2014

Orange openmiddleware community

Zachęcamy do brania udziału w akcjach organizowanych przez http://www.openmiddleware.pl/portal/. W związku z podpisanymi umowami istnieje możliwość realizacji prototypu własnej usługi w oparciu o system rozpoznawania mowy SARMATA i infrastrukturę Orange. Jest to szczególnie dobry pomysł na ambitną pracę dyplomową, której promowania chętnie się podejmiemy. Zwracamy także uwagę na konkursy i możliwości stażowe.

www.dsp.agh.edu.pl

3 mar 2014

Pełne artykuły pokonferencyjne na PVC ...

... można już zgłaszać. Instrukcja znajduje się na naszej stronie http://www.dsp.agh.edu.pl/pvc/fullpapers. Wybrane prace będą publikowane w IEEEXplore.

20 lut 2014

Orange Fab Polska

Bartosz Ziółko został jednym z mentorów polskiego Orange Fab - akceleratora innowacji.

Szukamy programisty do Surikate

Ogłoszenie znajduje się na stronie naszego zespołu:
http://www.dsp.agh.edu.pl/pl:ofertypracy

14 lut 2014

Nagroda MNiSW

Wydział Informatyki, Elektroniki i Telekomunikacji otrzymał od Ministerstwa statuetkę za wynalazki nagradzane na międzynarodowych targach. Jednym z docenionych osiągnięć jest Systemy rozpoznawania i weryfikacji mówcy: voicepass i surikate” dr inż. Jakuba Gałki, dr inż. Bartosza Ziółki. Szczegóły na stronie AGH.

11 lut 2014

Wysoka lokata AGH w Rankingu Webometrics

Ukazał się nowy ranking Webometrics. Jeszcze chyba nigdy AGH nie było tak wysoko. 384 w świecie, 4 w Polsce, najlepsze wśród polskich uczelni technicznych.

http://www.webometrics.info/en/Europe/Poland

3 lut 2014

Inż. Sebastian Dziadzio, inż. Aleksandra Nabożny oraz inż. Bartosz Stoliński

Dzisiaj odbyły się kolejne udane obrony prac dyplomowych realizowanych w naszym Zespole:

B. Stoliński "System detekcji nagrań"
A. Nabożny, "Przygotowanie korpusu do projektu korpusowego syntezatora mowy"
S. Dziadzio, "Unit Selection Text to Speech System for Polish"

Autorom gratuluję, a zainteresowanych tematami zapraszam do lektury, prace znajdują się na stronie Zespołu DSP.

2 lut 2014

Ocena przedmiotu Technologia Mowy przez studentów

Jakub przeprowadził ankiety oceny naszego głównego przedmiotu wśród studentów. Odpowiedzi udzieliło 36 osób. Średnia odpowiedzi była następująca:

Jak efektywnie pracowałeś/aś w trakcie zajęć (ćwiczeń, wykładów, laboratoriów) (3,94)

Jak efektywna była cała grupa w trakcie zajęć (ćwiczeń, wykł. lab.). (3,89)

Przygotowanie prowadzącego do zajęć (4,89)

Dobór tematów (4,43)

Jakość materiałów dodaktycznych (4,00)

Jakość komunikacji między prowadzącym a słuchaczami (4,71)

Ankietowani odpowiadali także na pytania:

"Podobało mi się..."

"Co jeśli zmienić by..."

"Chciałbym/chciałabym aby..."

Dość często przewijały się odpowiedzi chwalące nas za kreatywne podejście do nauki i dobrą atmosferę:

"Współpraca między studentami i prowadzącymi. Pobudzanie do kreatywnego myślenia."

"Podobał mi się stosunek prowadzących do studentów, choć nie zawsze tematy ćwiczeń były ciekawe."

"rzetelność prowadzących"

"Ć - praca na zasadzie samodzielnego rozwiązywania zadań, jednak ze stałym kontaktem z prowadzącym, w razie pojawiających się wątpliwości. L - bardzo ciekawe tematy projektów"

"nowe i otwarte podejście prowadzących do formy zajęć oraz do samych studentów"

"Miła atmosfera, komunikatywni prowadzący, bezstresowa nauka:D"

Był jednak także głos za klasyczną metodą uczenia:

"Chciałbym/chciałabym aby... wszystkie ćwiczenia wykonywane na odpowiednich zajęciach były wykonywane na tablicy pod kontrolą prowadzącego."

Kilka osób wskazało na wykłady jako za mało powiązane z ćwiczeniami i chaotyczne. Kwestia szerszego zakresu wykładów niż ćwiczeń była trudną ale świadomą decyzją od której już nie odejdziemy. Nie z każdego tematu w technologiach mowy da się zrobić ćwiczenia, większość zagadnień wymaga użycia komputerów i jest zbyt trudna aby ją wnikliwie przeanalizować w tak krótkich czasie. Postanowiliśmy więc po części zrobić przegląd technologii, tak aby absolwenci mieli świadomość ich istnienia. Praktyka jest taka, że aby nauczyć się dobrze algorytmów rozpoznawania mowy, trzeba osobiście dany algorytm zaimplementować, a to zajmuje bardzo dużo czasu.

"W - chaos w wykładach, nie do końca wiadomo co jest ważne, a co jest tylko ciekawostką, C - nie mam uwag, L - bardzo fajne"

"(ć) więcej zajęć związanych z przykładami zastosowań algorytmów prezentowanych na wykładach"

"Tematyka poszczególnych zajęć (wykład, laborki, ćwiczenia) powinny być ze sobą powiązane. Niestety, tematy były powyciągane z "

W tym roku zajęć z HTK było trochę więcej niż zwykle ze względu na wyjazd stażowy kolegi, co zostało słusznie zauważone:

"Mniej czasu na HTK"

Były także głosy o braku materiałów do nauki oraz relatywnie nie wysoka ocena liczbowa:

"Chciałbym/chciałabym aby... Prowadzący wskazali więcej materiałów dydaktycznych do kolokwium, ponieważ mieliśmy tylko i wyłącznie stare kolokwia i google."

To mnie trochę zaskoczyło, bo jest skrypt, z różnymi słabościami, ale jednak około 80% materiału z kolokwiów w nim jest - w jednej książce.

Ogólnie zostaliśmy bardzo docenieni z czego się cieszymy:

"super prowadzone, sympatyczni prowadzący, najlepsze zajęcia w tym semestrze, poproszę w następnym podobne tematy"

"Najlepsze zajęcia w toku studiów"

1 lut 2014

3402

Właśnie tyle wizyt odnotowała nasza strona dsp.agh.edu.pl w styczniu, co stanowi nowy rekord. Wspiera to ten blog na którym wpisujemy ciekawe dla studentów informacje znajdujące się na naszej witrynie.

31 sty 2014

Studenckie skojarzenia

Co studenci Inżynierii Akustycznej w AGH myślą o technologii mowy? Odpowiedź znajdziecie w studenckich mapach skojarzeń (PDF). Niektóre z nich są co najmniej zaskakujące! (JG)

27 sty 2014

Inż. Paweł Jaciów i Inż. Marcin Pasternak

Obaj Panowie obronili dzisiaj swoje projekty inżynierskie: Implementacja bazy wiedzy awatara głosowego oraz analiza przeprowadzonych z nim rozmów oraz Testy krzyżowe systemów identyfikacji mówcy. Ich opisy znajdują się na stronie zespołu http://www.dsp.agh.edu.pl/pl:dydaktyka:pracedyplomowe Gratulujemy!!!

25 sty 2014

Rejestracja PVC otwarta

Ceny rejestracji na XXII Pacific Voice Conference zostały upublicznione. Zniżkowe opłaty obowiązują do 14 marca. Wkrótce dalsze szczegóły, między innymi wstępny program. Zapraszamy.

17 sty 2014

O nas w Computer World

"Rozwiązania wykorzystujące biometrię głosu uproszczą weryfikację klienta realizowaną przez hasło lub kod PIN. Zwiększy to wygodę i bezpieczeństwo użytkownika oraz przyniesie oszczędności firmom, których działalność wymaga obsługi dużej liczby klientów, np. banków czy telekomów." - Więcej na: http://www.computerworld.pl/artykuly/394174_1/Po.glosie.mnie.poznacie.html

15 sty 2014

Rozszerzony korpus mowy AGH

Nasz korpus mowy został zwiększony do 18,5 godzin. W efekcie jest jednym z największych korpusów języka polskiego. Całość jest anotowana plikami mlf, w większości na słowa, fragmenty na fonemy, a inne na frazy. W niewielkiej części korpusu są dodatkowo zaznaczone oddechy.

11 sty 2014

Krótki film na w pół serio o alkomatach głosowych. Analiza głosu osób pod wpływem alkoholu była jednym z tematów Interspeech Challenge 2010. Udostępniono wówczas korpus rejestrowany w samochodach. Na konkurs zgłosiło się prawie 10 zespołów z różnymi propozycjami algorytmów.

28 lis 2014

14 lis 2014

28 paź 2014

23 paź 2014

19 paź 2014

30 wrz 2014

22 wrz 2014

17 wrz 2014

16 wrz 2014

1 wrz 2014

18 sie 2014

8 sie 2014

6 sie 2014

5 sie 2014

23 lip 2014

11 lip 2014

6 lip 2014

27 cze 2014

24 cze 2014

21 cze 2014

20 cze 2014

17 cze 2014

4 cze 2014

31 maj 2014

27 maj 2014

1 maj 2014

30 kwi 2014

29 kwi 2014

28 kwi 2014

25 kwi 2014

21 kwi 2014

17 kwi 2014

15 kwi 2014

14 kwi 2014

13 kwi 2014

9 kwi 2014

4 kwi 2014

2 kwi 2014

1 kwi 2014

31 mar 2014

27 mar 2014

18 mar 2014

16 mar 2014

15 mar 2014

8 mar 2014

5 mar 2014

4 mar 2014

3 mar 2014

20 lut 2014

14 lut 2014

11 lut 2014

3 lut 2014

2 lut 2014

1 lut 2014

31 sty 2014

27 sty 2014

25 sty 2014

17 sty 2014

15 sty 2014

11 sty 2014

Szukaj na tym blogu

Translate

Archiwum bloga

Obserwatorzy

Łączna liczba wyświetleń