google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
Pokazywanie postów oznaczonych etykietą mowa telefoniczna. Pokaż wszystkie posty
Pokazywanie postów oznaczonych etykietą mowa telefoniczna. Pokaż wszystkie posty

2 mar 2015

Inż. Jerzy Wolf

W dniu dzisiejszym swoją bardzo ciekawą pracę dyplomową "Testowanie odporności systemu
weryfikacji mówcy na aktorską modulację głosową" obronił Jerzy Wolf. Gratulujemy, a o jego próbach włamań radzimy poczytać.

"Przedmiotem niniejszej pracy jest zbadanie zagadnienia naśladowania głosu innej osoby i przetestowanie odporności systemu weryfikacji mowy Voice Color firmy Techmo na tego typu ataki.Na potrzeby pracy użyto dwóch typów nagrań mówców oryginalnych i nagrań naśladowczych. Pierwszy typ nagrań składał się z nagrań ochotników, którzy zgodzili się użyczyć swojego głosu na potrzeby testów systemu weryfikacji mówcy. W tym przypadku osobą próbującą naśladować mówców oryginalnych jest autor pracy (dalej: naśladowca), co umożliwiło dokładniejsze opisanie wyzwań i problemów związanych z tego typu próbą oszukania systemu. Drugim typem plików dźwiękowych, których użyto do przetestowania systemu, były nagrania zawodowego aktora głosowego specjalizującego się w naśladownictwie, Jamesa Arnolda Taylora (dalej: aktor), który dostarczył swoje próby naśladowania pięciu innych znanych aktorów razem z nagraniami oryginalnymi, na których się wzorował.Scenariusz badania zakładał próby oszukania systemu poprzez skuteczne zalogowanie się naśladowców na cudze konto zabezpieczone wygenerowanym wcześniej na podstawie nagrań oryginalnych modelem mówcy. Dla zachowania autentyczności warunków testu próbki głosu mówców oryginalnych i naśladowców zrealizowane zostały podczas autentycznych rozmów telefonicznych."

www.dsp.agh.edu.pl

23 lip 2014

Mgr inż. Piotr Żelasko

Jako pierwszy na swoim roku obronił się dzisiaj Piotr Żelasko. Jego praca "Rozpoznawanie mowy w telefonii" została oceniona na 5.0.

"Centrum zainteresowań mojej pracy stanowi problem nauczenia systemu rozpoznawania mowy radzenia sobie z obecnością oddechów i pauz wypełnionych. W szczególności, zajmę się:
-  stworzeniem prostego, pokazowego systemu dialogowego z modułem rozpoznawania mowy opartym na systemie Sarmata [Ziółko et al., 2011];
- przygotowaniem korpusu zawierającego oddechy i pauzy wypełnione wyekstrahowane ze spontanicznej mowy ciągłej;
- opracowaniem rozwiązania, które pozwoli systemowi rozpoznawania mowy osiągnąć lepsze rezultaty podczas rozpoznawania mowy, w której znajdują się wyraźne oddechy i pauzy wypełnione.

W pierwszej kolejności omówię strukturę transferu danych pomiędzy urządzeniem klienta a centralą systemu dialogowego oraz przedstawię przygotowany przeze mnie scenariusz przykładowego systemu dialogowego. Następnie opiszę krótko najważniejsze cechy systemu rozpoznawania mowy i przykładowy sposób połączenia go z systemem dialogowym. Pozostałą część pracy poświęcę na szczegółowy opis oddechów i pauz wypełnionych oraz na przedstawienie mojej metody uwzględnienia ich w modelu wypowiedzi, wraz z wynikami testów."

www.dsp.agh.edu.pl

27 maj 2014

Skype będzie tłumaczył rozmowy w czasie rzeczywistym.

Skype, już od dawna ułatwia ludziom komunikację na odległość za pomocą wideo, głosu i czatu. Teraz Microsoft pragnie zwiększyć możliwości Skype'a, testując nową funkcjonalność, umożliwiającą ludziom, którzy nie posługują się wspólnym językiem, prowadzenie ze sobą rozmów.

W dniu dzisiejszym, na pierwszej edycji CODE Conference, Microsoft zaprezentował nową technologię tłumaczeń speech-to-speech (mowa-mowa), którą ma zamiar zaimplementować w przyszłych wersjach Skype'a, co ma pozwolić na przekład mowy z jednego języka na drugi niemal w czasie rzeczywistym.

W ramach prezentacji pokazano m.in., tłumaczenie z angielskiego na niemiecki w postaci zarówno pisemnej transkrypcji jak i audio - oraz w drugą stronę, z niemieckiego na angielski.

Przesłaniem płynącym od twórców tej technologii  jest "Zbliżanie ze sobą ludzi i niwelowanie dzielących ich różnic". Wszystko zaczęło się od przełamania monopolu tradycyjnych sieci telekomunikacyjnych na rozmowy międzynarodowe i wprowadzenie obsługi wideo. Teraz czas na przełamanie bariery językowej.

Opisywana funkcjonalnośc jest rezultatem ścisłej współpracy pomiędzy działami odpowiedzialnymi za Skype, Bing i Microsoft Research Lab (laboratorium badań Microsoftu), które już od dawna pracują nad zagadnieniami przetwarzania ludzkiej mowy i uczenia maszynowego. Nowe rozwiązania z podobnych technologii, co Cortana - osobisty asystent posiadaczy urządzeń z systemem Windows 8.1.

www.dsp.agh.edu.pl