tag:blogger.com,1999:blog-55708012895833927992023-03-21T04:43:39.307+01:00Rozpoznawanie MowyPopularnonaukowy blog akademicki na temat innowacji w dziedzinie komunikacji człowieka z komputeremUnknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.comBlogger413125tag:blogger.com,1999:blog-5570801289583392799.post-2621000242512004882016-06-19T21:02:00.002+02:002016-06-19T21:03:02.107+02:00Smartfony mają zniknąć za 5 lat ?<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
... i to głównie przez niechęć do ekranów i zużywanej przez nie energii. Tak wskazuje ankieta przeprowadzona przez Ericssona na 100 00 osób: <a href="http://www.cnbc.com/2015/12/09/people-think-the-smartphone-will-be-dead-in-5-years-ericsson.html">http://www.cnbc.com/2015/12/09/people-think-the-smartphone-will-be-dead-in-5-years-ericsson.html</a></div>
<div style="text-align: justify;">
<br /></div>
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-24120097558468045622016-03-15T10:12:00.000+01:002016-03-15T10:12:43.860+01:00Google zrobił ASR na RNN offline na smartfonachGoogle opublikowało badania z których wynika, że na Nexusie 5 ASR działa w ok. 7x czasu rzeczywistego przy zużyciu łącznie 20 MB pamięci, i w trybie dyktowania (open dictation task) WER pogarsza się jedynie z 11% do 13% w stosunku do wersji online na serwerze.
<a href="http://research.google.com/pubs/pub44631.html
">http://research.google.com/pubs/pub44631.html</a>
<a href="http://dsp.agh.edu.pl">www.dsp.agh.edu.pl</a>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-5616082723454615622015-09-18T07:16:00.001+02:002015-09-18T07:16:10.094+02:00Telesprzedaż na czele listy zawodów które zostaną całkowicie zautomatyzowane<div dir="ltr" style="text-align: left;" trbidi="on">
<blockquote class="tr_bq">
<i>"BBC, naukowcy z Uniwersytetu Oksfordzkiego i firma Deloitte opracowali listę 365 zawodów i poddali je ocenie, w jakim stopniu są zagrożone ryzykiem automatyzacji i cyfryzacji. Według raportu w Wielkiej Brytanii w ciągu najbliższych dwóch dekad zniknie 35 proc. zawodów.<br />Największe ryzyko utraty pracy dotyczy osób zatrudnionych w telesprzedaży. Szansa na to, że zawód ten zostanie zautomatyzowany w ciągu najbliższych dwóch dekad, wynoszą aż 99 proc."</i></blockquote>
<br />
Więcej w <a href="http://wyborcza.pl/1,75400,18842921,czy-twoj-zawod-zniknie-bo-zastapi-cie-robot.html">Wyborczej</a><br />
<br />
<br /></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-9372372820279011912015-08-30T23:12:00.003+02:002015-08-30T23:22:01.484+02:00LTC 2015<div dir="ltr" style="text-align: left;" trbidi="on">
<br />
Już za kilkanaście dni mija termin zgłaszania artykułów na świetnej konferencji w Poznaniu. Poniżej szczegóły - polecam.<br />
<br />
The 7th Language and Technology Conference (LTC 2015), November 27-29, 2015, Poznań, Poland<br />
<br />
CALL FOR PAPERS – reminder<br />
<br />
Dear Colleagues,<br />
We hope that you have already noticed that the 7th LTC is going to be organized this year. We will be happy for your submission to this conference and therefore we permit ourselves to remind you that the deadline for paper submissions has been fixed to September 10, 2015. Submission through EasyChair is already operational.<br />
<br />
Some of crucial facts about LTC 2015 follows. Much more at www.ltc.amu.edu.pl.<br />
<br />
LANGUAGE: The conference language is English<br />
<br />
IMPORTANT DATES/DEADLINES<br />
* Deadline for submission of papers for review: September 10, 2015<br />
* Acceptance/Rejection notification: October 1, 2015<br />
* Deadline for submission of final versions of accepted papers: October 15, 2015<br />
* Conference: November 27-29, 2015<br />
<br />
CONTACT: ltc15@amu.edu.pl or vetulani@amu.edu.pl<br />
<br />
PAPER SUBMISSION<br />
The conference accepts papers in English. Papers (5 formatted pages in the conference format) are due by September 10, 2015 (midnight, any time zone) and should not disclose the author(s) in any manner. In order to facilitate submission we have decided to reduce the formatting requirements as much as possible at this stage. Please, have a look at www.ltc.amu.edu.pl (Paper Submission section).<br />
<br />
All submissions are to be made electronically via the LTC 2015 web<br />
submission system (EasyChair). Acceptance/rejection notification will be sent by October 1, 2015. The Word template (ELRA/LREC based format) is available from http://www.ltc.amu.edu.pl (see Paper Submission section).<br />
<br />
PUBLICATION POLICY<br />
Acceptance will be based on the reviewers' assessments (anonymous submission model). The accepted papers will be published in the conference proceedings (hard copy, with ISBN number) and on CD-ROM. The abstracts of the accepted contributions will also be made available via the conference page (during its lifetime). Publication requires full electronic registration and payment of the conference fee (full registration) by at least one co-authors in the due time (dates will be presented soon at the conference site). One registration fee entitles publication of one paper.<br />
<br />
A post-conference volume with extended versions of selected papers is planned to be published. As this was the case for the last three conferences, we intend to publish them in the Springer series Lecture Notes in Artificial Intelligence.<br />
<br />
REGISTRATION<br />
Only electronic registration will be possible. Details will be published at www.ltc.amu.edu.pl.<br />
<br />
AWARDS FOR BEST STUDENT PAPERS<br />
As at the 2nd, 3rd, 4th, 5th and 6th Language and Technology Conferences (2005, 2007, 2009, 2011, 2013) special awards will be granted to the best student papers. The regular or PhD students (on the date of paper submission) are concerned. More details will be provided at www.ltc.amu.edu.pl. </div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-65222236652459218102015-07-22T10:00:00.001+02:002015-07-22T10:00:36.024+02:00O Techmo na III Zlocie Top 500 Innovators<div dir="ltr" style="text-align: left;" trbidi="on">
<iframe allowfullscreen="" frameborder="0" height="270" src="https://www.youtube.com/embed/_kIBMehPNQo" width="480"></iframe><br />
<br />
www.dsp.agh.edu.pl</div>Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-64294590074125229812015-07-07T23:59:00.000+02:002015-07-07T23:59:10.267+02:00Oferta pracy w Canterbury<div dir="ltr" style="text-align: left;" trbidi="on">
University of Kent - bardzo dobra uczelnia i bardzo ładne miasto - polecam.<br />
<br />
<a href="https://jobs.kent.ac.uk/fe/tpl_kent01.asp?s=4A515F4E5A565B1A&jobid=39293,3436347277&key=44012873&c=493414763421&pagestamp=sesdyyyrqxijqwrrmd">https://jobs.kent.ac.uk/fe/tpl_kent01.asp?s=4A515F4E5A565B1A&jobid=39293,3436347277&key=44012873&c=493414763421&pagestamp=sesdyyyrqxijqwrrmd</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-72418058513646188392015-06-18T01:32:00.001+02:002015-06-18T01:32:22.429+02:00FedCSIS<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Nasz artykuł "COMPARISON OF LANGUAGE MODELS TRAINED ON WRITTEN TEXTS AND SPEECH TRANSCRIPTS IN THE CONTEXT OF AUTOMATIC SPEECH RECOGNITION" został przyjęty na konferencję <a href="https://fedcsis.org/">FedCSIS</a>. Praca opisuje nasze eksperymenty statystyczne nad różnicami w stosowaniu transkrypcji mowy i innych tekstów do modelowania języka przy rozpoznawaniu mowy.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
We investigate whether language models used in automatic speech recognition (ASR) should be trained on speech transcripts rather than on written texts. By calculating log-likelihood statistic for part-of-speech (POS) n-grams, we show that there are significant differences between written texts and speech transcripts. We also test the performance of language models trained on speech transcripts and written texts in ASR and show that using the former results in greater word error reduction rates (WERR), even if the model is trained on much smaller corpora. For our experiments we used the manually labeled one million subcorpus of the National Corpus of Polish and an HTK acoustic model.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
<br /></div>
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-65222311899156154782015-06-10T14:42:00.002+02:002015-06-10T14:42:37.244+02:00Detecting Recorded Speech for Polish Language<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Nasz artykuł o wykrywaniu automatycznych sekretarek został przyjęty na konferencję IEEE Africon. Artykuł ocenia trzy metody które mają zastosowanie do wspomnianego zadania. Testy zostały przeprowadzone ze względu na zainteresowanie zastosowaniami tego typu oprogramowania. Może ono służyć do obniżenia kosztów prowadzenia działalności polegającego na wydzwanianiu do klientów poprzez unikanie sytuacji w której automat rozmawia z automatem.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
"Three possible methods of detecting recorded speech were analysed and tested according to their applicability in the field of voicemail detection in this paper. Methods chosen for testing were: transmission channel characteristics extraction with PFCC, recorded speech detection with trained pattern classifier, differences in transmission channels and speech recognition. Most of the tests gave results credible enough to confirm methods’ usefulness in the field of voicemail detection. Suggestions of implementation possibilities and parameters of each method and possible trends of further studies were also included."</div>
<div>
<br /></div>
<br />
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-1038330761463367262015-06-08T15:48:00.005+02:002015-06-08T15:49:37.397+02:00Interspeech 2015<div dir="ltr" style="text-align: left;" trbidi="on">
Dwa nasze artykuły dostały się na sesję Show&Tell tegorocznego Interspeecha! Cieszymy się bardzo ze względu na to wyróżnienie. Pierwsza praca i demo będą dotyczyły systemu rozpoznawania mowy SARMATA, a drugie stanowiska do wsparcia rozpoznawaniem mówcy telefonu alarmowego.<br />
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-32762092206892360672015-05-20T13:44:00.000+02:002015-05-20T13:44:50.179+02:00Polska nauka niedoinwestowana? <div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Chyba nie... chciałbym przedstawić przykład. Trochę się zajmowałem kiedyś na prośbę Biura Rektora AGH analizą tego jak działają wyszukiwarki publikacji takie jak Thomson Retuers Web of Science czy Scopus. Znalazłem wtedy dokument porównujący te dwa produkty. W jego podsumowaniu napisano, że są dość podobne więc mało które uczelnie stać na wykupywanie dostępu do obu. To była perspektywa amerykańskich uczelni... W Polsce z tego co się orientuję, wszystkie uczelnie mają wykupiony dostęp do obu. Jestem teraz w Japonii i tutaj też bieda, jak w Ameryce ;). Na Hokkaido University był dostęp do Wos, a nie było do Scopusu, a na Kitami Institute of Technology nie ma do WoS, a jest do Scopusa. Więc wniosek z tego chyba taki że to nie brak pieniędzy jest problemem polskiej nauki tylko coś innego ... Takie drobne przemyślenia mnie naszły wieczorem ...</div>
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-7086148532164595952015-05-12T08:39:00.000+02:002015-05-12T09:20:07.458+02:00Wizyta w Araki Lab na Hokkaido University<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Jestem właśnie w trakcie wizyty w<a href="http://arakilab.media.eng.hokudai.ac.jp/Araki_Lab/about_E.html"> laboratorium prof. Araki</a>ego specjalizującego się w przetwarzaniu języka naturalnego. Prezentowałem tutaj zakres działalności zespołu <a href="http://www.dsp.agh.edu.pl/">DSP AGH</a>, a zwłaszcza zgłoszenie patentowe o zastosowaniu dynamicznych sieci Bayesa w rozpoznawaniu mowy. Obecnie zapoznaję się ze szczegółami działalności ArakiLab i całego Hokkaido University (Hokudai).</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Uniwersytet konkuruje o miano najstarszej uczelni japońskiej z Uniwersytetem w Tokio. Ma także jeden z dwóch największych kampusów w Japonii, a w 2010 roku pracujący tu prof. Suzuki otrzymał nagrodę Nobla z chemii.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Ponad dwudziestoosobowy zespół prof. Araki zajmuje się wieloma ciekawymi tematami z zakresy przetwarzania języka naturalnego, np. automatyczną analizą humoru czy nauką wiedzy podstawowej i etyki przez komputery na podstawie analizy tekstów. Wiodącą wizją prof. Araki są roboty które będą w idealny sposób naśladować ludzi i wraz ze swoimi pracownikami bardzo skutecznie i konsekwentnie tą wizję realizuje z punktu widzenia sztucznej inteligencji.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Bardzo ciekawym doświadczeniem dla mnie jest także sposób organizacji pracy w zespole prof. Arakiego. O tym jednak muszę nauczyć się jeszcze więcej, aby opisać te metody dokładniej.</div>
<br />
<div class="separator" style="clear: both; text-align: center;">
<a href="http://3.bp.blogspot.com/-lXni6ypRKWo/VVGb0m10TyI/AAAAAAAAAvc/ZNRB1THCNpE/s1600/image2.JPG" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" height="202" src="http://3.bp.blogspot.com/-lXni6ypRKWo/VVGb0m10TyI/AAAAAAAAAvc/ZNRB1THCNpE/s400/image2.JPG" width="400" /></a></div>
<br />
<br />
<br /></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-91349526863185874142015-05-09T03:00:00.001+02:002015-05-09T03:02:30.879+02:00Artykuł w Language Resources and Evaluation<div dir="ltr" style="text-align: left;" trbidi="on">
Nasz artykuł o korpusie mowy został udostępniony przez wydawcę w internecie: <a href="http://link.springer.com/article/10.1007/s10579-015-9302-y?wt_mc=event.ArticleAuthor.OnlineFirst">http://link.springer.com/article/10.1007/s10579-015-9302-y?wt_mc=event.ArticleAuthor.OnlineFirst</a> Ostatnie miesiące przyniosły jednak spore zmiany w korpusie i składa się on teraz z nagrań blisko 700 osób i około 60 godzin.<br />
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-58371950060412962372015-05-04T14:57:00.002+02:002015-05-04T14:57:28.261+02:00CYBCONF - 2nd IEEE International Conference on Cybernetics<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Nasz artykuł "Linguistically motivated tied-state triphones for Polish speech recognition" został przyjęty na konferencję <a href="http://cybconf2015.am.gdynia.pl/">CYBCONF</a>, która odbędzie się w czerwcu w Gdyni. Praca opisuje nasze podejście do budowania modelu trifonowego w oparciu o zastosowanie klas kontekstowych wyprowadzonych z podziału fonemów na kategorie fonetyczne. Podejście takie umożliwia wykonanie modelu trifonowego bez dużej ilości nagrań i bez znaczących problemów obliczeniowych. Model taki daje jednak wyniki rozpoznania średnio o ponad 1 % lepsze od monofonowego.</div>
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-77341478982104227042015-04-24T09:01:00.001+02:002015-04-24T09:01:26.511+02:00Wykład w Sapporo i Kitami<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Bartosz Ziółko wygłosi wykłady o działalności Zespołu i o zgłoszeniu patentowym „System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli sieci Bayesa” na Hokkaido University w Sapporo 11 maja i Kitami Institute of Technology 19 maja.</div>
<br />
<div class="separator" style="clear: both; text-align: center;">
<a href="http://dsp.agh.edu.pl/_media/pl:poster_ziolko_corrected_mini.jpg?cache=" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="http://dsp.agh.edu.pl/_media/pl:poster_ziolko_corrected_mini.jpg?cache=" height="400" width="281" /></a></div>
<br />
<br />
www.dsp.agh.edu.pl</div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-1920085737024516062015-04-23T11:41:00.002+02:002015-04-23T11:41:37.508+02:00Disney pracuje nad syntezą dialogów do filmów<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Tak naprawdę to nie do końca syntezą, ale prawie. Chcą wykonywać nowe nagrania na podstawie istniejących. My planujemy pracę nad czymś podobnym ale do gier i z uwzględnieniem dodatkowych możliwości zmian. Szczegóły o pracach Disneya na <a href="http://www.speechtechmag.com/Articles/News/Speech-Technology-Digest/Disney-Creates-Method-Enabling-Dialogue-Replacement-for-Automated-Video-Redubbing-103424.aspx">SpeechTechMag</a>.</div>
<br />
<br /></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-90810504920203362382015-04-20T17:22:00.004+02:002015-04-20T17:22:51.931+02:00Korpus mowy AGH<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Nasz artykuł P. Żelasko, B. Ziółko, T. Jadczyk, D. Skurzok "AGH Corpus of Polish Speech" został przyjęty do druku w Language Resources and Evaluation (IF = 0.922). Artykuł opisuje zawartość korpusu, specyfikę języka polskiego pod kątem przetwarzania mowy oraz proces powstawiania korpusu. Artykuł przechodził długi proces recenzji, tak więc najświeższe dane o korpusie znajdują się poniżej.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Korpus zawiera blisko 55 godzin anotowanych nagrań (część nagrań na poziomie fonemów, część wyrazów, a część całych fraz), plus około pół godziny nagrań testowych bez anotacji czasowych. W korpusie są mówcy, których nagrania trwają ponad godzinę. Reszta to mówcy których nagrania trwają po kilka lub kilkanaście minut. W sumie korpus zawiera nagrania około 600 osób. W korpusie jest niewielka przewaga głosów męskich i dość znacząca osób w wieku 20-30 lat. Nagrania rejestrowano w różnych warunkach i na różnym sprzęcie (w tym nagrania telefoniczne). Wszystkie są przechowywane w standardzie 16 bit i 16 [kHz].</div>
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-4183413085755692652015-03-30T10:15:00.001+02:002015-03-30T10:16:20.293+02:00AudioSlides do artykułu o ocenie segmentacji audio<div dir="ltr" style="text-align: left;" trbidi="on">
<iframe
marginheight="0"
marginwidth="0"
frameborder="0"
style="border: 0"
scrolling="no"
width="258"
height="231"
src="http://audioslides.elsevier.com//ViewerSmall.aspx?source=1&doi=10.1016/j.fss.2015.03.006">
</iframe>
<br />
<div dir="ltr" style="text-align: left;" trbidi="on">
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
</div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-70408167930416923862015-03-17T15:10:00.000+01:002015-03-17T15:50:25.089+01:00Przekleństwa w polskim języku<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Analiza statystyczna anotacji Narodowego Korpusu Języka Polskiego ($ grep -rn . -e "kurw" | wc -l) pokazała, że w 2.5% wypowiedzi występują pojęcia powszechnie znane jako nacechowane semantycznie przecinki.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
np:"</div>
<div style="text-align: justify;">
ja ostatnio jechałam do szkoły na siódmą trzydzieści wiecie co? obudziłam się o trzeciej rano i mówię tak kurwa napierdala mnie tak nie wstanę nie mówię na czworakach w ogóle tak mnie głowa bola że nie mogłam głową ruszać bo wypiliśmy chyba ze trzy butelki wina</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Michał mi się z rzygał na świeżo kupiony dywan i dwa razy na poduszkę spał w kiblu mój tata na czworakach zapierdalał po domu żeby dostać się do łóżka nigdy nie widziałam mojego ojca tak pijanego"</div>
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-77709688165458469152015-03-11T09:52:00.002+01:002015-03-14T20:53:34.876+01:00Fuzzy Precision and Recall Measures for Audio Signals Segmentation<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Artykuł B. Ziółko „<a href="http://www.sciencedirect.com/science/article/pii/S016501141500130X">Fuzzy Precision and Recall Measures for Audio Signals Segmentation</a>” został przyjęty do czasopisma Fuzzy Sets and Systems (5-years Impact Factor 2.263).</div>
<br />
<div style="text-align: justify;">
The approach presented in this paper applies fuzzy set theory to the evaluation of audio signals segmentation with high resolution and accuracy. The method is based on comparing automatically found boundaries with ground truth. Hence, the method is more accurate and able to grasp the evaluation problem in a way more similar to the evaluation conducted by a human being. Traditional methods often fail on grading segmentation algorithms, particularly those of relatively similar qualities.</div>
<div style="text-align: justify;">
We define a fuzzy membership function that measures the degree to which the segments obtained by an automatic procedure are similar to the results of a correct segmentation. To identify a pair of equivalent segments, we set a fuzzy alignment function that points the pairs of segments obtained by an automatic segmentation with the corresponding segments from a correct segmentation. Speech segmentation is an example where the presented approach was applied.</div>
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-61839536842619689562015-03-02T17:20:00.002+01:002015-03-02T17:20:51.151+01:00Inż. Jerzy Wolf<div dir="ltr" style="text-align: left;" trbidi="on">
W dniu dzisiejszym swoją bardzo ciekawą pracę dyplomową "<a href="http://www.dsp.agh.edu.pl/_media/pl:dydaktyka:jerzy_wolf_-_241201_-_praca_inzynierska.pdf">Testowanie odporności systemu</a><br />
<a href="http://www.dsp.agh.edu.pl/_media/pl:dydaktyka:jerzy_wolf_-_241201_-_praca_inzynierska.pdf">weryfikacji mówcy na aktorską modulację głosową</a>" obronił Jerzy Wolf. Gratulujemy, a o jego próbach włamań radzimy poczytać.<br />
<br />
<blockquote class="tr_bq" style="text-align: justify;">
<i>"Przedmiotem niniejszej pracy jest zbadanie zagadnienia naśladowania głosu innej osoby i przetestowanie odporności systemu weryfikacji mowy Voice Color firmy Techmo na tego typu ataki.</i><i>Na potrzeby pracy użyto dwóch typów nagrań mówców oryginalnych i nagrań naśladowczych. Pierwszy typ nagrań składał się z nagrań ochotników, którzy zgodzili się użyczyć swojego głosu na potrzeby testów systemu weryfikacji mówcy. W tym przypadku osobą próbującą naśladować mówców oryginalnych jest autor pracy (dalej: naśladowca), co umożliwiło dokładniejsze opisanie wyzwań i problemów związanych z tego typu próbą oszukania systemu. Drugim typem plików dźwiękowych, których użyto do przetestowania systemu, były nagrania zawodowego aktora głosowego specjalizującego się w naśladownictwie, Jamesa Arnolda Taylora (dalej: aktor), który dostarczył swoje próby naśladowania pięciu innych znanych aktorów razem z nagraniami oryginalnymi, na których się wzorował.</i><i>Scenariusz badania zakładał próby oszukania systemu poprzez skuteczne zalogowanie się naśladowców na cudze konto zabezpieczone wygenerowanym wcześniej na podstawie nagrań oryginalnych modelem mówcy. Dla zachowania autentyczności warunków testu próbki głosu mówców oryginalnych i naśladowców zrealizowane zostały podczas autentycznych rozmów telefonicznych."</i></blockquote>
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-64135556921769568802015-02-24T00:42:00.001+01:002015-02-24T00:44:25.013+01:00Dyplom MNiSW<div dir="ltr" style="text-align: left;" trbidi="on">
Nasz zespół otrzymał na targach w Centrum Nauki Kopernik dyplomy od Ministra Nauki i Szkolnictw Wyższego za projekty Voice Color i RAYAV.<br />
<br />
<div class="separator" style="clear: both; text-align: center;">
<a href="http://2.bp.blogspot.com/-hTRLQvS5BTY/VOu6zbxWQ6I/AAAAAAAAAtk/A-HW5BLiOJ4/s1600/luty%2B003.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="http://2.bp.blogspot.com/-hTRLQvS5BTY/VOu6zbxWQ6I/AAAAAAAAAtk/A-HW5BLiOJ4/s1600/luty%2B003.jpg" height="400" width="290" /></a></div>
<br />
<div class="separator" style="clear: both; text-align: center;">
<a href="http://2.bp.blogspot.com/-Ic5P_2wWcZw/VOu6zuYz9TI/AAAAAAAAAto/_hE7-zAaxiI/s1600/luty%2B004.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="http://2.bp.blogspot.com/-Ic5P_2wWcZw/VOu6zuYz9TI/AAAAAAAAAto/_hE7-zAaxiI/s1600/luty%2B004.jpg" height="400" width="290" /></a></div>
<br />
<div class="separator" style="clear: both; text-align: center;">
<a href="http://2.bp.blogspot.com/-DSb_lflIKq8/VOu6zsE-C7I/AAAAAAAAAtw/UpiVXMTwHHE/s1600/Warszawa2015luty%2B027.jpg" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="http://2.bp.blogspot.com/-DSb_lflIKq8/VOu6zsE-C7I/AAAAAAAAAtw/UpiVXMTwHHE/s1600/Warszawa2015luty%2B027.jpg" height="266" width="400" /></a></div>
<br />
<br />
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-37942431851710137642015-02-14T11:00:00.000+01:002015-04-13T21:24:05.847+02:00Bank na każde zawołanie<div dir="ltr" style="text-align: left;" trbidi="on">
Bezpieczne hasło, którego nie da się zgubić ani zapomnieć brzmi nierealnie? To możliwe, a odpowiedzą na powyższe pytanie jest biometria.<br />
<br />
Bank Smart właśnie ogłosił wprowadzenie zabezpieczeń biometrycznych, takich jak logowanie hasłem głosowym. Choć na razie dzięki wypowiedzeniu magicznej, wydawałoby się, formułki "Zaloguj mnie do Banku Smart" jesteśmy w stanie dostać się tylko do aplikacji pozwalającej na korzystanie z usług mobilnych, to już teraz jest to jedyna taka usługa w całej Polsce i zarazem pierwsza w Europie.<br />
<br />
- <i>Na razie głos służy jedynie przy logowaniu do bankowości mobilnej. Nie jest on wykorzystywany do autoryzacji przelewu. To musimy zrobić jeszcze ręcznie </i>- mówi w wywiadzie dla <a href="http://money.pl/">Money.pl </a>Małgorzata Halaba z Banku Smart.<br />
<br />
Stanowi to jednak naturalne uzupełnienie wcześniejszej funkcjonalności, jaką jest głosowa nawigacja po opcjach i funkcjach konta. Kilka słów, takich jak: "<i>przelew, babcia, sto złotych</i>" wystarcza do przeprowadzenia transakcji.<br />
<br />
Biometria w bankowości jest już wykorzystywana od lat, ale do tej pory sprowadzała się najczęściej do wykorzystywania odcisków palców. Te jednak, podobnie jak inne dotychczas stosowane zabezpieczenia, były zabezpieczeniem fizycznym - wymagającym obecności na miejscu ich weryfikowania. W wypadku ludzkiego głosu, ta trudność nie występuje. Przedstawiciele Banku Smart właśnie to uważają za istotę mobilności i bezpieczeństwa:<br />
<br />
"<i>Na brzmienie Twojego głosu wpływa rozmiar, kształt i grubość strun głosowych, a oprócz tego również narządy mowy takie jak usta, gardło lub nos. Szansa, by wszystkie te cechy były identyczne u dwóch różnych osób jest niemal zerowa. W Banku SMART dodatkowo analizujemy również Twój styl wypowiedzi – akcenty, czy wypowiadanie głosek. Nie musisz się obawiać, że ktoś nagra Twoją wypowiedź a następnie zaloguje się na konto – system rozpoznaje takie przypadki i od razu uniemożliwia logowanie się do banku.</i>"<br />
<br />
Bank Smart reklamuje się jako pierwszy prawdziwie mobilny bank w Polsce. Tym samym korzysta z dziedzictwa mBanku, który z kolei reklamował się jako pierwszy bank prawdziwie internetowy - co w żaden sposób nie zaskakuje, gdy przyjrzymy się dokładniej osobie Sławomira Lachowskiego - który stoi za oboma tymi przedsięwzięciami.<br />
<div>
<br /></div>
<br />
www.dsp.agh.edu.pl
</div>
Anonymoushttp://www.blogger.com/profile/14563773260076394879noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-53852996664099958752015-02-11T20:27:00.004+01:002015-02-11T20:27:35.358+01:00Telewizory gromadzą korpusy mowy<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Polskie Radio donosi o ciekawych oświadczeniach Samsunga na temat ich Smart TV. Podobno firma rozbudowuje swój korpus rejestrując to co się mówi przy telewizorach z funkcją rozpoznawania mowy. Ja się temu nie dziwię, ale to się chyba nie przyjmie społecznie ;)</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Więcej na <a href="http://www.polskieradio.pl/23/3/Artykul/1373872">http://www.polskieradio.pl/23/3/Artykul/1373872</a></div>
</div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-16995293632240998362015-02-02T21:16:00.001+01:002015-02-02T21:16:06.463+01:00Co Polacy sądzą o biometrii<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
Bardzo ciekawy artykuł o podejściu Polaków do biometrii głosowej ukazał się w Dzienniku Internautów.</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
"Ostatnio otrzymaliśmy np. analizę postaw Polaków wobec stosowanych obecnie metod uwierzytelniania ze szczególnym naciskiem na weryfikację głosową. Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia."</div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
"Z badania tego wynika, że blisko połowa respondentów (47%) czuje się zmęczona liczbą haseł dostępu, kodów i PIN-ów, które trzeba zapamiętać. 46% denerwuje się, kiedy system wymusza tworzenie skomplikowanych haseł. 27% twierdzi, że nie lubi tokenów, ponieważ łatwo je zgubić."</div>
<div style="text-align: justify;">
<br /></div>
<div class="separator" style="clear: both; text-align: center;">
<a href="http://di.com.pl/pic/photo/oryginal/wykres1_1422120782.png" imageanchor="1" style="margin-left: 1em; margin-right: 1em;"><img border="0" src="http://di.com.pl/pic/photo/oryginal/wykres1_1422120782.png" height="215" width="400" /></a></div>
<div style="text-align: justify;">
<br /></div>
<div style="text-align: justify;">
Więcej na <a href="http://di.com.pl/news/51365,0,Czas_na_haslo_glosowe_Eksperci_sa_sceptyczni-Anna_Wasilewska-Spioch.html?utm_source=FreshMail&utm_medium=email&utm_campaign=fm_NL%2002.02.2015">di.com.pl</a></div>
</div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com0tag:blogger.com,1999:blog-5570801289583392799.post-16685238427262678802015-02-02T10:22:00.001+01:002015-02-02T10:26:24.038+01:00Inż. Robert Dyjas<div dir="ltr" style="text-align: left;" trbidi="on">
<div style="text-align: justify;">
W miniony czwartek <a href="http://www.dsp.agh.edu.pl/_media/pl:dydaktyka:praca_inzynierska.pdf">Robert Dyjas</a> obronił bardzo dobrą pracę inżynierską polegającą na znaczącym rozwinięciu naszego <a href="http://www.dsp.agh.edu.pl/pl:resources:korpusmowy">korpusu mowy</a> (o 111 mówców). Dane są dla nas tym istotniejsze, że są realnymi nagraniami telefonicznymi ukierunkowanymi tematycznie na treść najistotniejsza z punktu widzenia wdrożeń <a href="http://dsp.agh.edu.pl/sarmata/">Sarmaty</a>. Gratulujemy i dziękujemy za współpracę!!!</div>
<div style="text-align: justify;">
<br /></div>
<a href="http://www.dsp.agh.edu.pl/">www.dsp.agh.edu.pl</a></div>
Unknownhttp://www.blogger.com/profile/04770371536373125913noreply@blogger.com1