Rozpoznawanie Mowy: 2009

31 gru 2009

Toshiba: tłumacz w telefonach komórkowych

"Firma zaprojektowała trójjęzyczny system tłumaczący z rozpoznawaniem i syntezą mowy, który jest wystarczająco mały, aby zmieścić się w telefonie komórkowym."

więcej na networld.pl

28 gru 2009

Dostępność kamer internetowych

"Od dłuższego czasu przeczesuję niemal każdy zakątek sieci, żeby znaleźć informacje na temat tego, ile osób posiada kamery internetowe. Jedyne dane, do jakich udało mi się dotrzeć informują, że w 2006r. osób takich było 9% (Mintel report) a w 2007r. około 13% (raport Logitech. Ten brak informacji zmobilizował mnie do przeprowadzenia własnych badań. Po napisaniu prostego skryptu AS3, umieściliśmy go na kilku hostowanych przez Netizens stronach i przez 24h zbieraliśmy dane. Przy próbie prawie 11tys. unikalnych adresów IP okazało się, że kamery internetowe posiada 30,73% badanych.

Przyznam, że wyniki trochę mnie zaskoczyły… zresztą nie tylko mnie, bo obstawiało kilka osób i wszystkie celowały w okolice 10 -20%. W czasie badania można było zauważyć, że odsetek osób posiadających kamery był znacznie większy w godzinach wieczornych niż porannych. Wynika stąd, że komputery służbowe są mniej multimedialne.

Oczywiście wyniki te mogą różnić się od rzeczywistych, gdyż badanie wykonane było w bardzo krótkim okresie czasu, w zaledwie kilu serwisach (każdy serwis ma swój określony target, np. ludzie młodzi, klienci biznesowi) i wymagało posiadania flash playera w wersji 9.0 lub nowszej (około 98% komputerów wg Adobe). Mimo to postanowiłem podzielić się tą wiedzą.

Dziękuję za pomoc w przeprowadzeniu badania Mariuszowi Górskiemu, który był odpowiedzialny za php/mysql i zestawienie wyników."

- www.woszkowski.com

15 gru 2009

Wirtualni doradcy robią wszystko

Firm Stanusch Technologies udostępniła ciekawą opcję rozmowy z wirtualnym doradcą jednego ze swoich klientów.

"Szanowni Państwo!
Jak z pewnością wiecie, kilka tygodni temu uruchomiliśmy dwóch Wirtualnych Doradców (Annę i Adama) na rzecz firmy InPost, z którymi można prowadzić rozmowę pod adresem www.paczkomaty.pl
Jakkolwiek Anna i Adam nie tylko potrafią odpowiadać na pytanie, ale po wprowadzeniu tajnego hasła (paczkomatXXX69) totalnie zmienić swój charakter i....
Zapraszamy na stronę. Niecierpliwi mogą zobaczyć co się dzieje z Anią i Adamem na stronie:
www.youtube.com/watch?v=zLE-mjxRBBA
Dodam tylko, że w ciągu kilku pierwszych dni film obejrzało ponad 20 tysięcy internautów a 14 tysięcy osób rozpoczęło rozmowę z wirtualnymi doradcami zadając im ponad 200 tysięcy pytań.
Dla ułatwienia zabawy podaję pierwsze 4 odpowiedzi na pytania które zada Anna lub Adam:
Tak
7
12
sms"

9 gru 2009

System rozpoznawania mowy AGH

W miniony wtorek prezentowaliśmy w Będlewie wstępną wersję prototypu naszego systemu. W spotkaniu uczestniczyło wiele znanych osób z polskiego resortu spraw wewnętrznych oraz dowodzący policją Irlandii Północnej i inni zaproszeni goście powiązani z PPBW.

Nasz system jest przystosowany do rozpoznawania pojedynczych słów z listy około 2000 możliwości. Program zawiera możliwość 5-10 minutowego dostosowania do mówcy, ale jest ogólnie niezależny od mówcy. W zakresie oferowanych słów rozpoznanie jest rzędu 80%.

W ciągu roku planujemy rozwinąć system do 10 000 słów z możliwością rozpoznawania mowy ciągłej z zachowaniem istniejącej stopy błędów 80%, będącej standardem w obecnych systemach rozpoznawania mowy dla innych języków.

27 lis 2009

Komunikacja okiem

"W Katedrze Systemów Multimedialnych Politechniki Gdańskiej powstało Cyber-Oko, system pozwalający na poruszanie kursorem komputera za pomocą wzroku, umożliwiający obserwację, na które fragmenty strony internetowej pada wzrok czytelnika, a także badanie koncentracji uwagi u dzieci. Cyber-Oko nagrodzono Medalem Innowacje 2009 na tegorocznych targach Technicon Innowacje, które odbyły się w Gdańsku.

Cyber-Oko to zarazem aplikacja, oprogramowania i nowy sprzęt. Można je własnoręcznie szybko zamontować na monitorze komputera PC, obsługującego system Microsoft XP, Vista lub Windows 7 i spełniającego kilka podstawowych wymagań, określanych w instrukcji obsługi Cyber-Oka.

Wystarczy przyczepić na rzepach w rogach monitora 4 zestawy diod emitujących światło podczerwone, elektroniczny opracowany sterownik diod, kamerę internetową i zainstalować oprogramowanie z płytki CD. Instrukcja montażu określa sposób, w jaki powinny być ułożone poszczególne diody i kamera, aby uzyskać oczekiwany efekt odbicia świateł podczerwonych na źrenicy oka. W odróżnieniu od innych systemów eksperymentalnych, opracowane w Politechnice Gdańskiej algorytmy śledzenia wzroku są na tyle skuteczne, że wykorzystujący je system uzyskuje pełne własności użytkowe - jego praca nie zależy od koloru tęczówki, czy od używania okularów korekcyjnych oraz jest w wysokim stopniu niezależna od ruchów głowy, mrugania powiekami itp.

Osoba korzystająca z systemu powinna siedzieć w odległości ok. 55 cm od monitora, wówczas obraz oka będzie ostry. Pomieszczenie powinno być przyciemnione. Należy unikać światła dziennego ze względu na zawartość w nim promieniowania podczerwonego, które nie pozwoliłoby na odpowiednią pracę diod IR."

- PAP

23 lis 2009

The Tenth IASTED International Conference on Artificial Intelligence and Applications ~AIA 2010~

Nasz artykuł na temat statystyk n-gramowych słów w języku Polskim został przyjęty na konferencję The Tenth IASTED International Conference on Artificial Intelligence and Applications ~AIA 2010~. Artykuł opisuje statystki, opisane już wcześniej na blogu, i proces ich zbierania. Modelowanie języka Polskiego w oparciu o n-gramy jest w tej chwili jednym z najbardziej priorytetowych kierunków naszych działań. Już wkrótce będziemy mogli przedstawić pierwsze wyniki zastosowania zebranych statystyk do poprawy jakości rozpoznania mowy.

11 lis 2009

The Seventh IASTED International Conference on Signal Processing, Pattern Recognition and Applications

Przyjęto do druku nasz kolejny artykuł na temat ekstrakcji mowy z ze sztucznie zaszumionego sygnału przy pomocy dwóch oddalonych od siebie filtrów. Ten artykuł opisuje 2 nowe podejścia: analizę cross-correlation sygnałów z obu mikrofonów i zastosowanie filtrów adaptacyjnych.

R. Samborski, M. Ziolko, B. Ziolko, J. Galka "Speech Extraction From Jammed Signals In Dual-Microphone Systems", The Seventh IASTED International Conference on Signal Processing, Pattern Recognition and Applications , Innsbruck, 2010.

4th Language & Technology Conference

Kilka dni temu wróciliśmy z 4th Language & Technology Conference. Konferencja wydawała się trochę mniejsza niż jej 3 edycja 2 lata temu. Były 2 długie bloki tematyczne o systemach w zastosowaniach bezpieczeństwa publicznego i rzadkich językach. Była też dyskusja na temat standardów prowadzona przez szefa CLARIN. Otrzymaliśmy także wydaną przez SPRINGERA publikację wybranych i poprawionych artykułów z poprzedniej edycji.

21 paź 2009

Ogłoszenie o pracę w Zespole Przetwarzania Sygnałów AGH

Zespół Przetwarzania Sygnałów planuje zatrudnienie nowej osoby na stanowisku asystenta. Kandydaci proszeni są o przesyłanie CV i listy ocen ze studiów na adres ziolko na serwerze agh.edu.pl. Preferowani będą absolwenci kierunków Elektronika i Telekomunikacja oraz Informatyka mogących wykazać umiejętności i wiedzę w następujących dziedzinach (lub części z nich):
- przetwarzanie sygnałów,
- rozpoznawanie wzorców,
- programowanie (C/C++, Matlab),
- technologie mowy,
- przetwarzanie języka naturalnego,
- systemy uczące się.
Ponadto od kandydatów oczekuje się biegłego posługiwania się językiem angielskim.

9 paź 2009

Praca w Londynie w dziedzinie wielotrybowej analizy niegłosowych zachowań ludzkich

1 x ERC sponsored Postdoctoral (or PhD) Research Associate (Assistant)in Automatic Audiovisual Analysis of Deceptive Behaviour

Applications are invited for a full time Postdoctoral Research Associate OR a PhD Research Assistant to undertake research within the context of an ERC-funded project, ?Multimodal Analysis of Human Nonverbal Behaviour in Real-World Settings?, starting from January 2010.

The project builds on recent developments in Computer Vision, Pattern Recognition and Machine Learning in order to develop methods for recognition and localisation of human behaviours in naturalistic data. Specifically, the successful candidate will be working on development of technology that will be based on findings in cognitive sciences and it will represent a set of visual and audiovisual spatiotemporal methods for automatic analysis of human spontaneous (as opposed to posed and exaggerated) patterns of behavioural cues including continuous analysis of deceptive behaviour.

The successful candidate will be based at Imperial College London, Computing Department, and HCI2 Group, one of UK's leading research groups in vision-based and audiovisual analysis of human behaviour, working with Dr. Maja Pantic (http://www.doc.ic.ac.uk/~maja/).

The position is for 3 years (or maximum 42 months) starting from 1st of January 2010 or as soon as possible thereafter. Starting salary will be in the range £26,580 - £38,730 per annum inclusive of London Allowance.

Further details on this position and how to apply for this position can be found at

https://www4.ad.ic.ac.uk/OA_HTML/OA.jsp?OAFunc=IRC_VIS_VAC_DISPLAY&p_svid=11005&p_spid=570001

The closing date for the applications is Sunday 25th October 2009.

6 paź 2009

Polecane konferencje w roku 2010

Osobom zainteresowanym rozpoznawaniem mowy i tematami pokrewnymi polecam już ogłoszone konferencje w roku 2010.

The 15th IEEE Mediterranean Electrotechnical Conference 26-28.IV Valletta, Malta zgłoszenia do 26.X
EUSIPCO 23-27.08 Aalborg, Dania zgłoszenia do 5.II /
Interspeech 26-30.09 Makuhari, Japonia zgłoszenia do 30.IV

Informacje na temat pozostałych wartościowych konferencji będę zamieszczał, gdy ukażą się szczegółowe informacje.

22 wrz 2009

Sterowanie grami komputerowymi poprzez ruch oczu

Na targach w Japonii zaprezentowano nowe urządzenie kontrolujące do gier komputerowych. Jest nim czujnik ruchów oka. Będzie więc można wykorzystać w grach ruch oka jako sposób interakcji ze światem gry.

7 wrz 2009

Testy Dragona 10

Otrzymaliśmy zamówione oprogramowanie do rozpoznawania mowy Dragon w wersji 10 firmy Nuance. Do programu dołączony jest bezprzewodowy mikrofon. Przeprowadziłem wstępne testy.

Przygotowanie modeli dla danego użytkownika trwa około 10 minut. Proces polega na czytaniu jednego z 5 tekstów. Program analizuje także dostępne na komputerze teksty. Tworzy na ich podstawie modele stylu wypowiedzi. Należy więc uważać, aby nie wykorzystał do tego zgromadzonych na komputerze plików napisanych przez kogoś innego niż użytkownik. Program działa dla kilku podstawowych dialektów angielskiego. Poprawność rozpoznania szacuję na 70%. Część błędów w wersji zaproponowanej przez Dragona jest niepoprawna gramatycznie, np: "this partners" zamiast "these partners". Należy jednak zwrócić uwagę na to, że mój angielski nie ma w pełni poprawnej wymowy wszystkich słów. Ponadto istnieje możliwość dalszego doszkalania programu, poprzez dyktowanie pozostałych 4 tekstów.

Planujemy przeprowadzić pokaz oprogramowania w ramach koła naukowego Spektrum w naszym nowym laboratorium.

4 wrz 2009

Praca badawcza w Yorku

RESEARCH ASSOCIATE POSITION FOR 3 YEARS (UNIVERSITY OF YORK)
---------------------------------------------------------------------------------------------------------------

Salary: £28,839 per annum.

Applications are invited for a research associate post as part of the EU FP7 funded INDECT Project. INDECT is a collaborative project between a large consortium of universities and organisations in Europe. York’s part of the programme focuses on natural language processing applied to analysis of web documents, blogs and social networks.

The successful applicant should, as a minimum, have a good general education in computer science preferably in computational linguistics. Knowledge and experience in the development and evaluation of natural language processing tools/algorithms will be highly desirable. Ideally, we are looking for someone with a strong background in Natural Language Processing/Machine Learning with at least a PhD and a good publication record.

The research will seek to develop methods for learning from web documents, blogs and social networks. The research is aimed at developing novel methods for relationship mining, social network analysis, detection of abnormal patterns and suspicious behaviour from blogs, emails and websites. The research will involve kernel methods, semi-supervised learning, use of ontological knowledge and reasoning using world knowledge.

Informal enquiries may be made to Dr Suresh Manandhar (suresh at cs.york.ac.uk).

Further information regarding the project

The post is available from 1 October 2009 for three years in the first instance, with the possibility of a further extension.

2 wrz 2009

Windows Mobile 6.5

"Najnowsza wersja mobilnego systemu operacyjnego Microsoftu (Windows Mobile 6.5) pojawi się na rynku 6 października - zapowiedział koncern z Redmond. Tego dnia w sprzedaży mają pojawić się pierwsze telefony, wyposażone w nowy OS.
[...]
Najważniejszą innowacją w nowej odsłonie mobilnego OS-u wydaje się znaczące przeprojektowanie interfejsu użytkownika - wygląda na to, że Microsoft zorientował się, że rysik nie jest optymalnym narzędziem do obsługi menu i wreszcie dostosował Windows Mobile do pełnej obsługi palcami (w nowym systemie mają pojawić się m.in. duże, czytelne ikony).
"
- gazeta.pl

25 sie 2009

Statystyczna długość głosek w języku polskim

Poniżej dane, które zebraliśmy korzystając z Corpory. Kolejne pozycje w każdej lini zawierają sposób zapisu głoski w Corporze, sposób zapisu w standardzie SAMPA, średni czas trwania w milisekundach, odchylenie standardowe, przykład w zapisie ortograficznym oraz fonetyczna transkrypcja tego przykładu. Obserwacje i cel naszych badań zostanie wkrótce opublikowany w postaci artykułu konferencyjnego.

CORPORA SAMPA av. duration [ms] standard dev example transcr.
e e j 174 58 gęś ges’
a o w 166 52 ciąża ts’owZa
sz S 152 59 szyk SIk
s s 132 46 syk sIk
si s’ 130 45 świt s‘vit
c ts 128 41 cyk tsIk
a a 127 48 pat pat
ci ts’ 125 42 ćma ts’ma
cz tS 124 40 czyn tSIn
f f 122 64 fan fan
zi z’ 115 33 źle z’le
e e 111 48 test test
z z 107 34 zbir zbir
rz Z 106 31 żyto ZIto
drz dz’ 103 36 dźwig dz’vik
o o 103 35 pot pot
h x 100 45 hymn xImn
dz dz 100 35 dzwoń dzvon’
u u 99 42 puk puk
t t 98 52 test test
dzi dZ 98 27 dżem dZem
k k 94 45 kit kitk
i i 93 38 PIT pit
p p 93 41 pik pik
n n 91 41 nasz naS
b b 88 27 bit bit
y I 88 43 typ tIp
m m 86 34 mysz mIS
d d 83 29 dym dIm
g g 83 28 gen gen
w v 82 32 wilk vilk
j j 81 34 jak jak
l w 79 33 łyk wIk
ni n’ 76 33 koń kon’
r r 73 30 ryk rIk
l l 72 31 luk luk
N N 72 25 pęk peNk
sp 68 28 cisza wewnątrz słów
sil 15 26 cisza na końcach i początkach nagrań.

25 cze 2009

Rosyjski i Finski

Na SPECOMie 09 bylo sporo artykulow na temat rozpoznawania mowy. W tym duzo rosyjskich, bardzo mnie to ucieszylo ze wzgledu na jego podobienstwo do polskiego, ale niestety po konferencji znajoma, ktora sie sie poklocila z miejscowym srodowiskiem zajmujacym sie ASR, powiedziala mi ze w rzeczywistosci one nie dzialaja i to sprawilo, ze musiala przerwac doktorat.

Nawiazalem tez kontakt z ludzmi z Helsinek, ktorzy chetnie przetestuja ich system dla polskiego, jesli dostarczymy dane. W tej chwili ich system pracuje dla finskiego, estonskiego i tureckiego na sprzyjajacych licencjach. Sa to jezyki jeszcze mocniej morfologiczne niz polski, wiec moze byc ciekawie.

17 cze 2009

Program do nagrywania i odtwarzania dźwięków z efektami specjalnymi

Prezentuję projekt wykonany przez Damiana Romana i Michała Korzeniowskiego służący do nagrywania i odtwarzania dzwięku z możliwymi efektami specjalnymi. Opis wykonany przez autorów

Cel projektu
Celem projekty było stworzenie prostego programu do nagrywania i edycji dźwięku wykorzystujący kartę dźwiękową i graficzną. Program miał być aplikacją okienkową. Całość miała być napisana w języku C++(użyliśmy Visual C++). Naszym celem było stworzenie aplikacji za pomocą, której można nagrać dźwięk z mikrofonu, zapisać go na twardym dysku, a następnie odtworzyć go i nałożyć na niego efekty.

Historia powstawania
Przygodę z naszym programem zaczęliśmy od szukania odpowiedniej biblioteki do obsługi karty dźwiękowej. Nasz wybór (jak się później okazało nietrafny) padł na bibliotekę fmod, którą używa np. firma Blizzard. Próbowaliśmy zagłębić się w tę bibliotekę jednak nie udało nam się stworzyć z jej pomocą nic sensownego. Potem przyszedł czas na bibliotekę irrKlang, którą to zastosowaliśmy w naszym projekcie. Zaczęliśmy od stworzenia interfejsu graficznego i w naszych głowach pojawił się szkic programu. Pierwsze problemy pojawiły się przy inicjalizacji biblioteki w VC++ jednak stosunkowo szybko sobie z nimi poradziliśmy dzięki obszernej dokumentacji tejże biblioteki dostępnej na oficjalnej stronie producenta. Dodawanie kolejnych modułów do programu, wymagało każdorazowego zagłębiania się w opisy dostępnych funkcji irrKlang’u. Priorytetem dla nas było umieszczenie możliwości nagrywania wraz z zapisem pliku na dysk twardy. Na to poświęciliśmy najwięcej czasu. W końcu po dodaniu pozostałej (wspomnianej już) funkcjonalności stwierdziliśmy że program spełnia założone cele i wymaga jedynie dopracowania. Ostatnim etapem było poprawienie graficznej strony aplikacji.

Ściągnij program.

13 cze 2009

Praca w Newark (obliczenia równoległe i rozproszone)

Job Title: Postdoctoral Research Associate
Department: Computer and Information Sciences Department
Department Website: https://www.cis.udel.edu/
Institution: University of Delaware, Newark, DE

Application Deadline: Open Until Filled
Position Start Date: Sep. 1, 2009

Job Categories: Post-Doc
Academic Field(s): Computer Engineering, Computer Science
Job Website: http://gcl.cis.udel.edu/openpositions.php
Apply By E-mail: taufer@acm.org

Job Description:

Applications are invited for a full-time Postdoctoral Research Associate, to begin September 1, 2009, to
work on collaborative research with the U.S. Army Research Laboratory in Aberdeen, MD.
A Ph.D. in Computer Science, Computer Engineering or Computational Science is required.
Candidates should possess a demonstrated potential and strong commitment to quality research.
Candidates having primary interest and expertise in parallel and distributed systems, GPGPU and
scientific applications (with emphasis on Monte Carlo and Molecular Dynamics simulations) will be given
preference.
The initial appointment will be for one year, renewable annually for up to three years by mutual
agreement.
The position may start in September, 2009 or until it is filled.
To apply, send cover letter, CV and contact information for at least three references, to Dr. Michela
Taufer, at: taufer@acm.org

9 cze 2009

Konferencje na temat mowy i języka w drugiej połowie 2009 roku

W najbliższych tygodniach (do 15 lipca) można zgłaszać artykuły na dwie ciekawe konferencje dotyczące rozpoznawania mowy:

4th LANGUAGE AND TECHNOLOGY CONFERENCE, 6-8.XI, Poznań
IEEE Automatic Speech Recognition and Understand Workshop, 13-17 XII, Merano, Włochy.

8 cze 2009

Program służący do nauki rozpoznawania częstotliwości dźwięku

Kolejny z projektów studentów inżynierii akustycznej (Marcin Witkowski i Grzegorz Mazur). Opis programu z dokumentacji napisanej przez autorów.

"FreqGen to program służący do nauki rozpoznawania częstotliwości dźwięku, pomocny zwłaszcza dla osób pracujących przy sprzęcie nagłośnieniowym. Poprawna ocena słyszanej częstotliwości pomaga akustykowi między innymi na szybkie wyciszenie dźwięków o częstotliwościach sprzęgających na scenie.

Zadaniem użytkownika jest wybranie zakresu z jakiego pochodzi odtwarzana losowa częstotliwość. Częstotliwości losowane są z zakresu 40-16 000Hz, zaś użytkownik ma wskazać jeden z 26 mniejszych zakresów (tercjowych) z którego ta częstotliwość pochodzi.
Jest to pewna symulacja tzw. korektora tercjowego – urządzenia scenicznego pozwalającego wyciszyć właśnie częstotliwości z zakresów tercjowych.
Każdy odtwarzany dźwięk trwa po naciśnięciu klawisza GRAJ 5 sekund, na życzenie użytkownika może zostać zatrzymany przyciskiem STOP. Użytkownik może ustalić również głośność używając suwaka znajdującego się po prawej stronie.
Po wybraniu konkretnego zakresu tercjowego pojawia się okno z informacją na temat odegranej częstotliwości i poprawności odpowiedzi."

Ściągnij program

6 cze 2009

Konkurencyjność polskich uczelni

Niedawno zakończył się hucznie obchodzony jubileusz 90-lecia AGH. Dostałem 7 Stasziców, które mogę sprzedać na wolnym rynku (Allegro.pl) za 10 zł i pięknie wydaną książkę na temat skarbów AGH. Według rankingu AGH jest piątą najlepszą uczelnią w Polsce. Jak to się ma jednak w porównaniu z konkurencją w innych krajach? Spędziłem kilka lat na uczelniach w innych krajach (Finlandia, Grecja i Anglia). Mogę więc porównać. Z porównania tego wynika, że nie jest dobrze.

Polskie uczelnie są przede wszystkim bardzo zbiurokratyzowane. Przykładowo, na AGH, na 3849 pracowników jedynie 1835 to pracownicy naukowo-dydaktyczni i 210 dydaktyczni. Wyjazd na konferencję naukową wiąże się ze skomplikowaną procedurą zabierającą godziny pracy. Wniosek musi być wydrukowany aż w 5 egzemplarzach i podpisany przez 6 osób. Procedury są tak skomplikowane, że niemożliwym jest ich w pełni poprawne wykonanie. Przejście wniosku przez wszystkie biura zajmuje około tygodnia, podczas gdy rezerwacja samolotu w biurze turystycznym jest ważna zwykle 48 godzin. Gdy wniosek jest już formalnie zatwierdzony cena często jest inna. Jak sprawa wygląda np. na University of York? Pracownik loguje się na odpowiednią stronę internetowa, wypełnia krótką ankietę na temat wyjazdu, czeka aż jedna osoba sprawdzająca zaloguje się i zatwierdzi, po czym można kupować wszystkie niezbędne do wyjazdu rzeczy. W wypadku doktorantów konieczne jest dodatkowo wpisanie opinii przez promotora.

Rekrutacja studentów. Pokolenia zaczynające w tej chwili studia jest niżem demograficznym, tak więc w Polsce obecnie ciężko o kandydatów na studia. Co poszczególne wydziały robią aby ich znaleźć? Ich zdaniem sporo, w porównaniu do tego co robi czołówka światowa bardzo niewiele. Angielskie uczelnie organizują bardzo często dni otwarte ściągając na nie tysiące uczniów i rodziców, wysyłają pracowników do szkół średnich, rozsyłają po świecie prospekty, rekrutują za granicą, organizują stypendia i ciekawe praktyki. Coraz częściej organizują uroczystości wręczenia dyplomów za granicą, aby ułatwić rodzinom przybycie na nie, a nawet budują całe kampusy rozrzucone po świecie. Absolwenci uczelni pomagają finansowo aby utrzymać prestiż uczelni z których otrzymali dyplomy. Chciałem przekazać swój 1 % podatku na taki cel. Szukałem i znalazłem tylko niezachęcająco wyglądającą stronę organizacji absolwentów, która zupełnie nie opisuje jak wydaje zdobyte pieniądze. Polskie uczelnie zbyt często oferują kierunki studiów nie kierując się ich przydatnością absolwentom. Decydenci wydają się zupełnie nie zauważać, że kapitalizm wchodzi także do edukacji.

Działalność naukowa polskich uczelni w porównaniu do świata jest również kwestionowalna. Wielu polskich uczonych przekonuje, że prowadzi badania na tematy które nigdy nie były jeszcze rozwiązane. Praktyka jednak wykazuje co innego. Polski styl prowadzenia nauki nie zachęca do studiowania literatury i sprawdzenia istniejących rozwiązań. Doktorant na brytyjskiej, szanującej się uczelni zwykle poświęca cały pierwszy rok wyłącznie na czytanie na temat opublikowanych rozwiązań powiązanych z tym czego ma dotyczyć jego doktorat. Polscy promotorzy rzadko do tego zachęcają, a prawie nigdy tego nie wymuszają. Nie mamy też grup czytelniczych, a seminaria są prowadzone często na takim poziomie i w taki sposób, że trudno zachęcić ludzi do przychodzenia na nie. Zresztą znalezienie chętnych do referowania również nie jest proste.

AGH, Politechnika Wrocławska i kilka innych uczelni wydały w ciągu ostatnich lat duże pieniądze na kreowanie swoich wizerunków, na wzór korporacyjny. Jakie są efekty
poza wydanymi pieniędzmi? Jakieś są. Nowe loga, atrakcyjniesze strony internetowe, ujednolicone prezentacje, gadżety, a czasami nawet szablony LaTeXowe.

Dużym problemem na polskich uczelniach jest niechęć ludzi do komputerów. Szokującym jest, że jest to bardzo często zjawisko także na uczelniach technicznych, nawet na wydziałach informatycznych. Pracownicy masowo nie odpowiadają na emaile, boją się automatyzacji czegokolwiek (elektroniczne indeksy, wspomniany elektroniczny system delegowania pracowników, itp.). Trudno się w efekcie dziwić, że obcokrajowcy nie chcą studiować w Polsce. Ich pierwszy kontakt jest zwykle internetowy. W moim przypadku około 80%-90% emaili nie doczekuje się odpowiedzi, wliczając w to korespondencje do jednostek odpowiedzialnych za promocję i kontakty uczelni. Warto podkreślić, że piszę
po polsku, więc jest łatwiej odpowiedzieć. Obcokrajowiec straci zainteresowanie uczelnią o której w jego kraju nie jest głośno po pierwszym emailu, jeśli pozostanie on bez wciągającej odpowiedzi.

Do tego dochodzi jeszcze olbrzymi problem niegospodarności. To już jednak osobny temat.

Edukacja wyższa powinna być pokrywana nie tylko z podatków. Uczelnie powinny dostawać środki silnie uzależnione od rankingów. Jak największa ilość przedmiotów powinna być obieralna. Powinno się zwolnić ludzi którzy niewiele robią, a dać wyższe pensje reszcie, która przejęłaby ich obowiązki.

1 cze 2009

Najpopularniejsze słowa w języku polskim

Poniżej przedstawiam listę 300 najpopularniejszych słów w języku polskim, zebraną z wykorzystaniem tekstów zawierającychw sumie 269 milionów słów. Liczby po słowach są udziałem danego słowa w języku. W tej wersji zamieszczam wszystkie słowa, tak jak przedstawił to komputer wraz z błędami, takimi jak angielskie słowa i pojedyncze litery.

. 0,060663222
w 0,031438997
i 0,018003276
na 0,014989314
z 0,0139002
się 0,013733981
do 0,010106477
nie 0,010071599
to 0,006219967
że 0,005826183
jest 0,005238953
o 0,004970104
a 0,004876955
1 0,003788531
od 0,003586235
po 0,003328101
przez 0,003106692
2 0,003105817
0 0,003045727
procent 0,0027537
za 0,002747959
3 0,002696055
jak 0,002648366
roku 0,002314594
co 0,002248845
ale 0,002213622
5 0,00207705
tym 0,002014712
dla 0,002011001
jego 0,001935342
4 0,001876315
tak 0,001702058
6 0,001666694
r 0,001658192
oraz 0,00164761
są 0,001645549
był 0,001580711
tego 0,001538959
już 0,001492806
czy 0,001461836
ma 0,001444666
ze 0,001441979
tylko 0,001439217
też 0,001420538
pod 0,001366344
jako 0,001334027
może 0,001321163
jej 0,001319225
jednak 0,001318222
ich 0,00126622
7 0,001263092
10 0,00118221
go 0,001175501
8 0,001156087
który 0,00113173
0 0,00110934
zł 0,00109789
było 0,001078082
20 0,001076017
także 0,001042792
lub 0,001034821
które 0,001029027
przy 0,001012958
być 0,001007921
będzie 0,000991208
przed 0,000988091
9 0,000985094
ten 0,000943311
jeszcze 0,000930496
lat 0,000928294
tej 0,000921839
by 0,000861668
12 0,000855473
była 0,000845473
15 0,000837209
bardzo 0,000819586
gdy 0,000806468
50 0,000801367
został 0,00079486
mu 0,000790656
sobie 0,00074686
również 0,000745654
kiedy 0,000744423
we 0,000732016
nad 0,000731291
latach 0,000726806
nawet 0,000723394
można 0,000719735
11 0,000713921
30 0,000713864
2006 0,00071238
mnie 0,00070443
2007 0,000693092
niż 0,000687601
21 0,000678293
22 0,00067619
bez 0,00067524
jeśli 0,000672619
18 0,000669499
linki 0,000663093
25 0,000656434
polski 0,00065196
tys 0,000648628
14 0,000644013
mi 0,000641624
między 0,000638979
13 0,000636168
on 0,000630639
więc 0,000630463
16 0,000625935
osób 0,000624518
zewnętrzne 0,000621978
gdzie 0,000620279
polsce 0,000617074
19 0,000608871
the 0,000600027
miejscowość 0,000598557
cest 0,000591863
s 0,000586927
tu 0,00058608
która 0,000585422
u 0,000585095
mln 0,000584965
tych 0,000575597
innymi 0,000571246
17 0,000570943
pan 0,000566577
były 0,000564608
m 0,000560312
23 0,000558258
powiedział 0,000556573
miał 0,000553235
ją 0,000551441
teraz 0,00054176
tam 0,000537732
bo 0,000534897
te 0,000531309
nich 0,000528906
według 0,000516693
podczas 0,000516278
nim 0,000501327
których 0,00049819
urodzony 0,00049388
aby 0,00049355
rd1 0,000492136
miejsce 0,000491407
danych 0,000485146
ja 0,000480084
24 0,000468039
rok 0,000467244
ii 0,00045623
natomiast 0,000453852
align 0,000452846
pracy 0,000450848
1998 0,000450398
40 0,000446349
zobacz 0,000443243
center 0,000441843
je 0,000436622
innych 0,000433228
wszystko 0,000431726
cet 0,000428268
dwa 0,000428222
jeden 0,000427199
potem 0,00042697
coś 0,000426618
miejscu 0,00042017
nic 0,000417518
którzy 0,000417173
26 0,00041641
e 0,000414609
mają 0,000412952
sposób 0,000410602
100 0,000408864
ta 0,000407563
którym 0,000404692
bank 0,000404664
czasie 0,000404516
niego 0,000398877
więcej 0,000398652
kilka 0,000397653
raz 0,000397301
pierwszy 0,000396686
wiele 0,000396538
żeby 0,000396112
której 0,000394361
ok 0,000392964
obecnie 0,000390329
właśnie 0,000384318
n 0,000383129
k 0,000383069
stanie 0,000381215
27 0,000371657
de 0,000371408
60 0,000371024
ponad 0,00036815
wśród 0,000367907
wszystkich 0,000367552
lecz 0,000366947
będą 0,000366747
bardziej 0,00036669
usa 0,000366391
28 0,000364017
wieku 0,000363802
rynku 0,000363141
została 0,000362701
wszystkie 0,000361132
później 0,000359672
albo 0,000358153
akcji 0,00035804
przykład 0,00035709
gmina 0,000356524
80 0,000356207
ludzi 0,00035575
sam 0,000350586
of 0,000349872
wieś 0,000348001
b 0,000344588
kraju 0,000344441
nas 0,000343494
pani 0,000342295
którego 0,000341335
dwóch 0,000340554
wielu 0,000340241
miasta 0,000339182
2005 0,000338235
mogą 0,00033654
ani 0,000333884
iż 0,000331249
2004 0,000330472
czas 0,00032904
czasu 0,000328235
im 0,000327556
70 0,000326222
ci 0,00032515
t 0,000321565
względem 0,000321104
siebie 0,000320791
inne 0,000320672
90 0,000317618
części 0,000317572
29 0,000316503
dobrze 0,00031606
ona 0,000315764
sa 0,000315303
prawa 0,000315015
takie 0,000314684
część 0,000314674
usd 0,000313513
państwa 0,0003118
polska 0,000311617
świata 0,000311339
wtedy 0,000310446
niej 0,000309654
razem 0,000308873
należy 0,000307962
trzeba 0,000307941
gminie 0,00030207
maja 0,000301964
2000 0,000301718
31 0,000300807
trzy 0,000298717
około 0,000298331
grupy 0,000295291
warszawa 0,000295129
strony 0,000291724
aż 0,000291309
nigdy 0,000289758
nr 0,000288122
zawsze 0,000286849
czyli 0,000286015
art 0,000285744
1990 0,000285044
poza 0,000280461
miasto 0,000278529
czym 0,000275831
miała 0,000273471
p 0,000273288
swoje 0,000273042
choć 0,000272514
temu 0,00027206
mam 0,000271916
ciągu 0,000271694
prawo 0,000271153
domu 0,000269756
osoby 0,000269506
wszystkim 0,000269436
chyba 0,000268954
jeżeli 0,000268841
życia 0,000268747
jednym 0,000268384
2008 0,000266333
francji 0,000265971
dlatego 0,000264726
kilometrów 0,00026455
35 0,00026449
stycznia 0,000262647
mówi 0,000261859
dzięki 0,000261803
1975 0,000261729

29 maj 2009

Projekty studentów - Gra w statki

W ramach przedmiotu Języki Programowania poprosiłem studentów o zrobienie projektów. Kilka z nich, tych powiązanych z grami i z akustyką udostępnię na blogu.

Na początek gra w statki zrealizowana przez Bartosza Dittmara i Bartosza Pawłowicza. Program działa w konsoli, ale algorytm gry przez komputer jest bardzo skuteczny. Poniżej fragmenty opisu wykonanego przez autorów:

"Pisanie programu rozpoczęliśmy od napisania funkcji wyświetlania plansz gracza i komputera (na początku jeszcze pustych). Następnie zajęliśmy się stawianiem statków graczy przy zachowaniu zasad obowiązujących w grze. Kolejny krok to wykonywanie strzelania przez gracza i efekty strzału widoczne na planszy w zależności od miejsca które zostało trafione w tym także automatyczne obtoczenie zestrzelonego statku pudłami (ponieważ tam nie mógłby stać żaden statek). Późniejsze prace dotyczyły w większości stworzenia jak najbardziej efektywnego algorytmu postępowania dla gracza komputerowego, który opisany jest w dalszej części dokumentacji. W międzyczasie trwały także prace nad estetyką projektu (np. wprowadzenie kolorów oraz menu początkowego).

[...]

-int jakikierunek(int t, int s, int q) - sprawdzenie jak najprawdopodobniej ustawiony jest trafiony statek, zlicza ilość wolnych pól w każdym kierunku (wartość maksymalna zależy od rozmiaru największego pozostałego statku) i analizuje wynik zwracając kierunek w którym zostanie oddany strzał (kierunek: 0-prawo 1-lewo 2-góra 3-dół)

-int goradol, int lewoprawo – funkcje sprawdzają w którym kierunku najlepiej oddać kolejny strzał gdy wiemy już czy trafiony statek jest ustawiony pionowo lub poziomo

-int szukanie(int q) - sprawdzenie czy istnieją miejsca o większym prawdopodobieństwie wystąpienia największego niezatopionego statku (rozmiar określa q) na podstawie odpowiedniej analizy zmiennych wynikowych z funkcji spionowo i spoziomo; funkcja zwraca zmienną krzyzyk określającą jakich miejsc ma szukać komputer"

Ściągnij program

20 maj 2009

IIHMSP 2009

Nasz artykuł został przyjęty na The Fifth International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIHMSP2009) w Kyoto. Praca opisuje początki naszych badań w zakresie wykorzystywania systemu 2 mikrofonów do odtwarzania sygnału mowy z sygnału akustycznego do którego został naumyślnie dodany sygnał zagłuszający, na przykład w postaci radia lub dźwięku pracującego silnika. Metoda wykorzystuje różnice w drodze, którą muszą przebyć sygnały do poszczególnych mikrofonów. Dzięki niej sygnały mogą zostać odseparowane.

5 maj 2009

Słowosieć

Byłem dzisiaj na seminarium zorganizowanym na Politechnice Wrocławskiej na której doktor Piasecki prezentował Słowosieć, czyli polskiego wordnet'a w wersji 1.0. Słowosieć jest strukturą opisującą relacje pomiędzy słowami utworzonymi w sposób półautomatyczny, poprzez analizę współwystąpień słów w zbiorach tekstów i poprzez wiedzę językoznawczą wprowadzoną przez ludzi. Słowosieć zawiera dużo informacji, które mogą być wykorzystane w wielu zastosowaniach związanych z komunikacją człowieka z maszyną, takich jak rozpoznawanie mowy, systemy dialogowe i analiza zawartości stron internetowych.

24 kwi 2009

WorldComp 2009

Nasz kolejny artykuł został przyjęty na kongres WorldComp 2009, składający się z 22 konferencji na które przyjedzie około 2000 naukowców, inżynierów i przedsiębiorców. Referat znajdzie się w części poświęconej sztucznej inteligencji, gdzie przyjęto jedynie 27% z nadesłanych prac. W ramach kongresu wystąpią między innymi profesorowie Ian Foster, znany z obliczeń gridowych, Brian D. Athey (biomedyczna informatyka) i dr. K. Eric Drexler (nanotechnologia).

10 kwi 2009

Statystyki fonemów

Dwa nasze artykuły zostały przyjęte na konferencje:
WORLDCOMP'09 w Las Vegas i IIS 2009 w Krakowie. Pierwszy artykuł opisuje statystyki fonemów zebrane z wykorzystaniem korpusu Rzeczypospolitej a drugi z wykorzystaniem wikipedi.

25 mar 2009

Oferta pracy w Szwecji dla doktora lingwistyki komputerowej

Wydział Lingwistyki i Filologii Uniwersytetu w Uppsali poszukuje kandydatów z doktoratem w dziedzinie lingwistyki komputerowej do pracy. Obowiązki obejmują prowadzenie badań w zakresie technologii językowych oraz dydaktykę na poziomach od pierwszych lat studiów po doktorantów.

19 mar 2009

Roboty przypominające ludzi

"W Japonii pojawił się kolejny humanoidalny robot nazwany HRP-4C. Wyglądem humanoid ma przypominać ''każdą Japonkę''. HRP-4C potrafi stroić miny, podczas demonstracji w Tsukubie robot robił zaskoczona minę, otwierał usta, mrugał oczami. Konstrukcja waży 43 kg. Robot ma zadebiutować w najbliższym czasie na pokazie mody" Gazeta.pl

Fot. Koji Sasahara AP

17 mar 2009

Referat w Zakładzie Bioinformatyki i Telemedycyny Collegium Medicum UJ

30 marca o godzinie 12.00 wygłoszę referat w Zakładzie Bioinformatyki i Telemedycyny Collegium Medicum UJ na ul. Kopernika 7e. Tematem referatu będą obliczenia dotyczące języka polskiego przeprowadzane przez nasz zespół w Cyfronecie, takie jak zbieranie statystyk fonemów, difonów, trifonów oraz ngramy słów. Klastry obliczeniowe Cyfronetu zostały zastosowane ze względu na ilość plików tekstowych, z których pobieramy dane – około 250 milionów słów. Zapraszam!

SPECOM 2009

21 czerwca jadę na konferencję SPECOM 2009. Wygłoszę tam referat na temat zbieranych przez nas statystyk trifonów języka polskiego. Konferencja jest poświęcona wyłącznie przetwarzaniu mowy, więc oczekuję sporej dawki nowej wiedzy. Oba zaproszone referaty mają być na temat rozpoznawania mowy. Będą to "Towards Natural Acoustic Interfaces for Automatic Speech Recognition" Profesora Walter Kellermann z University of Erlangen-Nuremberg i "Unsupervised decomposition of words for speech recognition and retrieval" Profesora Mikko Kurimo z Helsinki University of Technology.

Obrona pracy doktorskiej

11 marca obroniłem swoją pracę doktorską na wydziale informatyki Uniwersytetu w Yorku. Obrona trwała niewiele ponad 2 godziny. Tak jak to jest w zwyczaju w Wielkiej Brytanii recenzenci wskazali drobne poprawki do doktoratu przed jego ostatecznym złożeniem. Zasugerowali obliczenie perpleksji korpusów tekstów, których używałem. Perpleksja to miara komplikacji tekstu oparta o entropię. Mam również przeprowadzić analizę korelacji błędów segmentacji i typów fonemów. Ponadto trzeba rozbudować, niektóre wprowadzenia do rozdziałów i wnioski. Recenzenci oszacowali te poprawki na 2 miesiące. Byłem pierwszym Polakiem broniącym tam pracę doktorską.

5 mar 2009

Stereoskopowa grafika 3D w rozdzielczości HD do gier

"3D Vision to połączenie nowoczesnych bezprzewodowych okularów, działającego w podczerwieni emitera o dużej mocy oraz zaawansowanego oprogramowania, które automatycznie pozwala na oglądanie setek gier na PC we w pełni stereoskopowym środowisku 3D. 3D Vision stanowi fundament nowego, przeznaczonego dla klientów indywidualnych środowiska stereoskopowego dla komputerów do gier i domowej rozrywki, którego sednem są procesory graficzne NVIDIA GeForce. Zaprojektowane do pracy z monitorami i odbiornikami TV, działającymi z częstotliwością 120 Hz i wyższą, 3D Vision wyświetla krystalicznie czysty, pozbawiony migotania stereoskopowy obraz, pozwalający zakosztować nowych wrażeń w rozgrywce 3D, filmach 3D i fotografii 3D."
gazeta.pl

4 mar 2009

Higiena kolejnym powodem wprowadzania systemów głosowych

Brytyjscy uczeni sugerują, że niektóre klawiatury mają w sobie więcej szkodliwych bakterii niż muszla klozetowa. Tak więc nie tylko wygoda i szybkość mogą rozpowszechnić komunikację głosową człowieka z komputerem, ale także kwestie zdrowotne, zwłaszcza przy narastającym braku naturalnej odporności u ludzi będącej negatywnym wynikiem cywilizacji. Więcej po angielsku.

3 mar 2009

Skype wprowadza usługę rozpoznawania mowy

Gazeta.pl informuje, że Skype wprowadza usługę rozpoznawania mowy w angielskim, hiszpańskim, francuskim i niemieckim do dyktowania smsów przy użyciu SpinVox. Więcej

8 lut 2009

Oferta pracy

Stała praca naukowo-badawcza z zakresu przetwarzania sygnałów dla studenta V roku lub absolwenta Elektroniki AGH (ew. innego z dobrym przygotowaniem z DSP).

Wymagania:
- wysoka średnia ze studiów,
- biegła znajomość MATLABA,
- zamiłowanie do eksperymentów komputerowych.

Wynagrodzenie ponad 2,5 tysiąca zł miesięcznie.

Tel: +12 617 3048 lub email: ziolko na serwerze agh.

3 lut 2009

Przygotowania do obrony doktoratu

W Anglii tak jak i w Polsce ma się 2 recenzentów, jednego z własnej uczelni, drugiego zewnętrznego. Moi recenzenci zostali już potwierdzeni, a obrona jest zaplanowana na godzinę 2.00 czasu brytyjskiego 11 marca, 2009 roku.

Moim zewnętrznym recenzentem jest pracujący w Carnegie Mellon University Alan Black. Jest znany głównie z zagadnień związanych z syntezą mowy, choć zajmuje się również wieloma innymi projektami dotyczącymi mowy i języka naturalnego.

Wewnętrznym recenzentem jest Adrian Bors, zajmujący się obecnie głównie grafiką trójwymiarową. Prowadził wieloletnie badania w dziedzinie klasyfikacji wzorców, np. przy zastosowaniu sieci neuronowych.

Obrona w Anglii trwa zwykle około 3 godzin i jest egzaminem bez udziału kogokolwiek poza kandydatem i recenzentami. Teoretycznie kandydat ma prawo przynieść ze sobą dowolną ilość książek i artykułów, ale promotor powiedział mi, że raczej się tego nie praktykuje i żebym tak nie robił. Obrona doktoratu w Anglii uchodzi za jedną z najtrudniejszych na świecie, ale oczywiście jestem dobrej myśli.

28 sty 2009

Cyfronet

Coraz więcej naszych obliczeń przeprowadzanych jest na komputerach dużej mocy w Cyfronecie. W związku z tym postanowiłem przedstawić zakres naszej działalności i dowiedzieć się więcej na temat możliwości sprzętu Cyfronetu w trakcie Konferencji Użytkowników Komputerów Dużej Mocy 12-13 marca 2009 roku.

Zgłoszono na konferencję 32 prezentacje, które dotyczą obliczeń w najróżniejszych dziedzinach. Duża część prac jest z wydziału EAIiE AGH, ale będą też prezentowane prace np: chemików i geologów.

5 sty 2009

Modelowanie niepozycyjne

Mój artykuł "Bag-of-words Modelling for Speech Recognition" został przyjęty na konferencję International Conference on Future Computer and Communication (ICFCC 2009) w Kuala Lumpur. Lecę tam w kwietniu. Nigdy nie byłem jeszcze w Malezji, może więc uda mi się wziąć urlop i zostać tam trochę dłużej.

W artykule opisuję opracowaną przeze mnie metodę modelowania semantycznego przy użyciu macierzy opisującej relacje słowo - temat. Jest to rozwinięta wersja algorytmu zaprezentowanego na Speech Analysis, Synthesis and Recognition. Applications in Systems for Homeland Security w Piechowicach. Usprawnienia są nieznaczne i dotyczą normalizacji. Główną nowością jest zaprezentowanie pozytywnych wyników na praktycznych danych w dużej skali z w pełni rozdzielonymi zestawami do ćwiczenia i testowania, które potwierdzają, że moja metoda jest lepsza od LSA.