Nasza praca "Rodzaje pauz akustycznych i ich konotacje z interpunkcją w transkrypcjach mówionego języka polskiego" została przyjęta na konferencji Bogactwo współczesnej polszczyzny organizowanej w Krakowie przez Towarzystwo Miłośników Języka Polskiego. Konferencja odbędzie się 13-14 kwietnia.
"Zespół Przetwarzania Sygnałów Katedry Elektroniki AGH prowadzi badania statystyczne nad językiem polskim na potrzeby automatycznego rozpoznawania mowy. Jednym z obecnie analizowanych zagadnień jest możliwość wnioskowania na temat quasi-interpunkcji w mówionym języku polskim na podstawie różnych parametrów, w tym pauz akustycznych, w celu automatycznego wstawiania interpunkcji w transkrypcjach wypowiedzi."
Należy być ostrożnym z ilością efektów dźwiękowych wydawanych przez komputer. Istnieje ryzyko, że przy intensywnym użytkowaniu inferfejsu lub przy problemach w komunikacji, system zacznie wydawać tak dużo dźwięków, że słuchający je człowiek, będzie tylko i wyłącznie chciał, aby już przestał wydawać te dźwięki i może po prostu wyłączyć komputer lub rozłączyć rozmowę, będąc wściekłym, że nie udało mu się zrealizować zaplanowanego zadania. Z tego powodu, zwykle nie możemy sobie pozwolić na każdorazowe głosowe wymienianie opcji które użytkownik może wybrać.
W wypadku komputerów i innych urządzeń mających ekran, należy zawsze pozostawić wizualną komunikację, nawet jeśli jest się przekonanym, że nasz interfejs głosowy jest dla każdego wymarzonym rozwiązaniem. Użycie dwóch zmysłów nie zaszkodzi. Poza tym większość użytkowników oczekuje okna dialogowego z paskiem postępu, w wypadku realizacji czynności zajmujących więcej niż 10 sekund. Z przyczyn podanych w poprzednim paragrafie, zwykle niemądrym byłoby zastępowanie takiego graficznego paska postępu, komunikatami głosowymi, przypominającymi odliczanie do wybuchu bomby. Standaryzacja jest istotną cechą dobrych interfejsów. Ludzie przyzwyczajają się do różnych rozwiązań i chcą ich powtórek gdzie indziej. Z tego powodu rozwinęły się z takim sukcesem firmy takie jak McDonalds. Jakość jedzenia dla wielu osób jest kwestią drugorzędną po tym, aby zjeść coś, co już kiedyś się jadło i było nienajgorsze. W wypadku interfejsów należy uważać z wprowadzaniem nowinek. Większość pasjonujących doświadczeń użytkownika skończy się na jego niezadowoleniu i rozmowie z kosztownym w utrzymaniu serwisem obsługi klienta lub rezygnacją z towaru bądź usług. Podobne rzeczy w różnych częściach systemu powinny być tak samo nazywane i używane. Powiniśmy używać różnych, lecz podobnych słów, jak na przykład przedmiot i produkt, tylko i wyłącznie jeżeli odnosimy się do zdecydowanie różnych elementów.
Nawigacja w bardziej złożonych systemach powinna być jasna i łatwo powtarzalna. Czynność raz wykonana poprawnie nie powinna nigdy więcej stwarzać użytkownikowi jakichkolwiek problemów. Ponadto użytkownik powinien mieć zawsze możliwość z łatwością wrócić do wcześniejszych opcji. Niektórzy użytkownicy mogą mieć problemy z mówieniem lub mogą posługiwać się nietypowym, odmiennym dialektem, uniemożliwiającym skuteczne rozpoznawanie mowy. Z tego powodu zawsze należy pozostawić użytkownikowi możliwość interakcji innym sposobem niż mowa, na przykład poprzez przyciski. Dotyczy to także rozwiązań bez komputerów, bądź telefonów.
Wszystkie interfejsy należy intensywnie testować z wieloma różnymi użytkownikami. To, co wydawało się autorowi wspaniałym rozwiązaniem, może się zupełnie nie spodobać innym osobom.
Praca naukowa w dziedzinie przetwarzania sygnałów, NIE od zaraz. Wymagany doktorat w informatyce, elektronice lub pokrewnej dziedzinie uzyskany poza Krakowem. Osoba nie może być obecnie i ostatnio zatrudniona na AGH. Więcej szczegółów w e-mailu lub w rozmowie. Wynagrodzenie około 6000 zł.
Zapraszamy osoby zainteresowane tematyką do współtworzenia bloga. Można pisać do mnie na konto bziolko na serwerze pracowników agh.edu.pl.
"Nagromadzenie danych to nie jest jeszcze nauka." - Galileo Galilei (Galileusz)
"Dopóki nie skorzystałem z Internetu, nie wiedziałem, że na świecie jest tylu idiotów." Lem Blog projektu RAYAV Przedmiot Technologia Mowy