Nasz artykuł "Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym" został przyjęty na konferencje Bazy danych: Aplikacje i Systemy 2010.
Automatyczna klasyfikacja tekstu pisanego znajduje szerokie zastosowanie w systemach informacyjnych, między innymi w filtrach e-mail, eksploracji danych (ang. data mining ) oraz korekcie tekstu. W tej pracy opisujemy system bazodanowy, który słauży pomiarowi stopnia dopasowania hipotez wypowiedzi w systemie automatycznego rozpoznawania mowy. Wypowiedzi są porównywane do tekstów zgromadzonych w hierarchicznie uporządkowanym korpusie.
Model języka polskiego, jaki przyjęliśmy w analizach, jest modelem przestrzeni wektorowej (ang. vector space model ). Każdy dokument pochodzący z korpusu jest traktowany jak wektor należący do przestrzeni wektorowej, co pozwala na zastosowanie metod algebry liniowej na korpusie tekstu jako całości.
W pracy posługujemy się bazami tekstu o rozmiarach rzędu kilku gigabajtów, dlatego przedstawiamy metody o liniowej złożoności czasowej względem rozmiaru korpusu i prezentujemy użycie relacyjnej plikowej bazy danych typu sqlite3 do przechowywania i przeszukiwania danych.
google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
Subskrybuj:
Komentarze do posta (Atom)
Brak komentarzy:
Prześlij komentarz