10 mar 2010

Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym

Nasz artykuł "Analiza skupień i redukcja wymiarowości w hierarchicznym modelu korpusowym" został przyjęty na konferencje Bazy danych: Aplikacje i Systemy 2010.

Automatyczna klasyfikacja tekstu pisanego znajduje szerokie zastosowanie w systemach informacyjnych, między innymi w filtrach e-mail, eksploracji danych (ang. data mining ) oraz korekcie tekstu. W tej pracy opisujemy system bazodanowy, który słauży pomiarowi stopnia dopasowania hipotez wypowiedzi w systemie automatycznego rozpoznawania mowy. Wypowiedzi są porównywane do tekstów zgromadzonych w hierarchicznie uporządkowanym korpusie.
Model języka polskiego, jaki przyjęliśmy w analizach, jest modelem przestrzeni wektorowej (ang. vector space model ). Każdy dokument pochodzący z korpusu jest traktowany jak wektor należący do przestrzeni wektorowej, co pozwala na zastosowanie metod algebry liniowej na korpusie tekstu jako całości.
W pracy posługujemy się bazami tekstu o rozmiarach rzędu kilku gigabajtów, dlatego przedstawiamy metody o liniowej złożoności czasowej względem rozmiaru korpusu i prezentujemy użycie relacyjnej plikowej bazy danych typu sqlite3 do przechowywania i przeszukiwania danych.

Brak komentarzy: