15 gru 2008

Liczenie statystyk słów i trifonów

Moją główną działalnością badawczą jest obecnie nadzorowanie liczenia statystyk językowych. Zajmujemy się dwoma rodzajami statystyk. Pierwszy to wystąpienia trifonów, potrzebne do rozpoznawania słów nieistniejących w słowniku, takich jak nazwiska i adresy. Drugim zastosowaniem jest przydatność listy wszystkich możliwych trifonów przy szkoleniu modelów akustycznych.

Ponadto przygotowałem oprogramowanie w C++ do robienia n-gramów słów. Dysponuję obecnie około 2 GB polskiego tekstu i na tych danych sporządzam 1, 2 i 3-gramy. Praca jest mozolna i są problemy z pamięcią mimo, że program operuje na dynamicznej liście.

Duża część tych obliczeń prowadzona jest na komputerach cyfronetu.

Ponadto zajmuję się gromadzeniem różnego rodzaju korpusów tekstowych na dwa sposoby. Przygotowuję korespondencję do firm i instytucji, które takie dane posiadają oraz projektuje system do automatycznego tworzenia korpusów. Implementacją głównej części roboczej zajmują się studenci inżynierii akustycznej.

Brak komentarzy: