28 cze 2013

Słowniki komputerowe

W wypadku języka angielskiego bardzo dobrym zasobem jest BEEP dictionary. Jest to słownik utworzony przez University of Cambridge. Zawiera ponad 250 tysięcy angielskich słów wraz z zapisem fonetycznym. BEEP jest używany między innymi przez najbardziej znany akademicki system rozpoznawania mowy HTK.

W kwestii słowników języka polskiego należy wspomnieć o PWN. Wydawnictwo to dysponuje dobrymi zasobami, jednakże ich dostępność jest ograniczona i zwykle bardzo kosztowna. Czasami udostępniają swoje zasoby przez internet, ale raczej tylko częściowo i wersjach uniemożliwiających obliczeniowe zastosowanie. Kilkukrotnie prowadzilismy rozmowy z PWN w kwestii udostępnienia słowników języka polskiego i kończyły się one zawsze podobnie – ofertą trudną do przyjęcia ze względów finansowych.

Ispell, Aspell i Myspell są projektami na licencji GPL gromadzącymi słowniki dla różnych języków, w tym polskiego. Są to w tej chwili najłatwiej dostępne do prowadzenia badań, duże słowniki języka polskiego. Słownik jest udostępniany dla kilku programów linuksowych, w tym OpenOffice. Można go także otrzymać w wersji tekstowej. Istnieje w kilku wersjach różniących się rozmiarem: podstawowa tylko z najpowszechniejszymi słowami, trzon języka umożliwiający dobrą komunikację oraz pełny słownik. Wersje 2 i 3 różnią się głównie różnymi nazwami biologicznymi, stanowiącymi około 40% największego ze słowników. Przy jego tworzeniu uwzględniono około dwóch i pół miliona form wyrazowych.

Istnieje jeszcze kilka innych ciekawych projektów dotyczących słowników języka polskiego. Część z nich  jeszcze nie udostępnia żadnych przydatnych danych, ale obiecuje, że ma to w planach.
• Synonimy Open Office http://synonimy.ux.pl/,
• Wielki Słownik Języka Polskiego http://www.wsjp.pl/,
• Słownik wyrazów obcych i zwrotów obcojęzycznych Władysława Kopalińskiego http://www.slownik-online.pl/index.php,
• Wikisłownik http://pl.wiktionary.org/,
• Słownik synonimów i antonimów Piotra Żmigrodzkiego http://leksykony.interia.pl/synonim,
• Słownik Języka Polskiego http://sjp.pl/,
• N-gramowy słownik frekwencyjny języka polskiego http://www.dsp.agh.edu.pl/doku.php?id=pl:resources:ngram.

Lista zasobów języka polskiego, w tym słowników dostępna jest na http://clip.ipipan.waw.pl/LRT.

Brak komentarzy: