W wypadku języka angielskiego bardzo dobrym zasobem jest BEEP dictionary. Jest to słownik utworzony przez University of Cambridge. Zawiera ponad 250 tysięcy angielskich słów wraz z zapisem fonetycznym. BEEP jest używany między innymi przez najbardziej znany akademicki system rozpoznawania mowy HTK.
W kwestii słowników języka polskiego należy wspomnieć o PWN. Wydawnictwo to dysponuje dobrymi zasobami, jednakże ich dostępność jest ograniczona i zwykle bardzo kosztowna. Czasami udostępniają swoje zasoby przez internet, ale raczej tylko częściowo i wersjach uniemożliwiających obliczeniowe zastosowanie. Kilkukrotnie prowadzilismy rozmowy z PWN w kwestii udostępnienia słowników języka polskiego i kończyły się one zawsze podobnie – ofertą trudną do przyjęcia ze względów finansowych.
Ispell, Aspell i Myspell są projektami na licencji GPL gromadzącymi słowniki dla różnych języków, w tym polskiego. Są to w tej chwili najłatwiej dostępne do prowadzenia badań, duże słowniki języka polskiego. Słownik jest udostępniany dla kilku programów linuksowych, w tym OpenOffice. Można go także otrzymać w wersji tekstowej. Istnieje w kilku wersjach różniących się rozmiarem: podstawowa tylko z najpowszechniejszymi słowami, trzon języka umożliwiający dobrą komunikację oraz pełny słownik. Wersje 2 i 3 różnią się głównie różnymi nazwami biologicznymi, stanowiącymi około 40% największego ze słowników. Przy jego tworzeniu uwzględniono około dwóch i pół miliona form wyrazowych.
Istnieje jeszcze kilka innych ciekawych projektów dotyczących słowników języka polskiego. Część z nich jeszcze nie udostępnia żadnych przydatnych danych, ale obiecuje, że ma to w planach.