23 cze 2013

Korpusy nazw własnych

Do niektórych zastosowań w dziedzienie technologii mowy potrzebne są listy przykładowych nazwisk, adresów i innych nazw własnych. W wypadku języka polskiego przydatną jest, politycznie i społecznie kontrowersyjna, lista Wildsteina. Jej przetworzoną i uporządkowaną wersją dysponuje Zespół Przetwarzania Sygnałów AGH. Zawiera ona jednak dość dużo niepolskich nazwisk, na przykład arabskich. Innym źródłem tego typu danych są korporacje, które jednak rzadko chcą je udostępnić. W naszym przypadku udało się zdobyć jedynie korpusy oparte o listy pracowników i udziałowców firmy ANWIL SA,
pomimo nawiązywania kontaktów z wieloma innymi przedsiębiorstwami. Listę nazwisk można także uzyskać odpłatnie z baz danych PESEL, jednakże cena ich udostępnienia nie jest podawana z góry, a zależy od czasu pracowników spędzonego przy przygotowaniu danych.

Trudniej o korpusy nazw geograficznych itp. Istnieje bazą miejsc w Warszawie powstała w ramach projektu LUNA.

Brak komentarzy: