Fragment książki B. i M. Ziółko, "Przetwarzanie mowy".
www.dsp.agh.edu.pl
Sposoby gromadzenia danych językowych można podzielić na trzy kategorie: nielegalne, tylko na własny użytek i z prawami autorskimi. W Polsce istnieje dość specyficzna sytuacja prawna, która powoduje, że pierwszej kategorii właściwie nie ma. Zgodnie z polskim prawem wolno ściągać z internetu na własny użytek dowolny materiał, nie będący oprogramowaniem, który jest chroniony prawem autorskim. Nielegalna jest jedynie ich dystrybucja. Należy jednak pamiętać, że większość programów peer-to-peer ściąga i rozprowadza równocześnie. Z drugiej strony, takie systemy wymiany plików, nie są najlepszym źródłem materiałów lingwistycznych.
Nasze doświadczenia w gromadzeniu danych językowych opierają się na kilku źródłach. Jedną z opcji są negocjacje z wydawnictwami, organizacjami, radiami itp. Instytucje te dysponują ogromną ilością danych, które byłyby bezcenne w badaniach dla technologii mowy. Jednakże często pojawiają się problemy natury prawnej z udostępnianiem takich materiałów. Nawet jeżeli przepisy prawne nie stoją na przeszkodzie, to często wewnętrzne ustalenia firm są barierą. Tak było na przykład z portalem Nasza-klasa, gdy pytaliśmy o statystyki polskich nazwisk. Niektóre firmy nie są też zainteresowane współpracą, gdyż sprawa z ich punktu widzenia nie przynosi profitów. Nie zajmują się inwestowaniem w rozwój IT, a środki lub promocja, którą mogą zaproponować w zamian zespoły badawcze, są zwykle zbyt małe.
Dużą część materiałów zebraliśmy bezpośrednio z zasobów różnych osób, głównie studentów. W akademikach można znaleźć niesamowite rzeczy, w niesamowitych ilościach. Studenci znali także adresy stron internetowych, z których można było ściągnąć całe biblioteki. Można również pobrać audiobooki, jako nagrania mowy, co więcej, są to zwykle wypowiedzi, do których można także znaleźć wersję tekstową, czyli właściwą książkę. W wypadku audiobooków należy jednak zwrócić uwagę, czy nie był on utworzony z wykorzystaniem syntezatora mowy i czy nie zawiera muzyki lub fragmentów śpiewanych. Nagrania mowy można również uzyskać z radia internetowego. Do tego celu najlepszą stacją jest TOK FM, nadająca wyłącznie wiadomości i wywiady. Trzeba jedynie uważać na drobne wstawki z efektami dźwiękowymi i używać programu, który nie zawiesi się przy długotrwałym odbieraniu strumienia dźwięku z internetu.
www.dsp.agh.edu.pl