23 cze 2013

Korpusy języka angielskiego

Fragment książki "Przetwarzanie mowy"

Język angielski dysponuje ogromną liczbą korpusów tekstowych. Każdy z dialektów ma swój własny duży korpus. American National Corpus (ANC) powstaje od 1990 roku na podstawie tekstów i transkrypcji. W roku 2009 zawierał około 22 miliony słów. Collins Wordbank jest mieszanym, choć głównie brytyjskim korpusem zawierającym w 2009 roku 56 miliony słów. British National Corpus (BNC) dysponuje 100 milionami słów języka mówionego i pisanego. Corpus of Contemporary American English (COCA) dysponuje aż 385 milionami słów języka mówionego, literatury pięknej i powszechnej, czasopism, tygodników i publikacji naukowych. Powstały prawie pięćdziesiąt lat temu Brown Corpus [60] jest dużo mniejszy (około milion słów). Zawiera jednak oznaczenia części mowy i form gramatycznych, zwane też POStagami. Więcej na ten temat, a także na temat samego korpusu, można przeczytać w rozdziale o przetwarzaniu języka naturalnego i analizatorach morfologicznych. International Corpus of English (ICE) to korpus zawierający teksty o sumarycznej liczbie miliona słów dla różnych wersji języka (brytyjski, Hong Kong, Wschodnia Afryka, Indie, Nowa Zelandia, Filipiny i Singapur). Oxford English Corpus jest korpusem, który był wykorzystywany przez autorów słownika oksfordzkiego i jest prawdopodobnie największym zasobem językowym na świecie, dysponując dwoma miliardami słów z wszelkich możliwych źródeł, wliczając w to strony internetowe. Scottish Corpus of Texts and Speech zawiera około czterech milionów słów szkockiego dialektu.

www.dsp.agh.edu.pl

Brak komentarzy: