Fragment książki "Przetwarzanie mowy"
Przy wyborze korpusu należy rozpatrzyć kilka czynników. Podstawową kwestią jest dobór nie tylko języka, ale także dialektu. Powinien on być taki sam, jak ten którym posługują się docelowi odbiorcy projektowanego systemu. Jest to szczególnie ważne w wypadku języków tych krajów, które prowadziły intensywną działalność kolonizacyjną. Ich języki rozprzestrzeniły się po całym świecie i dialekty różnią się bardzo znacząco.
Nie jest to także bez znaczenia w wypadku języka polskiego. Podstawowe dialekty języka polskiego to: śląski (coraz częściej uznawany za odrębny język), wielkopolski, małopolski (w tym gwara krakowska, podhalańska, sądecka, żywiecka i łowicka), mazowiecki (w tym często zaliczana do niego gwara białostocka), chełmińsko-kociewsko-warmiński, północnokresowy i południowokresowy. W wielu rejonach Polski, zwłaszcza zachodniej i północnej, ze względu na masowy napływ ludności po drugiej wojnie światowej, dialekty nie występują. Używany tam język określany jest jako mieszany.
Ujednolicenie języka występuje także przez środki masowego przekazu, edukację i multimedia – a przede wszystkim telewizję. To ujednolicenie dąży zwykle do dialektu używanego w stolicy, tak jest także w przypadku Polski. W cieniu tego zjawiska występuje również wzmożone mieszanie dialektów, wynikające z większej mobilności ludzi w ostatnim dziesięcioleciu. W ten sposób także słowa innych dialektów wędrują poza region swojego pochodzenia.
Kolejnym czynnikiem do uwzględnienia przy wyborze korpusu jest częstotliwość próbkowania w wypadku korpusów zawierających mowę (a nie sam tekst). Typowymi częstotliwościami są 44,1 [kHz] (standard CD) i 16 [kHz] (systemy telekomunikacyjne). Stosuje się także ich wersje okrojone w celu kompresji: 11 025 [Hz] (1/4 pasma CD) i 8 [kHz] (1/2 pasma telekomunikacyjnego). Ten parametr należy uwzględnić, szczególnie jeśli zmienia się korpus, na przykład po wstępnych testach. Dobrze jest odtworzyć mowę w ustalonym przez siebie standardzie. Jeśli są one źle dostosowane, rozpoznamy to po śmiesznym – zwolnionym lub przyśpieszonym – sposobie mówienia.
Istotnym parametrem korpusu jest także format w jakim zapisana jest mowa lub tekst. W wypadku mowy może być dostępna różna liczba kanałów, np. mono lub stereo oraz różny sposób kodowania. Najpopularniejszym sposobem kodowania sygnału analogowego w systemach cyfrowych jest PCM (ang. Pulse Code Modulation). W wypadku polskich korpusów tekstu należy uwzględnić format zapisu polskich znaków ortograficznych. Niestety nie ma w tej kwestii żadnego głównego standardu. Do celów naukowych zwykle najlepiej stosować UTF-8. Stosuje się w nim zarówno znaki jednobajtowe, zaczynające się od 0, jak i wielobajtowe, przy czym 2 bajtowe mają schemat 110xxxxx 10xxxxxx, 3 bajtowe – 1110xxxx 10xxxxxx 10xxxxxx itd. Innymi standardami są na przykład Windows-1250, nazywany także CP-1250, ISO 8859-2, DOS CP852 i Mazovia. Jednym z programów, który umożliwia ich konwersję jest Gżegżółka darmowo dostępna w internecie.