27 cze 2013

Anotowanie korpusów mowy

Korpus AGH jest realizowany w standardzie plików MLF i jego fragment wygląda następująco:
#!MLF!#
“C:/Users/Bartek/Desktop/Nagrania/10a2.wav”
53420000 57750000 Podmiana
58030000 59940000 tego
60530000 65120000 typu
85830000 88490000 może
88490000 93720000 nastąpić
MLF jest częstym standardem anotowania pod kątem ćwiczenia systemów rozpoznawania mowy. Drugą popularną metodą jest program Transcriber. Anotator AGH korzysta z własnego wewnętrznego formatu, jednak wyniki mogą być eksportowane do MLFów.

Niektóre korpusy nie są jedynie zapisem tekstów i mowy, co można zaprezentować na przykładzie notacji korpusu LUNA. Zaledwie około 2 sekundowe nagranie początku rozmowy jest anotowane kilkustronnicowym opisem. Jest to format uwzględniający funkcje gramatyczne, odziedziczony z korpusów wykorzystywanych w przetwarzaniu tekstów.

www.dsp.agh.edu.pl

Brak komentarzy: