Praat脚本:导入数据并自动生成TextGrid数据对象

作者:熊子瑜
脚本ID:Praat.XZY20210905.008
上传时间:2021年9月5日
简介:该脚本根据用户指定的路径下的发音文本文件(*.txt),自动生成相应的TextGrid标注文件。需要注意以下几点:(1)发音文本文件的扩展名必须为*.txt,如果有与之相对应的声音文件,则扩展名必须为*.wav,且必须与发音文本文件(*.txt)保存在相同文件夹之中。(2)发音文本文件必须使用UTF-8编码格式,所有的文本内容都应放在第一行。(3)在自动生成的TextGrid数据对象中,其音节和声韵母等边界的位置都是不准确的,需要手工校准。(4)脚本程序会自动读取发音文本文件,并按照一定的格式解析其内容,汉语发音文本建议采用半角空格分词,以便于后期提取词表制作发音词典用于音段自动切分。另外,除了发音内容之外,在发音文本内容后面的尖括号“<>”中可以包含需要自动导入至TextGrid中的标注数据,标注数据应遵循如下格式:各层级标注内容应按次序分别放到中括号“[]”之中,分别包含关键词和标注内容,二者之间用半角冒号分隔;关键词放在英文冒号之前,将用作标注层级名称,英文冒号之后为相应的标注内容,标注内容中可使用以下分隔符:半角空格用作词语分隔符,且应与发音文本中的词语分隔位置一致;“&”用作词内音节分隔符;“|”用作音节内的声韵分隔符;声调用“0、1、2、3、4、……、9”等数字标记在音节和韵母末尾;儿化韵用“r”标记在声调之前;拼音文本中的标点符号可用空格代替。发音文本的内容及其格式示例如下:

  • 学<[拼音:x|ve2][古音:匣;觉;入;江;开;二;觉;全浊;见系;晓组][备注:学习;数学]>
  • 学习<[拼音:x|ve2&x|i2]>
  • 小 老虎 <[拼音:x|iao3 l|ao3&h|u3][类型:1+2][词类:形容词 名词]>
  • 表演 者 <[拼音:b|iao3&yan3 zh|e3][类型:2+1][词类:动词 名词缀]>
  • 洗 脸 水 <[拼音:x|i3 l|ian3 sh|ui3][类型:{1+1}+1][词类:动词 名词 名词]>
  • 我 想要 学习 语音学 ,她 也 要 学习 语音学。<[拼音:wo3 x|iang3&yao4 x|ve2&x|i2 yu3&yin1&x|ve2 t|a1 ye3 yao4 x|ve2&x|i2 yu3&yin1&x|ve2]>
  • 我 想要 学习 语音学。<强调“学习” [拼音:wo3 x|iang3&yao4 x|ve2&x|i2 yu3&yin1&x|ve2]>

 点此下载该脚本程序