| 网站首页 | 语音学会信息 | 语音学术会议 | 中国语音学报 | 语音学研究报告 | 电子博物馆 | 在线语音学 | 语音学术资源 |
 您现在的位置:首页-在线语音学-语音识别-在线语音学>>正文 
语音识别-在线语音学
作者:李爱军 来源:中国语言学会语音学分会 阅读次数: 6758 发表日期: 2009/9/4 15:41:09

    目前,国际上正酝酿和进行着一场所谓信息革命,在这场革命中,一种能摸拟人的智能的计算机,即所谓第五代计算机将崭露头角。这种计算机能看,能听,能说,具有分析、判断、推理和思考的能力,是名符其实的电脑。就语臼学范畴而论,这种计算机应能接收自然语音的输入和能用语音输出。显然。人们用自己的语音跟计算机打交道,这将是十分方便的。

    下面,我们就扼要地介绍一下计算机的语音输入的基本原理和现状。一.语音自动识别要计算机听懂人们说的话,这是语音自动识别研究的课题。在日常生活中,我们是用数以万计的词汇,组成连贯的语句来交谈的。语音自动识别的最终目标是要将连贯的语音机械地变换成文字符号系,实现所谓语音打字机式的识别。然而,在自然发音的语句中,由于协同调音以及语调、重音和抑扬顿挫等韵律的影响,每个音素的声学特性都跟单念时不大一样,要实现此最终目标是很不容易的。就目前的技术水准而言,语音的自动识别基本上有两条途径:孤立词的模式匹配识别和有限词汇的连续识别。图A2.39是孤立词的模式识别系统的原理图,在正式执行识别作业之前,发话人逐个地读待识别的词汇、计算机经过逐帧分析,提取出某些特征(如频谱包络、共振峰、LPC系数等),制成一组组标准样板贮存备用。这就是所谓训练或学习阶段。使用时,发话人说出某一词,计算机经过分析和提取特征,逐一与库存样板做比较,选出一组匹配得最好的,判为所说的词。由于受到计算机存储 容量和 处理时间的限制这 种系统 识别的词汇量一般只有10~1000个。此外,这种方式一般是认人的,能以较高的识别率(一般都在95%以上)识别出训练它的人所发的词。如果换了人,识别率明显下降。目前国际市场上已有许多种这类孤立词识别装置,开始应用于产品质量检验和记录;邮件分类,电话查询等场所。 近年来,我国在孤立词识别的研究方面也取得可喜的进展。如中国科学院声学研究所的单呼口令识别系统可识别1400-2000条口令,反应时间已经达到实时,该系统已应用于模拟作战指挥系统等场合。清华大学和哈尔滨工业大学等部门也都纷纷推出识别率90%以上,词汇量1000条左右的系统。显然,孤立词识别装置的应用很有限,人们需要它能识别大量词汇组成的连续语句。从原理来说,一个语句由若干词语组成,一个词又由一个或几个音节组成。一个音节又由一个或几个音素组成,在一种特定语言中,音素只有几十个,只要能正确识别出一个个音素,不就可以识别出一连串的音节、词和语句了吗?是的,这是一条可行的思路,问题在于发话人头脑中的言语信息是离散的,可是所发出的语音声波却是连续的,我们怎样才能教会计算机把连续的语流切分成一段段的识别单元,正确地识别出来和组成正确的音节、词和句子?下面,让我们举个例子来说明一下计算机将是如何识别连续语句的。 图A2.40是一套以音素为识别单元的连续识别系统的原理框图。连续语流输入后,首先根据语流中的能量的峰谷、清浊、共振峰变化模式等多项特征进行词、音节和音素等识别单位的切分。逸就需要语音学家广泛进行音联等方面的研究,总结出一套切分规则。在音素识别阶段,进行模式匹配式的识别,就某一音段选出几个候选音素。由于协同调音的影响,语流音秦的声学特性变化较大。这就需要事先分析和归纳出各种音变规律,以提高音素的正确识别率。在音节识别阶段,计算机根据音素识别的结果和库存的拼音规则来组合音节。例如某一音段以0.9的概率判为h,以0.8的概率判为q,后一音段分别以0.9和0.8的概率判为ǖ和i,那么两音段组合成音节的概率分别为h-ǖ(0.81),h-i(0.72),q一ǖ(0. 72)。q-i(0.64),按普通话拼音规则,前两种组成是不成立的,故最后依概率大小可判为q-ǖ。在单词识别阶段中,通过查询计算机词典将识别的音节组成词并判定该词的正确性。目前,还没有达到识别无限词汇的水平,只能将识别限定在某一领域常用的词汇上,词汇量一般在1000左右。到了语句识别阶段。计算机要根据事先定好的语法规则、语义信息,上下文关系等语言学知识,分析候进语句,挑出最佳者。我们可以看到,在连续语的识别系统中,语音学乃至语言学的作用是举足轻重的,这种系统实际就是一种言语理解系统。目前,连续语识别系统基本处在实验室阶段,有少数几个系统在情报检索、预约机票、旅费管理等方面试用,识别词汇几百到一千,识别率约90%。此外,在语音识别方面,还有一个话者识别的课题。在保密和司法等部门,这是一个重要的课题。从直观上看,一个人的话音包含着这个人的特点,这就是所谓语音的个人性,好比一个人有其特定的指致,一个人也有其特定的"声纹"。在孤立词识别装置中,认人是不好的。可是在这里却专门希望计算机认人。话者识别的原理基本上和模式匹配识别的原理相同。关健在于寻找能体现个人特征的语音参数,如声带波形、声道构形,鼻音共振峰,语调等。但目前,这一领域也只处于试验阶段。

上一篇:章程草案-中国语言学会语音学分会
下一篇:引言-在线语音学
版权所有©中国语言学会语音学分会@ 京ICP备05045036号  京公网安备11010102001115号
地址:北京市建国门内大街5号中国社会科学院语言研究所语音研究室(100732)
电话:010-65237408  Email: phonlab@cass.org.cn