言语识别

来自中文百科,文化平台
跳转至: 导航搜索

言语识别( speech recognition),机器自动识别言语的专门用语。这里的言语指话音,不是指书面语言,机器指电子计算机或由它构成的系统。

言语识别的研究内容极其丰富。从话音的发音情况和所要识别的单位看,可以分成两大类:单呼言语的识别和连呼言语的识别。从机器是否要预先训练来看,又可分为专人言语识别和通用言语识别。从机器听从话音的指挥角度来看,又有语言理解的专门系统等等。

单呼言语识别

发音时每发一次识别单位(单字、词、词组或短语、语句),必须停顿一下,停顿时间一般要求100~150毫秒,而每个单位(例如短句)内部不允许短于100毫秒。例如,口呼地名的识别,一个地名与另一个地名之间要求隔开100毫秒以上,但是在一个地名内部不得超过100毫秒的间隙,一个地名作为一个单位来识别,而并不识别一个地名由哪些字音构成。

连呼言语识别

发音人一口气说了一些话,字音之间不存在间隙,而是连续发音,要求机器识别话中每一个字。例如说“北京”这两个字音,要求机器识别“北”与“京”两个字。这就存在着音节切分的问题。要将“北”与“京”两个音的分界点找出来,可根据第二字的辅音来判断;但如果第二字的辅音是浊音或是零声母,切分就非常困难。

专人言语识别

机器要求发音人首先把所用的字表念一遍或几遍,以适应这个发音人的特点,识别这个专门人的话音。当换一个人发音时,一般识别精度会明显下降。

通用言语识别

不用训练,机器即能识别很多人在一定范围内的话音。不用训练,指不需要适应专门人的临时训练。国外发表的一些实验结果,虽然能够与专人言语识别系统的结果相比拟,但是在计算机里存放的信息远较专人言语识别系统多。

语言理解系统

发音人说话后,计算机能懂其意思,并能分析关键字的含义,而不必逐字逐句地识别,这叫做语言理解系统。   发音人的识别与验证 从话音来识别发音人,称发音人的识别。发音人的验证是让机器对话音及发音人作出是与否的判定。

===目前通行的言语识别系统的工作原理=== 

①模式匹配法的识别:以专人单呼言语识别系统为例,最常见的是“模式匹配法”。假定要求计算机能识别100个口呼中国地名(“北京”、“上海”、……),用户就得按照100个地名表,逐个训练计算机──呼一遍或几遍,计算机在它的存贮器里建立参考模式,每个地名有一个或几个参考模式,用户可以随便呼出地名表中的任何一个地名,计算机将新呼进来的语音模式(参数)与存好的参数模式,逐个地进行比较,算好未知语音模式与每个参考模式的距离(或相似性),根据这个距离表,找出距离最小者(或相似性最好者)所对应的参考模式,从而判定发音人发的是哪个地名。构成模式的参数,一般用短时频谱数据。分析语音的短时频谱,可以用软件对经过模/数转换后进入计算机的数字式语言波来完成,也可以用专门的硬件──滤波器──组(模拟的或数字式的)来分析,这称为前置分析。(图1)

言语识别1.jpg

图1 模式匹配法识别系统的简单框图


②特征提取法的识别:应用提取语音的声学特征来识别语言,与模式匹配法不同。这种系统较为复杂,它需要对语音的参数和变量进行大量而细致的研究,一般要对每一个语音特征作出最优比较选择,排除无关的数据,把那些似同实异的音区别开来。事实上择优办法也是两种方法的合用。首先在音素方面要有显著的层次,例如蜂音与咝音(浊音与清音),送气与不送气,音节切分,声调模式等;其次用模式匹配法来识别一系列音素构成的模式。对于采用多大的语音单位,有人认为以音节或更大一些的语音单位来识别,比把音节分割成若干音素更为合理。目前,用这种方法识别比模式匹配法误识率大。特征提取法识别系统已有很多,这里介绍一种APEL(声学 -语音学单元)提取特征系统的框图作为代表。(图2)

言语识别2.jpg

图2 声学-语音学分析系统框学

目前国内外言语识别的水平

专人单呼言语识别已达到实用阶段,国际市场上已有十多个商品,从简单的用几条口令的声控玩具到用上百条口令的电话订票系统。国外水平高一点的均采用动态规划的办法进行时域方面的伸缩匹配。国内中国科学院声学研究所的言语识别组采用非线性时域规正的办法,将每一个言语图样规正为同样大小的图样,匹配比较时,只需一时一地进行比较,避免了动态规划技术耗时长,难以在计算机上进行实时识别的问题。连呼言语识别在国外的实验室里正进行着大量的研究。目前国外的个别商品据说能识别连呼言语,但与实用尚有距离。

就目前人们所掌握的技能来说,下列项目已经完全能够实现声控:如自动分检邮包,机器人的动作,传输带上的产品检验,话控锁,数据输入并算帐,一定范围的编辑系统,军事指挥命令的下达,航天器上的仪器操作,生产线上的控制等等,言语识别的研究成果还将深入到家庭,如声控开门、关门、拉窗帘、电视开关选台、电话拨号、家用机器佣人等等。