自然语言语音理解系统

来自中文百科,文化平台
跳转至: 导航搜索

自然语言语音理解系统( natural speech understanding systems),人和计算机之间用自然语言口语语音对话的通信系统。从20世纪60年代初开始研究,10多年间一直停留在用模式识别的方法辨认单词的语音识别,即在计算机里储存某些单词的声学模式,用作匹配输入的语音信号。由于语音识别无法使计算机辨认连续语流中的语音变化,以及人和人之间、同一个人先后发音之间的差别,也不能排除噪声干扰,因此效果不大。

70年代初期认识到,必须综合应用语言学知识来研究计算机对连续语流的语音理解。1971年美国国防部高级研究计划中心为语音理解研究设立基金,要求在5年之内取得突破。具体指标是使计算机能理解特定范围内的正常口语句子(连续语音),单词不少于1 000,错误不超过10%。到1976年先后建成了一些英语语音理解的实验系统,它们能在有限的词汇、句法和特定的主题范围内理解英语口语句子。其中有代表性的是美国卡尔奈吉–梅隆大学的HEARSAY系统和HARPY系统,BBN公司的HWIM系统。这些系统的设计互不相同,各自采用了特定的技术安排,但总的方法是一致的,即语音、词汇、句法、语义、语用的分析同时进行,互为补充,以确定输入句的内容。一般的处理程序是分析输入语音信号的声学物理特征,根据音系规则归纳音位、音位变体、连续音变和语音省略;以切分音节;根据构词规则作出单词假设,称为“底端分析”;应用句法、语义、语用规则和主题知识,根据上下文预测输入句的内容,称为“顶端分析”。底端无需识别每一个语音信号,模糊不清的可以跳过;只要能提出句中某几个单词的假设,就能由顶端根据词的搭配、句法组合和主题知识前后左右加以推断,建立句中单词序列的一种或几种假设,再用底端的语音数据核实,择优选用。这种上下结合的分析方法是一个重要的突破,取得了明显的效果。据HARPY系统的实验,底端凭语音数据切分单词的准确率只有42%,而语音、句法、语义综合分析的准确率却高达97%。

70年代后期和80年代初期,语音理解向纵深探索,开始设计某些专用性系统,例如澳大利亚堪培拉高等教育学院信息科学学校正在研制的FOPHO系统,输入澳大利亚英语口语语音,计算机经过识别、理解能转写为音标显示输出,为教学和科研服务。进入21世纪,随着计算机技术和人工智能技术的发展,自然语言语音理解系统的研究和应用不断取得进展,例如系统在电话信道上的成功应用等。关于汉语语音理解的研究,见汉语语音理解系统。