自然语言语音理解系统

自然语言语音理解系统（ natural speech understanding systems），人和计算机之间用自然语言口语语音对话的通信系统。从20世纪60年代初开始研究，10多年间一直停留在用模式识别的方法辨认单词的语音识别，即在计算机里储存某些单词的声学模式，用作匹配输入的语音信号。由于语音识别无法使计算机辨认连续语流中的语音变化，以及人和人之间、同一个人先后发音之间的差别，也不能排除噪声干扰，因此效果不大。

70年代初期认识到，必须综合应用语言学知识来研究计算机对连续语流的语音理解。1971年美国国防部高级研究计划中心为语音理解研究设立基金，要求在5年之内取得突破。具体指标是使计算机能理解特定范围内的正常口语句子（连续语音），单词不少于1 000，错误不超过10％。到1976年先后建成了一些英语语音理解的实验系统，它们能在有限的词汇、句法和特定的主题范围内理解英语口语句子。其中有代表性的是美国卡尔奈吉–梅隆大学的HEARSAY系统和HARPY系统，BBN公司的HWIM系统。这些系统的设计互不相同，各自采用了特定的技术安排，但总的方法是一致的，即语音、词汇、句法、语义、语用的分析同时进行，互为补充，以确定输入句的内容。一般的处理程序是分析输入语音信号的声学物理特征，根据音系规则归纳音位、音位变体、连续音变和语音省略；以切分音节；根据构词规则作出单词假设，称为“底端分析”；应用句法、语义、语用规则和主题知识，根据上下文预测输入句的内容，称为“顶端分析”。底端无需识别每一个语音信号，模糊不清的可以跳过；只要能提出句中某几个单词的假设，就能由顶端根据词的搭配、句法组合和主题知识前后左右加以推断，建立句中单词序列的一种或几种假设，再用底端的语音数据核实，择优选用。这种上下结合的分析方法是一个重要的突破，取得了明显的效果。据HARPY系统的实验，底端凭语音数据切分单词的准确率只有42％，而语音、句法、语义综合分析的准确率却高达97％。

70年代后期和80年代初期，语音理解向纵深探索，开始设计某些专用性系统，例如澳大利亚堪培拉高等教育学院信息科学学校正在研制的FOPHO系统，输入澳大利亚英语口语语音，计算机经过识别、理解能转写为音标显示输出，为教学和科研服务。进入21世纪，随着计算机技术和人工智能技术的发展，自然语言语音理解系统的研究和应用不断取得进展，例如系统在电话信道上的成功应用等。关于汉语语音理解的研究，见汉语语音理解系统。

自然语言语音理解系统

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具箱