汉语语音理解系统

来自中文百科,文化平台
跳转至: 导航搜索

汉语语音理解系统( oral Chinese understanding systems),人和计算机之间用汉语口语语音对话的系统。汉语连续语音理解的研究目前尚无具体成果,但汉语单词和简单口令的语音识别取得了不少进展,有的系统已投入应用。语音合成方面也建成了一些系统。

汉语语音识别

中国科学院声学研究所于20世纪50年代后期开始研究,研制出汉语单元音的识别装置;60年代对汉语清晰度进行过系统试验,取得了基础数据;70年代末80年代初用模式匹配法事先存入发音人的语音样板,计算机可识别几十条口令,内容包括数字、四则运算符号以及少数操作命令,实现了单呼语音识别。1980年清华大学计算机系用模式匹配法使计算机能识别中国十几个大城市的地名。口呼地名语音输入,屏幕显示汉字;同时可用口语查询清华大学内部电话号码;在此基础上,于1984年建成“8 000台电话声控查号系统”,已交付使用。用户查询电话,由话务员对计算机复述单位名称,屏幕上即显示号码,并通过语音合成将号码自动报给用户。方法是:各个话务员事先口呼各单位名称,贮存在软盘上作为样板,话务员上班时换上自己的软盘。用户查号时,由话务员将待查单位名称及所属地区、部门等口呼输入。例如用户查清华大学电话号码,话务员需口呼“海淀区”、“高校”、“清华大学”三个名称,屏幕上即显示汉语拼音Hɑi Diɑn Qu, Gɑo Xiɑo, Qinɡ Huɑ Dɑ Xue, 282 451。话务员检查无误,按“报号”键,系统即自动将号码报给用户;并设有“改正”、“清除”、“列表”等功能键以避免错误,可保证报给用户的号码准确无误。与此同时,建成“连续数字语音识别系统”,只需贮存0~9个数字的语音样板,即可识别连续数字。三位数的识别率为90%。这方面的研究目前还停留在模式匹配的语音识别上,需要进一步探索汉语连续语流的语音理解。见自然语言语音理解系统。

语音合成

中国科学院声学研究所于1983年在瑞典与瑞典皇家工学院语言通信和音乐声学系合作,建成“汉语文语转换系统”。分析了语音频谱,建立了语音区别特征,编写了语音规则和音系规则(包括轻声和儿化)。文本用汉语拼音(主要元音后加特定调号)键盘输入或光电阅读输入,计算机即可用合成语音读出;并能根据句型调整语调,也可在句中任何单词上加着重点据以重读。采用字素–音位转换,合成语音的词汇量无限,能根据输入文本朗读故事。清华大学计算机系于1984年建成“无限词汇汉语语音合成系统”。将元音、辅音和过渡音的压缩波形参数存入机内,使用时键盘输入汉语拼音(加四声),计算机即可调出相应的参数,得出近似的语音波形合成语音输出。能读出所有的汉语音节,也可读出句子。目前合成语音的自然度尚不够理想。中国社会科学院语言研究所近年从声学语音学和发音语音学两方面入手研究汉语语音特征,包括辅音过渡、滑音、连续变调、轻重音、节拍等,以提高合成语音的自然度,在单元音和复合元音的合成方面已取得一定成效。