言语合成

来自中文百科,文化平台
跳转至: 导航搜索

言语合成( speech synthesis),用人工产生语音乃至整段语言的技术。合成语音的装置称言语合成器或言语合成系统。早期的合成器是机械式或电路式,如今,言语合成已经计算机化了。言语合成技术不仅是深入研究语音特性的一种手段,而且也是实现人机语言通信的一种手段。

在语音研究中,利用言语合成技术可以灵活而精确地控制语音的特性参数,合成出各种各样的语音样本,通过对这些样本的听辨,逐步揭示出语音现象的机理。

类型及其发展

言语合成约可分为5个阶段:①20世纪40年代以前用机械或电路模拟语音。②50年代有了新的进展,言语声谱分析已相当完备。辅音与元音之间的“过渡音征”画成模式,通过模式还音器能产生很标准的辅音,至今还有参考价值。③60年代,计算机应用于语音合成系统,言语的“规则合成”成为最先进的合成自然语言的途径。④70年代以来,在规则合成的基础上,主要向合成的商品化发展,大量的多语言对译器充斥市场,多限于有限辞汇和低质量的音质。⑤80年代以来,提高了合成的音质以及“文–语合成”,盲人阅读机等都有了相当成绩。这种连续语言的合成要求,展开了第5代言语合成的序幕。未来的言语合成,除了更仿真地合成语音外,还要包括语法、语气等特征,为人–机对话系统奠定基础。

计算机与言语合成 计算机能以极高的速度进行运算和控制,又能接受、存储和输出庞大的信息。然而,迄今为止,人和计算机之间的信息交换,几乎都是依靠键盘打字、屏幕显示和打印输出。人的话语是一种最自然、最有效的通信媒介,因此,语音合成是人–机对话最重要技术之一。

计算机的言语合成系统大体有以下3类:

①规则合成系统扎根于语音产生的声学理论。按此理论,任何一个语音都由声源激励、声道共鸣和口鼻辐射3个过程产生。语音不同,产生语音的一套声学参数也不同。

②单元编辑合成系统。事先存入一套语音单元中每一单元的一小段数字波形,存入的单元可以是音素或音节,或者是某音素的脉冲响应波形,例如,存入所有浊音音素的一个周期的波形。合成时,将这些单元选择性地连接起来。

③录音编辑合成系统。事先把待输出的语句、短语、单词等进行录音、压缩和编码,然后存入计算机。使用时,在既定的指令串控制下,计算机对存入的信息进行检索、编辑和解码,输出话音。这种系统如同一种低数码率的录放机。在录音编辑合成系统中,存入的是原始语音的波形,只要发音人经过挑选,语音音质较好,合成的质量就能比较合乎理想。早期由于受到计算机存储量的局限,人们不可能把日常交谈或阅读时所用的各种词汇和语句都存入计算机,只能按不同用途存入优先的语句和词汇,应用上受到较大的限制。随着计算机的飞速发展,储量能容纳巨万的词汇,乃至各种语音学的规则。因此,合成系统多以此为主。

国内外对上述3种类型的语音合成系统正在大力开发。有的系统已开始用于自动报时、天气预报、自动报电话号码、汽车自动报警、语音教学、导游语词翻译、发音玩具等方面。有的系统和语音自动识别系统合为一种应答系统,用于车站、机场自动售票业务等,乃至电话中不同方言的自动转译。在一种盲人助读系统中,输入文字后,系统能流利地朗读。

言语识别