数理语言学

来自中文百科,文化平台
跳转至: 导航搜索

数理语言学( mathematical linguistics),应用数学思想和数学方法来研究语言现象的一门新兴语言学科。它使语言学与现代数学、计算机科学、控制论以及人工智能等学科发生密切的联系。

1847年,俄国数学家V.Ya.布利亚科夫斯基认为可以用概率论来进行语法、词源及语言历史比较的研究。1894年,瑞士语言学家F.de索绪尔认为,可以用数学公式有规律地表达语言中量和量之间的关系,他把语言学与几何系统和只有复杂项的代数相比。1904年,波兰语言学家J.N.博杜恩·德·库尔德内认为,语言学家应该掌握初等数学和高等数学,语言学将根据数学的模式更多地扩展量的概念,并将发展新的演绎思想的方法。1933年,美国语言学家L.布龙菲尔德更认为数学是语言所能达到的最高境界。俄国数学家A.A.马尔可夫甚至在1913年就采用了概率论的方法研究A.S.普希金的诗体小说《叶甫盖尼·奥涅金》中的俄语元音和辅音字母的序列,从而建立了马尔可夫随机过程的数学理论。

20世纪40年代以来,由于通信技术的发展,需要寻求语言的最佳编码方法,以提高信道的传输能力,因而要对语言的统计特性进行精密的研究。机器翻译、情报检索等文献自动处理技术的出现,又要求精确地描述和解释语言的结构,建立语言的数学模型,并用数学方法来研究语言的语法和语义结构。迅速发展的概率论、数理统计、信息论、集合论、数理逻辑、图论、格论、模糊数学和抽象代数等数学部门,为用数学思想和方法研究语言提供了有力的武器;传统语言学内出现的O.叶斯泊森的“分析句法”,结构语言学内L.布龙菲尔德、Z.S.哈里斯等人提出的辨别语素、分析层次的一套严格的语言研究法,在这方面也起了一定的启示作用。控制论采用的一些方法,特别是模拟方法,可以作为建立语言数学模型的借鉴;计算机科学中对程序语言结构和编译技术的研究,可以作为用数学思想和方法研究自然语言的参考;人工智能所探讨的有关智能活动的一般规律,对数理语言学的研究也有一般的指导作用。

1955年,美国哈佛大学首先创办了数理语言学讨论班,1957年正式开设数理语言学课程。此后,日本、苏联、联邦德国、罗马尼亚、法国、匈牙利、捷克斯洛伐克、英国、波兰、瑞典、民主德国相继开展这方面的教学和研究。中国从50年代末逐步开展了数理语言学的研究,在用数学方法研究汉语的自动分析和生成、汉字信息处理、言语统计等方面,都取得一定成绩。有的单位还开设了数理语言学课程。

数理语言学主要包括三个方面:①代数语言学,②统计语言学,③应用数理语言学。代数语言学是采用集合论、数理逻辑、算法理论、模糊数学、图论、格论等离散的、代数的方法研究语言;统计语言学是采用概率论、数理统计和信息论等统计数学的方法研究交际过程中语言成分使用的频率和概率(统计规律);而把代数语言学和统计语言学应用于机器翻译、人机对话以及情报检索的技巧和方法的研究,是应用数理语言学的内涵。

代数语言学的目的在于建立语言的代数模型,对客观的语言现实进行抽象的代数描述和理论上的精确分析,从而把语言学的某些方面改造成数学那样的演绎系统。统计语言学的目的在于建立语言的统计模型。

包括机器翻译、人机对话、信息存储、信息传输等在内的应用数理语言学,主要研究语言自动分析和语言自动生成的方法,目前则重视语义的形式化研究。数理语言学丰富了语言研究的手段和方法,并为语言学的研究开辟了一个新领域。