专家漫谈|语言模型是什么?它到底有何用途?

来自中文百科,文化平台
跳转至: 导航搜索
专家漫谈|语言模型是什么?它到底有何用途?

吴汶燕 同济大学软件学院


《语言模型是什么?它到底有何用途》插图.jpg

语言模型(英文Language Model,简称LM)是一种单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的数学描述,比较适合于计算机进行自动处理,因而语言模型对于人工智能(AI),尤其是自然语言处理(NLP)具有重大的意义。

语言模型是自然语言处理的重要组成部分,可以用于许多自然语言处理任务;它主要用于描述自然语言的分布规律,是一个非常基础和重要的自然语言处理任务。利用语言模型,可以计算一个词或者一句话的概率;也可以在给定上下文的条件下,对接下来可能出现的词进行概率分布的估计。

语言模型主要有三种类型:生成性模型、分析性模型和辨识性模型。生成性模型从一个形式语言系统出发,生成语言的某一集合;分析性模型从语言的某一集合开始,根据对某一集合中各个元素的性质的分析,阐明这些元素之间的关系,并在此基础上用演绎的方法建立语言的规则系统;辨识性模型可以通过有限步骤的运算,确定某一集合中各个元素是一堆乱七八糟的词还是语言中合格的句子。

自然语言处理近年来发生了革命性的变化,特别预训练语言模型的开发和使用,在许多应用方面都取得了显著的成绩。预训练语言模型有两个主要优点:一是可以显著提高许多自然语言处理任务的准确性;另一是通用的语言处理工具。如果在传统的自然语言处理中进行基于机器学习的任务,需要标记大量的数据来训练模型。人们发现,训练语言模型的本质就是进行统计分析。

概率的计算方式就是语言模型中的核心内容。语言模型可以应用到机器翻译、文本生成和拼写纠错等诸多领域。语言模型最主要的作用是保证文本的语法结构,得到通顺的语句。语言模型基于概率统计的方法,已经训练好的语言模型可以对任何一个文本给出概率,概率越高说明语法上越通顺。通过比较两句话在同一个语言模型上的概率,就可以得出哪一句话更通顺一些。

人们利用数学手段建立语言模型主要有两种方法:一种是基于概率论,另一种是基于形式语言理论;而这两种方法也可以结合使用。从基本框架的观点来看,语言模型属于第一类。在形式上,语言模型是一个定义在单词序列(一个句子或一个段落)上的概率分布,是基于概率论、统计学、信息论和机器学习的自然语言文本建模工具。

近年来,通过深度学习得到的神经语言模型,特别是最近开发的预训练语言模型,已经成为自然语言处理的基础技术。语言模型可以用来计算语言的概率(词序列)或生成语言。在后一种情况下,自然语言的句子或文章可以从语言模型中随机抽样,从大量数据中学习的长短期记忆网络(LSTM)语言模型可以生成相当自然的句子。

神经语言建模似乎是迄今为止最成功的方法。语言建模的基本特征没有改变,也就是说,它依赖于在一个包含所有单词序列的离散空间中定义的概率分布。学习过程就是找到最优模型,以便用交叉熵预测语言数据的最高准确性。神经语言模型的优势在于,它可以利用复杂的模型、大数据和强大的计算能力非常精确地模拟人类语言行为。

人们发现,只有语言模型规模足够大,机器才可能具备推理能力。而大型语言模型(LLM)代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。在过去几年中,大型语言模型的规模每年增加10倍,而且随着这些模型的复杂程度和规模的增加,其性能也在不断发展。

大型语言模型阶段从2023年起,目的是让机器能听懂人的命令、遵循人的价值观。其特性是在第一个阶段把过去的两个阶段缩成一个预训练阶段,第二阶段转换成与人的价值观对齐,而不是向领域迁移。这个阶段的突变性是很高的,已经从专用任务转向通用任务,或是以自然语言人机接口的方式呈现。

最近,由美国人工智能研究公司OpenAI开发的全新“聊天机器人”ChatGPT火了。作为一款人工智能语言模型,它不仅能与人展开互动,还可以写文章、制定方案、创作诗歌,甚至编写代码、检查漏洞样样精通,上线仅两个月全球活跃用户破亿。ChatGPT属于大型语言模型,它是一个备受关注的研究课题。

目前,在大型语言模型方面主要有两个优势:一是技术,另一是数据。由于大型语言模型在全球正掀起热潮,人工智能技术的发展获得里程碑式的突破,并产生了广泛的影响。正如我国著名学者周海中先生在20世纪90年代初所预言的那样:“人工智能技术将广泛应用到各学科领域,会产生意想不到的效果。”可以说,人工智能技术将会对语言学和统计学产生深远的影响。

文/吴汶燕(作者单位:同济大学软件学院)