树形分析法

来自中文百科,文化平台
跳转至: 导航搜索

树形分析法( tree analysis method),自然语言自动处理中的一种分析方法,借助于树形图来说明句子中词与词、词组与词组之间的句法、语义和逻辑关系。

语言中的任何一个句子都隐藏着一个树形图。例如,句子“铝是一种重要的金属”中隐藏着的树形图如下:

树形分析法1.jpg

这个树形图中,S表示句子,NP表示名词词组,VP表示动词词组,AP表示形容词词组,NUMER表示数量词组,N 表示名词,V表示动词,CARD表示基数词,QTF表示量词,ADJ表示形容词,PART表示助词,它们都是标记。

树形图由结和连接结的枝组成,每一个结至少有一个标记,也可以有多个标记,其中,有的标记是表示词组类型或词类的,如 S、NP、VP、V、N、PART等,它们不出现在具体的句子中,称为非终极标记。有的标记是表示语言中具体的词,如 “铝”、“是”、“一”等,它们出现在具体的句子中,称为终极标记。如果一个结点上有多个标记,那么,除了上述标记之外,其他标记还可以表示词和词组的句法功能信息(如主语、谓语、定语、宾语、状语、补语等),词和词或者词组和词组之间的逻辑关系信息(如施事者、受事者、与事者等)和语义关系信息(如并列、原因、结果、让步、比较、工具、时间、空间等)以及其他的语法信息。

树形图中各个结点之间,有两种关系值得注意:一种是支配关系,一种是前于关系。

如果在树形图中从结x到结y有一系列的枝把它们连接起来,而且所有的枝顺着同一方向,这即表示结 x支配结 y。例如,上面的树形图中,标有VP的结支配着标有 NUMER的结,因为连接结VP与结NUMER的枝都一律从较高的结 VP 降到较低的结NUMER;当x支配y时,y就叫做x 的后裔。

如果结x与结y是相异的,x支配y,而且x与y之间没有另一个相异的结,这叫做直接支配。结y就叫做结x的直接后裔。在上面的树形图中,标有VP的结有两个直接后裔,即标有V的结和右边的标有NP的结,V和NP这两个结称为姐妹。支配关系中不被任何其他的结支配的结叫做根。图中,标有 S的结就是根;被其他结支配而不支配任何其他结的结,叫做叶。一般说来,树形图是从上到下画出的,所以,根总是在顶部,叶总是在底部。

树形图中的两个结,只有当它们之间没有支配关系的时候,才能在从左到右的方向上排序,这时,这两个结之间,就存在前于关系,左边的结前于右边的结。在上面的树形图中,标有“铝”的结前于标有VP的结及VP所支配的结,因为结VP与结“铝”之间不存在支配关系;但是,标有“铝”的结不能前于支配它的NP及 N等结。可见,支配关系同从左到右的前于关系是相互排斥的,也就是说,在树形图中,如果两个结x与y之间存在前于关系,那么,x与y之间必定不能存在支配关系。并且,如果 x前于y.则由x支配的所有的结都前于由y支配的所有的结。

根据这些基本性质,一幅树形图可以提供如下3个方面的语法信息:

①句子中的词序:树形图中的各个叶按从左到右的前于关系排列起来,就是它所表示的句子的词序。这些叶之间是不存在支配关系的。

②句子的层次:一个结的直接后裔就是这个结的直接成分,根据结之间的直接支配关系,便可看出句子的层次关系。

③词类信息、词组类型信息、句法功能信息、词与词或者词组与词组之间的逻辑关系信息和语义关系信息等。

树形图中的一个结可以与多个标记相对应,用多值标记函数 L表示如下:

树形分析法2.gif

y1,y2,…,yn就是在一个结点x上可以标记的各种信息。

因而树形图既能提供句中词序和层次的几何值,又能提供词类、词组类型、句法功能、逻辑关系、语义关系的代数值。