通用语法分析程序

来自中文百科,文化平台
跳转至: 导航搜索

通用语法分析程序英语:general syntactic processor,缩写 GSP),综合不同语法分析技术的形式特征并建立统一的数据结构,以模拟各种自然语言处理技术的实验性软件支援系统,又称通用语法处理程序,它是1973年R.卡普兰为了研究语法分析和响应生成的需要提出的。

图表(chart)是通用语法处理程序的核心部分,用来表示语法和输入语句的一种单一的数据结构。图表实质上是语法树的一种修正形式。在语法树中每一条有向弧都代表弧线射出节点和弧线进入节点之间的“父子”关系。如果从一个节点射出若干条弧线分别通向不同的子节点,那么这些子节点自左至右地形成一种“兄弟”关系。但是在语法树中,节点之间的父子关系是用有向弧显式表出的,而兄弟关系只是一种隐含关系,并没有用弧线连接。从每一语法树构造其对应的图表须遵循两条规则:①将所有表示父子关系的弧线删除,但保留父节点到其长子节点的弧线,同时将所有兄弟节点用有向弧从兄到弟地(即从左到右方向)连接起来;②节点与弧线标号互换,原来的节点标号变成了弧线标号,原来弧线没有标号,现在则是节点没有标号。

图1 名词短语的语法树及其对应的分析图表

图1是名词短语的语法树及其对应的分析图表。

用图表还可以有效地表示“森林”──由若干棵不连的树组成的有序集合。

图2 森林及其对应的图表

图2表示由名词短语和动词的语法树形成的森林及其对应的图表。

图3 用图表表示词的歧义性

图3表明用图表还可以简明有效地表示词或短语的多义现象(称为歧义性)。

通用语法处理程序除了建立图表分析技术外,还在递归、回溯和指针移动等方面有较完善的控制策略。系统还有程序协同功能,各程序(过程)能挂起暂停或继续运行。图表是表示自然语言句法的适用数据结构,运用图表技术有利于将语法中较小组成部分集结为较大组成部分以便分析,因而在自然语言处理系统的研制中受到重视。

参见