中文信息处理

来自中文百科,文化平台
跳转至: 导航搜索

中文信息处理( Chinese information processing),在语言学计算机科学数学心理学自动化技术等学科的基础上形成的一门边缘学科。研究电子计算机对中文书面和口语信息进行各种加工的问题。

中文信息处理并不等同于汉字信息处理。汉字信息处理系统是中文信息处理系统中非常关键的一部分,可以说是中文信息处理系统借以建立的工具。但是汉字信息处理系统的研制成功,一般只解决了汉字的编码、输入、存储、编辑和输出问题,至于加工或处理什么,如何加工,那是中文信息处理的内容。中文信息处理系统(纯口语的系统和拼音文字的系统除外)以汉字信息处理系统作为自己的必备部件,同时还带有为不同目的服务的各种应用软件。中文信息处理系统的另一特点是以词而不是以单个汉字作为加工的基本单位。中文信息处理和中国少数民族语言文字的信息处理都是自然语言处理的一部分。

已开展的中文信息处理研究有9项:

①汉字信息处理。这是一项最关键的语言工程,汉字如不能进入计算机,图书情报工作自动化、印刷出版现代化、办公室事务自动化都将化为空谈。近年来,汉字信息处理研究得到很大发展。曾设计了500多种汉字编码方案(见汉字编码),其中上机通过试验或已被采用作为输入方式的,已达数十种之多。研制了上百种汉字信息处理系统和设备。

汉字信息处理除了在汉字编码方面进行研究外,还制成了若干种汉字输入输出专用设备,成套的汉字信息处理系统(包括汉字编码法、通用中外文键盘、通用中外文显示器、汉字打印设备、汉字库和系统软件等)已批量生产。中国研制的计算机激光汉字照排系统已在国内外广泛应用。中国的字模生产有良好的基础,1985年5月国家标准局公布了《信息交换用汉字15×16点阵字模集及数据集》和《信息交换用汉字24×24点阵字模集及数据集》两项标准,后来又分批公布了32×32点阵……以至256×256点阵的标准。这些标准为各种设备的设计和推广提供了有利条件。

为摆脱繁重的编码输入工作,汉字的光电自动识别研究提上了日程。近年来有越来越多的单位从事手写体和印刷体的识别研究。中国科学院自动化所的汉王联机手写汉字识别系统已能识别2万多汉字,汉王OCR已能识别GB2312–1980二级汉字的多种印刷字体,正确率都相当高。

为了使各种系统之间的信息交换有共同性,也为了使各种输入输出设备的设计有统一的根据,1981年国家标准局公布了《信息交换用汉字编码字符集·基本集》(简称《汉字标准交换码》GB2312–1980)。它根据汉字使用频度制定,共分两级,一级3 755个字,二级3 008个字,共6 763个字。为了满足少数用字量超过基本集的用户和台湾、香港等地的需要,后来又制定了多个辅助集和国家标准扩充码(GBK)。2000年3月信息产业部和原国家质量技术监督局联合发布了《信息交换用汉字编码字符集·基本集的扩充》标准(GB18030–2000),收录了27 484个汉字。

②机器翻译。计算机和语言的最早结合始于机器翻译。1956年,机器翻译被列入中国科学工作的发展规划。1957年,机器翻译研究工作正式开始,这是中文信息处理的第一项工程。首先研究的是俄汉机器翻译,并于1959年成功地进行了试验,译文输出是代码,而不是汉字,因为当时没有汉字输出装置。1958年底至1960年初,又研制了一套英汉机器翻译规则系统。1966~1975年工作处于停顿状态。已研制出多种英汉和俄汉、法汉、日汉、德汉以及汉外(英、法、德、俄、日)机器翻译系统。有多个商品化英汉机译系统出售,但翻译正确率还不够高。

③中文信息检索。为了提供标引和检索蓝本,1979年中国科学技术情报研究所编辑出版了《汉语主题词表》(10卷)。目前,中国有上百个单位开展电子计算机信息检索研究,不少单位进行定题信息服务(SDI),并建立各种汉字文献数据库。见中文信息检索。

④言语统计。1978年语言研究所和计算技术研究所在合作研究ECMT–78英汉机器翻译系统的过程中曾编制一个排序统计程序,加工过一些外文资料和汉语拼音资料。这是计算机汉语统计的初步尝试。此后,出现了一批机编频率辞书:《现代汉语频率词典》(北京语言学院出版社,1986),《现代汉语常用词词频词典(音序部分)》(宇航出版社,1990)。前者在180万字的语料基础上进行,先用人工仔细切分统计,然后用计算机进一步处理。后者在2 000万字的语料基础上采用机器切分方法进行。二者的分词标准很不相同,前者过严,后者过宽。

⑤汉语理解系统。随着人工智能的进展,语言研究所、心理研究所、自动化研究所和一些大学开展了汉语理解系统(人机对话)的研究。目前只限于书面语言理解,而且主要是问答型。输入方式采用汉语拼音。上机试验结果表明,有的系统已有识别多种句型的能力(见汉语书面理解系统)。汉语语音理解系统也在研制之中。

⑥计算机辅助语言教学。随着计算机的普及和网络的发展,多媒体(光盘)语言教学和现代化远程语言教学(网络)充分发挥了计算机辅助语言教学的作用。很多大学建立了多媒体演播室和远程教育中心,不仅解决了教师短缺和因材施教的问题,而且大大提高了学习效率。

⑦语音识别和言语合成。语音打字的任务早在1958年提出,1964年实现了“元音识别机”,1970年前后又实现了10个口呼汉语数字的识别机。但利用电子计算机进行识别研究,则始于1972年。声学研究所利用语音图样匹配方法在一定范围内实现了单呼语言的识别,正确率达99.5%以上。近年来,中国科学院自动化所的LVCSR系统的建立,体现了大词汇量、连续语音、非特定人的语音综合研究技术的实力。在此基础上的广播语音识别错误率已降到10%左右。

⑧方言研究。国外有人曾将汉语方言资料输入计算机,让计算机提供各个方言声母、韵母、声调的出现频率,以及鼻化、腭化现象分布的百分比。这些数据不仅有利于方言的共时描写和比较,而且还有利于检验各种历史构拟假说的正确性。中国已开始利用计算机进行方言研究和绘制方言地图。

⑨索引、词表和词典的编制。1980年武汉大学等单位开始语言自动处理工作,主要是编制逐字索引,同时提供汉字统计数据。相继印出(《骆驼祥子》、《倪焕之》、《雷雨》、《日出》和《北京人》的逐字索引,以及《论衡》的语词索引和统计资料。

利用计算机编制词表、词典也已提上日程。1988年语言研究所编制出版了《多语对照语言学词汇(英、法、德、俄、中)》。机编词典除能加快辞书的编辑出版过程外,还可以随时扩充、修改,保持词典的先进性。20世纪80年代以后,机编词典逐步成了主流。

中文信息处理研究方兴未艾。随着研究手段的改善和研究工作的深入,还将有更多更新的项目涌现。