“海峡繁简中文转换系统软件”的版本间的差异

来自中文百科,文化平台
跳转至: 导航搜索
第37行: 第37行:
  
  
 +
目前,汉字有繁体中文(繁体字)和简体中文(简体字或简化字)之分。繁体中文主要在台湾、香港与澳门地区,及北美等绝大部分海外华人社区中使用。简体中文主要在中国大陆,马来西亚、新加坡,以及东南亚一些国家的华人社区中使用。使用繁体中文和简体中文的人们,在学习、沟通、交往和文化交流过程中,时常需要将繁体中文转换为简体中文,或将简体中文转换成繁体中文。此外,中国加入世贸后,很多国际性公司和机构都需要将重要的外文文字同时翻译为“简体中文”和“繁体中文”,许多重要中文文件往往需要同时发布“简体中文版”和“繁体中文版”。
 +
 +
随着计算机技术、互联网技术和人工智能的研究深入和不断发展发展,计算机在处理各类问题时几乎无所不能。然而它在处理“繁简字转换”和“繁简中文信息交流”事情上还存在很大的问题。其中的主要原因之一是计算机处理转换的规则是“一对一”的转换,而在简化字(或简体字)与繁体字之间存在“一简对多繁”的情况。例如:
 +
 +
(1)“轻松”(繁体:輕鬆)的“鬆”被简化为“松”,“松树”(繁体:松樹)的“松”简体和繁体皆为“松”,这样,一个简化字“松”对应着“轻松”的“松”和“松树”的“松”,我们把这种情况叫“同音替代一简对二繁”。
 +
 +
(2)“发展”(繁体:發展)的“发”,对应着“发展”、“发财”(繁体:發財)的“發”和“头发”(繁体:頭髮)的“髮”,这样,一个简化字“发”对应着“發”和“發”二个繁体字,我们把这种情况叫“近音替代一简对二繁”。
 +
 +
(3)“台”,在繁体中文里仍然为“台”(浙江省“台州市”繁体仍作“台州市”,“台湾”繁体为“臺灣”,时常也用作“台灣”),作为简化字的“台”对应着“台”、“臺”、“檯”、“颱”4个繁体字,我们把这种情况叫“近音替代一简对多繁”。
 +
 +
<span style="font-size: 100%; color:red;">'''“一简对多繁”的情况存在,使得计算机处理“无法实现完全的自动化”。'''</span>华东师范大学詹鄞鑫教授在《关于简化字整理的几个问题》的论文中指出:“由于简化字中采用了同音替代(注:包括近音替代),造成在计算机繁简字转换时无法实现完全的自动化。”他还说,“这个因同音替代造成的问题如果不解决,计算机处理和中文信息交流的完全自动化就永远不可能彻底实现。”所谓同音替代,是1950年代中国汉字简化时,采用的用一个笔画较少的同(近)音字来替代某一个笔画较多的繁体字,或者用一个简化字来代替两个甚至多于两个的音同(近)的繁体字的方法(汉字简化方法之一)进行汉字简化。形成了今天一些简化字对应2个或多个繁体字的状况。《海峡繁简中文转换系统》软件就是要在“同音(近)替代”情况还没有改变或者不变的情况下实现繁简字转换计算机处理“完全自动化”。
  
  

2021年3月8日 (一) 07:33的版本

海峡繁简中文转换系统软件

《海峡繁简中文转换系统软件》,由海峡两岸语言文字学、文献学、辞书编纂等多学科专家学者与互联网技术人员共同开发建设,具有简体中文和繁体中文互转的词级转换功能,因而得名“海峡繁简中文转换系统”。目前,网络上有关繁简字转换的各种免费软件(或称转换器、在线繁简转换网站)比比皆是,大致可以分为“字级转换”和“词级转换”2类。《海峡繁简中文转换系统软件》属于“词级转换”软件,软件的建设目标是:建成一款简体中文和繁体中文之间能够精确互转的专业词级转换系统

《海峡繁简中文转换系统软件》于2019年8月13日,获得国家版权局《计算机软件著作权登记证书》。本软件域名:www.hxfjz.cn;国家工信部备案号:鄂ICP备19012609号-3;备案的网站名称:中文百科海峡繁简中文转换系统。

海峡繁简中文转换系统软件-研究开发资料
海峡繁简中文转换系统软件证书

字级转换与词级转换

字级转换

“字级转换”软件,只能简单地将一个简化字转换为一个对应的繁体字,然而对于一个简化字对应着多个繁体字的情况就无法处理了。例如:“并”字的繁体有“並”、“併”2个,“并”字本身在繁体中文系统里也是独立的一个字,这样,一个简化字“并”就对应着3个繁体。大多数的“字级转换”软件选择的是:简化字“并”对应繁体字“並”(并—→並),如果用这类繁简字转换软件进行“简—→繁”转换时,句子或文章中所有的“并”都会被转换为“並”。“併”和“并”的所有组词例如“合併”、“吞併”、“併發症”等词也会被转换成“合並”(×)、“吞並”(×)、“並發症”(×);“并州”、“并刀”、“并州剪”等词也会被转换成“並州”(×)、“並刀”(×)、“並州剪”(×)。对于这样的转换,大多数使用繁体中文的人是看不明白的,至少会造成阅读理解上的不便。

词级转换

“词级转换”软件,可以分为初级和高级(或专业级)2种。初级“词级转换”软件是在“字级转换”的基础上进行了简单修订,相当数量的常用词组能够得到正确的转换,但是还很不完善。在遇到这样的句子,如:

巴西最大贫民窟发生黑帮火并
日航发动机起火并非撞鸟所致。

正确的“简—→繁”转换是:

巴西最大貧民窟發生黑幫火併
日航發動機起火並非撞鳥所致。

这2个句子中都含有“火并”一词(注:火并,指同伙自相残杀、吞并;繁体为“火併”),而后句中的“火并”没有前句中“火併”的意思,后句要表达的意思是“起火的原因并不是”,而“起火并非”的繁体是“起火並非”。

一般的“词级转换”软件会转换成:巴西最大貧民窟發生黑幫火併;日航發動機起火併非撞鳥所致。

此外,“”字还有一些古体、异体字如“”等,现在已不常用,但这些字是古人在书法、文章和著作中用过的字,在需要对涉及到这些字的文章或句子进行“简—→繁”转换时,“字级转换”软件只能望洋兴叹;初级“词级转换”软件如果没有有关专家参与是无法进行修订、完善的。

类似的例子还有很多,再如:

宋代文学家苏轼《念奴娇·大江东去》词中有“多情应笑我,早生华发”一句,现代文章中有“各国企业在华发展机遇会越来越多”。正确的“简—→繁”转换是:多情應笑我,早生華髮;各國企業在華發展機遇會越來越多。这2个句子里都含有“华发”一词(注:华发,指花白的头发,繁体为“華髮”), 而后句中的“华发”没有前句中“華髮”的意思,后句要表达的意思是“在中国发展”,而“在华发展”的繁体是“在華發展”。


目前,汉字有繁体中文(繁体字)和简体中文(简体字或简化字)之分。繁体中文主要在台湾、香港与澳门地区,及北美等绝大部分海外华人社区中使用。简体中文主要在中国大陆,马来西亚、新加坡,以及东南亚一些国家的华人社区中使用。使用繁体中文和简体中文的人们,在学习、沟通、交往和文化交流过程中,时常需要将繁体中文转换为简体中文,或将简体中文转换成繁体中文。此外,中国加入世贸后,很多国际性公司和机构都需要将重要的外文文字同时翻译为“简体中文”和“繁体中文”,许多重要中文文件往往需要同时发布“简体中文版”和“繁体中文版”。

随着计算机技术、互联网技术和人工智能的研究深入和不断发展发展,计算机在处理各类问题时几乎无所不能。然而它在处理“繁简字转换”和“繁简中文信息交流”事情上还存在很大的问题。其中的主要原因之一是计算机处理转换的规则是“一对一”的转换,而在简化字(或简体字)与繁体字之间存在“一简对多繁”的情况。例如:

(1)“轻松”(繁体:輕鬆)的“鬆”被简化为“松”,“松树”(繁体:松樹)的“松”简体和繁体皆为“松”,这样,一个简化字“松”对应着“轻松”的“松”和“松树”的“松”,我们把这种情况叫“同音替代一简对二繁”。

(2)“发展”(繁体:發展)的“发”,对应着“发展”、“发财”(繁体:發財)的“發”和“头发”(繁体:頭髮)的“髮”,这样,一个简化字“发”对应着“發”和“發”二个繁体字,我们把这种情况叫“近音替代一简对二繁”。

(3)“台”,在繁体中文里仍然为“台”(浙江省“台州市”繁体仍作“台州市”,“台湾”繁体为“臺灣”,时常也用作“台灣”),作为简化字的“台”对应着“台”、“臺”、“檯”、“颱”4个繁体字,我们把这种情况叫“近音替代一简对多繁”。

“一简对多繁”的情况存在,使得计算机处理“无法实现完全的自动化”。华东师范大学詹鄞鑫教授在《关于简化字整理的几个问题》的论文中指出:“由于简化字中采用了同音替代(注:包括近音替代),造成在计算机繁简字转换时无法实现完全的自动化。”他还说,“这个因同音替代造成的问题如果不解决,计算机处理和中文信息交流的完全自动化就永远不可能彻底实现。”所谓同音替代,是1950年代中国汉字简化时,采用的用一个笔画较少的同(近)音字来替代某一个笔画较多的繁体字,或者用一个简化字来代替两个甚至多于两个的音同(近)的繁体字的方法(汉字简化方法之一)进行汉字简化。形成了今天一些简化字对应2个或多个繁体字的状况。《海峡繁简中文转换系统》软件就是要在“同音(近)替代”情况还没有改变或者不变的情况下实现繁简字转换计算机处理“完全自动化”。