面对人工智能的发展,中文和英文孰优孰劣?

来自中文百科,文化平台
跳转至: 导航搜索
面对人工智能的发展,中文和英文孰优孰劣?

许小兰博士 加拿大麦吉尔大学人文社科学院


人工智能与人类语言

人工智能是当前最热门的技术,各国都在投入资金和人力进行研究。谁错过了人工智能,谁就丢掉了未来。人类语言在人工智能中占有非常重要的地位,它是人类与人工智能交互的工具,人工智能只有准确理解语言文字才能做出准确应对,才能表现出高智商和高情商。下面以中文和英文这两大语种为例,简要地谈谈它们在人工智能技术中的“优劣”问题。

一、在语音识别方面

英文由26个字母构成,逻辑结构较简单,发音以字母为基础,音标和音标区之间区分比较明显,只要说的不是很快,人工智能能比较容易、准确识别每一个字母,加上同音单词比较少,所以英文的语音识别效率领先中文许多。

中文是典型的意音文字,其发音十分复杂。它有23个声母,6个单韵母,18个复韵母,还有16个整体认读音节,整套方案共63个发音元素。除此之外,中文还有四种音调,加上种类繁多的方言,发音不准的话,非常影响人工智能识别。

人工智能在进行中文语音识别的时候,需要先进行发音识别,再根据单词进行汉字判断,识别效率低于英文,识别错误率也高于英文。另外,英文没有中文那么大的字符集,也没有中文一大堆语言的声调和分词问题。

二、在文字识别方面

中文在文字识别方面的效率和准确度比英文更胜一筹。中文有几个特点,让人工智能识别更高效:

1.汉字信息密度高,更少的字数可以承载更多的信息,中文文章永远比英文文章短;综合来看,汉字信息密度比英文高37.5%。

2.中文以汉字为单位,可以灵活排列,横竖都可以;而英文是线性文字,只能横排,竖排、错乱排列的识别效率会骤降。

3.汉字独立表意能力强。比如“他去吃早餐”,你看一个字就能多明白一个字的意思。而英文“He went to have breakfast”,你即使看到“have”这个词,你依然不明大概的意思,只有到“breakfast”你才知道原来“have”是“吃”,“went to”是“去”,整句是“去吃早餐”。英文表意比较依赖短语,甚至整句,不看完整句话,你往往不能知道句意。这就给人工智能识别造成了难度,因为人工智能跳跃识别能力较差。

三、在语段识别方面

让人工智能翻译一个短句,一句话,其实没多大意义,实用价值也不高,只有具备整段文字识别,才有实用价值。让我们以中英文互译来考察人工智能对中文和英文的识别能力。

英文原文如下:

“Things that trend in these two countries are insanely different. For example: knowledge-based content is extremely popular in China, and less so in the U.S. Also, this was wild to me: those creators that did the most dance videos in China are users born in the 60s (!!), whereas in the US, it seems that it's mostly teenagers who are creating the dances,” she wrote.

中文译文如下:

她写道:“这两个国家的趋势截然不同,比如:知识性内容在中国很流行,但在美国稍差一些。而且,这一点对我来说很疯狂:中国最喜欢拍舞蹈视频的是60后(!!),但在美国,好像是年轻人最喜欢拍舞蹈视频。”

人工智能将“英文原文”翻译成中文如下:

“这两个国家的趋势截然不同。例如:以知识为基础的内容在中国非常受欢迎,而在美国却很少。此外,这对我来说很疯狂:在中国制作舞蹈视频最多的创作者是她出生于60年代(!!)的用户,而在美国,似乎是大多数年轻人在创作舞蹈。”她写道。

有一句失真比较严重:“在中国制作舞蹈视频最多的创作者是她出生于60年代(!!)的用户。”这句话的英文原文是:“those creators that did the most dance videos in China are users born in the 60s ”。这是一句英语长句,词序及句法比较复杂,导致人工智能无法准确识别。

人工智能将“中文译文”翻译成英文如下:

“The trends in these two countries are quite different. For example, intellectual content is very popular in China, but a bit worse in the United States. Moreover, this is crazy to me: China’s favorite dance video is born in the 60s (! !), but in the United States, it seems that young people like to shoot dance videos the most, ” she wrote.

中文翻译非常精准,和原文在表意上几乎没有任何差别,如实还原了原文的意思。可见,在整段话、整篇文章的识别上,中文比英文更有优势。中文是由一个个汉字构成,长句很少,词序简单,句法也简单,在语句结构上比线性的英文简单的多,更有利于人工智能识别。

四、在同音字词方面

中文在人工智能技术,尤其是自然语言处理中最大障碍就是同音字/词现象。比如,他姓zhang,到底是“张”还是“章”呢?如果是口语的话,还要补一句弓长张,或立早章。中文里有多少同音字/词,很难准确的统计。同音字/词也是英文使用者攻击中文表意不清最大的借口。

英文虽然也有同音词,如flower(花朵)、flour(面粉);hole(洞穴)、whole(全部的);meet(遇见)、meat(肉类);right(正确的)、write(写字)等,但英文同音词数量远比中文同音字/词数量少。英文是通过造更多单词的方法,来减少同音词现象的。

人工智能现在不能准确处理多音字/词,因此出错在所难免。难道为了人工智能准确,人类只能通过语言文字改革消灭多音字/词?这工程实在太大了,人类也很难适应这么大的改革。

五、在多义字词方面

一字/词多义,是每种成熟语言都难免的,世间万事万物这么多,情感这么复杂,如果每个字/词只表达一个准确的意思,那几百万字/词都收不住。无论是中文还是英文,一个字/词不会只表达一个意思,通常有很多意思,有时区别还很大,很容易产生歧义;这给中译英或英译中的机器翻译工作造成了一定的困难。

比如中文“打”,其意思非常之多:撞击、除去、汲取、射击、制造、斗殴、发出、定出、进攻、扎入、表示身体上的某些动作等。又如英文“close”,其意思也非常多:关闭、合拢、合上、结束、终结、接近、使靠近、亲密的、密切的、不远地、死胡同、大教堂所属的周围场地及建筑物等。

现在人工智能通过上下文识别字/词意思的能力还比较弱,遇到多义词的时候经常出错,这也是人工智能发展的难关。也许等到强人工智能的出现,字/词多义问题才会得到解决。

中文、英文作为当今世界两大主要语言,各自在人工智能技术中有其优点和缺点;它们通常不会影响人们交流思想和信息有效传播。正如国际知名学者周海中先生曾经所言,“在信息时代,任何语言都有优缺点,重要的不是孰优孰劣,而是如何发挥它们在交际中的作用和功效。”

文/许小兰(作者单位:加拿大麦吉尔大学人文社科学院)