中英文搜索结果的一个小实验
眼球追踪研究的研究者发现,中国搜索引擎用户阅读搜索结果的页面较长,并将这一原因部分归咎于中文方块字的构造与表义方式不便阅读。对此大不以为然。
中文确实不是一种适合互联网传播的文字,这已经成为一种共识(其原因并不是本篇要讨论的问题),我也并无异议。但具体到研究者的归因,却并不能让人信服。
在字号、间距、行距等相同的情况下,相同面积(印刷或屏幕显示)的中文所包含的信息量要远大于英文。很多年前的语文课上,就经常会拿联合国相同文件的各语言版本中,中文版最薄来举例说明。这点,应该并无异议。
百度的搜索结果页面,每项结果由标题和三行以下摘要组成;Google.com的搜索结果中,每项结果由标题和两行以下摘要组成(中英文都是如此)。如此,面积大致相同,每项中文结果提供的信息量(请机械理解,不要作为有效信息量等来理解)无疑也是远超英文(而且百度的面积更大,同理愈甚)。这应该是一个有效的解释。
为此,做了一个简单的实验。实验步骤如下:
选择一个关键词,中英文相对(这里选择的是布什和Bush);
分别在百度搜索布什,Google.com搜索布什和Bush;
均选择第一页的十项结果,统计各自的中文字符数和英文单词数(使用的是Word字数功能,很原始);
将各项搜索结果(标题+摘要)翻译(中译英,英译中,使用的是google的翻译功能),再次统计;
分别统计总和和平均数。
实验数据见下图:
主动指出实验的几点问题:
关键词的选择是否具有代表性呢?样本为一,所以并无普遍性。
翻译本身的问题。采用翻译之后再统计对比的方式是否合适?
计数方式的问题。涉及到例如2007-6-18、”IT”这些无法翻印的内容时,不会计入中文字符,却会计入非中文单词(约等与英文单词)。这一定会产生误差。对此虽做出了一定的修正,但并不完全。
专有名词(如人名,地名等)翻译产生的问题。California只需一个英文单词,却需要加利福尼亚五个中文字符,专有名词在搜索结果中所占的比例大小也会影响结果。
总之,这个小实验并不精确,也不科学,只是一个小小的佐证。 想说明的问题呢,在第二三段已经指出了。
再说一个有趣的小发现。出于好奇,用Google的网页翻译,翻译了它自己的搜索结果页面(仍以布什为关键词),中文译成英文。结果发现,译出的结果与原网页的各项结果并不完全对应,请看这个和 这个页面。当试图将页面文字拷贝至Word时,又发现拷贝的内容是中英文混合的,即每一项均是原文(中文)+英文(译文)。