王朝网络
分享
 
 
 

谷歌推出庞大图书数据库 涵盖古今5000亿单词

王朝站长·作者佚名  2011-12-17  
宽屏版  字体: |||超大  

北京时间12月17日消息,据国外媒体报道,谷歌推出了一个庞大的图书数据库,包括了可供互联网免费下载和搜索的近520万部数字图书。此举有望开启人文教育和研究的新篇章。

谷歌图书数据库汇集了大量的单词和短语,及其每年使用频率的变化情况。这是如此规模的数据库和搜索工具首次面向所有电脑用户开放。这个数据库包括了从1500年到2008年间出版的各类图书的5000亿个单词,涉及语种包括英语、法语、西班牙语、德语、汉语和俄语。

这个数据库的目标用户是学者,但它也提供了一个简单的在线工具,允许任何用户在电脑上输入最多五个单词,然后查看这些单词或短语历年来的使用频率情况。或许,这将成为像《愤怒的小鸟》游戏一样令人上瘾的消遣方式。

例如,用户可以查看“women”(女性)和“men”(男性)的使用频率变化情况。在上世纪70年代初之前,“women”在当年出版的图书当中很少被提及,而在女权主义站稳脚跟之后,“women”的使用频率逐年提升,直到1986年,“women”和“men”的使用频率曲线出现了交点。

同时,用户还能发现,“Mickey Mouse”(米老鼠)和“Marilyn Monroe”(玛丽莲·梦露)在平面书籍中出现的频繁也不及美国前总统“Jimmy Carter”(吉米·卡特)。

推动人文学科研究变革

美国哈佛大学研究员埃雷兹·利伯曼·艾丁(Erez Lieberman Aiden)表示:“这个数据库的目标是使8岁的孩子也能浏览图书所记载的历史文化趋势。”利伯曼·艾丁与另外一名哈佛大学研究员让·巴普蒂斯特·米歇尔(Jean-Baptiste Michel)与谷歌一起建立了这个庞大的图书数据库,并启动了一个研究项目,研究庞大的数字数据库将如何转变我们的语言、文化和观念。

他们的研究成果将发表在本周五出版的《科学》杂志上。此次研究为那些拒绝量化分析的文学、历史和其他人文学科的人提供了一种全新的研究方法。《科学》杂志也破例将这份研究报告向非注册用户开放。

利伯曼·艾丁表示:“我们要说明,将高质量的数据分析应用于人文学科也是可行的。”艾丁是一名应用数学和组学的专家,他将这种研究方法称作“文化组学”(culturomics)。

用户可以下载该数据库的数据,并建立自己的搜索工具。

研究人员还以1800年以起点,对“名气”的持续时间进行了研究。研究发现,在20世纪中页,书籍中对名人的记录的消失速度相当于19世纪初的两倍。报告称:“未来,每个人的名气只能持续7.5分钟。”

关于发明创造,研究人员发现,在19世纪初,科技进步平均需要66年时间才能被主流文化接受,而1880年至1920年只需要27年。他们还对一些比较特殊的英语动词进行了研究,看其如何从最初的过去时词尾不加“ed”(如learnt)演变为如今的格式(如learned)。

研究人员发现,在过去50年里,英语词汇里增加了100多万个单词,增幅达到70%。他们还表明,增加新兴流行词汇和删除过时词汇能够大大加快辞典的更新速度。

哈佛大学语言学家史蒂芬·平克(Steven Pinker)过去20年一直在研究英语语法和过去时。他说:“当我看到这个数据库的时候,我感到非常兴奋。这不禁使我们怀疑,如果它早点出现,将会对语言的发展产生何种影响。”

平克表示,关于动词演变的信息“使得结果更为可信和全面”,“这篇论文中的报告仅仅是一个开始。”尽管曾多次反对在人文学科的部分领域进行量化分析,但平克表示,他相信这个数据库以及类似工具将普及开来。

人文学者的质疑

不过迅速浏览了该论文的人文学者的态度则比较模棱两可。哈佛大学英语教授路易斯·梅南德(Louis Menand)表示,这是个不错的工具,尤其是对语言学家而言。但他警告说,在文化历史领域,“很明显有些说法过于夸张”。他还指出,在这篇论文的13名作者当中,没有一名人文学者。他说:“这个研究项目甚至没有一名历史学家参与其中。”

哥伦比亚大学美国历史教授阿伦·布里克利(Alan Brinkley)表示,现在就评判单词和短语搜索对世界的影响还为时过早。他说:“我可以想象到很多有趣的用途,但我不知道这些数据能说明什么。”

米歇尔和艾丁都认识到了人文学者的担忧,并强调说,“文化组学”只是提供信息,对信息的解释仍然是必不可少的。艾丁说:“我并不是要向人文学者说明什么,我们只是抛出一些有趣的信息。问题在于,你是否愿意研究这些数据。”

研究项目进展

艾丁和米歇尔于2004年开始了他们对不规则动词的研究项目。当时谷歌图书尚未面世,他们不得不一页一页地翻阅大量的图书,这个过程耗时18个月。艾丁说:“当时我们精疲力竭。”

后来,他们了解到了谷歌计划建立一个数字图书馆,存储有史以来出版过的所有图书。两人认识到,这有可能使他们的研究发生革命性变化。因此,他们找到了谷歌该研究项目的负责人彼得·诺维格(Peter Norvig),表示希望利用谷歌图书进行数据采集和统计分析。

米歇尔表示,“他认识到,对于科学和谷歌而言,这都是一个重要机遇。在接下来四年时间里,我们处理了很多复杂问题”,其中包括法律问题和数字化问题。美国出版商协会和作家协会与谷歌达成的数字图书版权协议目前仍有待法院批准。谷歌表示,“文化组学”研究项目不涉及任何篡权问题,因为这些图书本身或者部分内容是无法阅读的。

到目前为止,谷歌已经扫描了已出版图书的11%,涵盖约2万亿个单词。即将发表在《科学》杂志上的论文使用了4%的数据。如此庞大的数据使得以前所未有的方式进行文化影响的量化分析变得可能。应用数学和系统生物学家米歇尔表示,具有文化意义的单词在书籍中出现的频繁远远低于日常用语,要想获得精确的结果,就必须有规模庞大的样本。他表示,要想知道“Sasquatch”是否渗透进了文化领域,需要分析至少10亿个单词。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
>>返回首页<<
推荐阅读
 
 
频道精选
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有