王朝网络
分享
 
 
 

深入搜索引擎——海量信息的压缩、索引和查询

王朝导购·作者佚名
 
深入搜索引擎——海量信息的压缩、索引和查询  点此进入淘宝搜索页搜索
  特别声明:本站仅为商品信息简介,并不出售商品,您可点击文中链接进入淘宝网搜索页搜索该商品,有任何问题请与具体淘宝商家联系。
  参考价格: 点此进入淘宝搜索页搜索
  分类: 图书,社会科学,图书馆学 档案学 ,

作者: (新)威顿(Witten,I.H.),(澳)莫夫特(Moffat,A.),(新)贝尔(Bell,T.C.) 著,梁斌 译

出 版 社: 电子工业出版社

出版时间: 2009-6-1字数:版次: 1页数: 540印刷时间:开本: 16开印次:纸张:I S B N : 9787121084911包装: 平装编辑推荐

作者简介:

Ian H.Witten 是新西兰Waikato大学计算系科学系教授,是ACM、新西兰皇家学会会员。是英国、美国、加拿大和新西兰的专业计算、信息检索和工程协会会员。他是 《The Reactive Keyboard》和《Text Compression》的作者之一,这两本书分别出版于1992年和1990年。各大会议和期刊论文都能看到他的论文。

Alistair Moffat是墨尔本大学计算科学系的副教授。在各大会议和期刊中发表了大量论文,这些论文包括的领域有:关于文本和图像压缩的算法和数据结构,字典和优先级队列的自适应数据结构,以及自适应搜索和排序算法。

Timothy C.Bell是Canterbury大学计算机科学系系主任。是出版于1990年的《Text Compression》一书的作者。在各大期刊和会议上发表了多篇论文,这些论文涉及文本和图像压缩,计算机和音乐,计算机教育等。

内容简介

本书是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。本书理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。

本书作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科 生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。

目录

第1章 概览

1.1 文档数据库(DOCUMENT DATABASES)

1.2 压缩(COMPRESSION)

1.3 索引(INDEXES)

1.4 文档索引

1.5 MG海量文档管理系统

1.6 进一步阅读

第2章 文本压缩

2.1 模型

2.2 自适应模型

2.3 哈夫曼编码

范式哈夫曼编码

计算哈夫曼编码长度

总结

2.4 算术编码

算术编码是如何工作的

实现算术编码

保存累积计数

2.5 符号模型

部分匹配预测

块排序压缩

动态马尔科夫压缩

基于单字的压缩

2.6 字典模型

自适应字典编码器的LZ77系列

LZ77的Gzip变体

自适应字典编码器的LZ78系列

LZ78的LZW变体

2.7 同步

创造同步点

自同步编码

2.8 性能比较

压缩性能

压缩速度

其他性能方面的考虑

2.9 进一步阅读

第3章 索引

3.1 样本文档集合

3.2 倒排文件索引

3.3 压缩倒排文件

无参模型(Nonparameterized models)

全局贝努里模型

全局观测频率模型(Global observed frequency model)

局部贝努里模型(Local Bernoulli model)

有偏贝努里模型(Skewed Bernoulli model)

局部双曲模型(Local hyperbolic model)

局部观测频率模型(Local observed frequency model)

上下文相关压缩(Context-sensitive compression)

3.4 索引压缩方法的效果

3.5 签名文件和位图

签名文件

位片签名文件(Bitsliced signature files)

签名文件分析

位图

签名文件和位图的压缩

3.6 索引方法的比较

3.7 大小写折叠、词根化和停用词

大小写折叠

词根化

影响索引长度的因素

停用词(stop word)

3.8 进一步阅读

第4章 查询

4.1 访问字典的方法

访问数据结构

前端编码(Front coding)

最小完美哈希函数

完美哈希函数的设计

基于磁盘的字典存储

4.2 部分指定的查询术语

字符串暴力匹配(Brute-force string matching)

用n-gram索引

循环字典(Rotated lexicon)

4.3 布尔查询(BOOLEAN QUERY)

合取查询(conjunctive query)

术语处理顺序

随机访问和快速查找

分块倒排索引

非合取查询(Nonconjunctive query)

4.4 信息检索和排名

坐标匹配(Coordinate matching)

内积相似度

向量空间模型

4.5 检索效果评价

召回率和精确率

召回率-精确率曲线

TREC项目 208

万维网搜索(World Wide Web Searching)

其他有效性评价方法

4.6 余弦法实现

文档内频率

余弦值的计算方法

文档权重所需的内存

累加器内存

快速查询处理

按频率排序的索引

排序

4.7 交互式检索

相关性反馈

概率模型

4.8 分布式检索

4.9 进一步阅读

第5章 索引构造

第6章 图像压缩

第7章 文本图像

第8章 混合图文

第9章 系统实现

第10章 信息爆炸

附录A MG系统指南

附录B 新西兰图书馆

书摘与插图

深入搜索引擎——海量信息的压缩、索引和查询

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
>>返回首页<<
推荐阅读
 
 
频道精选
 
更多商品
Protel 2004入门与提高
精通MATLAB图像处理(含光盘1张)
Dynamic HTML权威指南(第3版)
SEO智慧——搜索引擎优化与网站营销革命
黑客攻防实战编程
欧洲一体化进程中的政治建设:国家关系的新构建
学者之镜
理论的声音
且共从客
曹格:Supermarket超级市场(CD) 预售商品
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有