王朝网络
分享
 
 
 

Web数据挖掘:超文本数据的知识发现(英文版)(图灵原版计算机科学系列)(Mining the Web:Discovering Knowledge from Hypertext Data)

王朝导购·作者佚名
 
Web数据挖掘:超文本数据的知识发现(英文版)(图灵原版计算机科学系列)(Mining the Web:Discovering Knowledge from Hypertext Data)  点此进入淘宝搜索页搜索
  特别声明:本站仅为商品信息简介,并不出售商品,您可点击文中链接进入淘宝网搜索页搜索该商品,有任何问题请与具体淘宝商家联系。
  参考价格: 点此进入淘宝搜索页搜索
  分类: 图书,计算机与互联网,数据库,数据仓库/数据挖掘,
  品牌: 查凯莱巴蒂

基本信息·出版社:人民邮电出版社

·页码:344 页

·出版日期:2009年

·ISBN:9787115194046

·条形码:9787115194046

·包装版本:1版

·装帧:平装

·开本:16

·正文语种:英语

·丛书名:图灵原版计算机科学系列

·外文书名:Mining the Web:Discovering Knowledge from Hypertext Data

产品信息有问题吗?请帮我们更新产品信息。

内容简介《Web数据挖掘:超文本数据的知识发现》(英文版)是信息检索领域的名著,深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。

作者简介Soumen Chakrabarti,Web搜索与挖掘领域的知名专家,ACM Transactions on the Web副主编。加州大学伯克利分校博士,目前是印度理工学院计算机科学与工程系副教授。曾经供职于IBM Almaden研究中心,从事超文本数据库和数据挖掘方面的工作。他有丰富的实际项目开发经验,开发了多个Web挖掘系统,并获得了多项美国专利。

媒体推荐本书是Web挖掘与搜索引擎领域的经典著作,自出版以来深受好评,已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题,并以此为基础,深入阐述了解决Web挖掘各种难题所涉及的机器学习技术,提出了机器学习在系统获取、存储和分析数据中的许多应用,并探讨了这些应用的优劣和发展前景。 全书分析透彻,富于前瞻性,为构建Web挖掘创新性应用奠定了理论和实践基础,既适用于信息检索和机器学习领域的研究人员和高校师生,也是广大Web开发人员的优秀参考书。

“本书深入揭示了搜索引擎的技术内幕!有了它,你甚至能够自己开发一个搜索引擎。”

——searchenginewatch.com网站

“本书系统、全面而且深入,广大Web技术开发人员都能很好地理解和掌握其中内容。作者是该研究领域的领军人物之一,在超文本信息挖掘和检索方面有着渊博的知识和独到的见解。”

——Joydeep Ghosh,得克萨斯大学奥斯汀分校教授,IEEE会士

“作者将该领域的所有重要工作融合到这部杰作中,并以一种通俗易懂的方式介绍了原本非常

深奥的内容。有了这本书,Web挖掘终于有可能成为大学的一门课程了。”

——Jaideep Srivastava,明尼苏达大学教授,IEEE会士

编辑推荐《Web数据挖掘:超文本数据的知识发现》(英文版)是从事数据挖掘学术研究和开发的专业人员理想的参考书,同时也适合作为高等院校计算机及相关专业研究生的教材。《Web数据挖掘》是Web挖掘与搜索引擎领域的经典著作,自出版以来深受好评,已经被斯坦福、普林斯顿、卡内基梅隆等世界名校采用为教材。书中首先介绍了Web爬行和搜索等许多基础性的问题,并以此为基础,深入阐述了解决Web挖掘各种难题所涉及的机器学习技术,提出了机器学习在系统获取、存储和分析数据中的许多应用,并探讨了这些应用的优劣和发展前景。《Web数据挖掘》分析透彻,富于前瞻性,为构建Web挖掘创新性应用奠定了理论和实践基础,既适用于信息检索和机器学习领域的研究人员和高校师生,也是广大Web开发人员的优秀参考书。

目录

INTRODUCTION

1.1 Crawling and Indexing

1.2 Topic Directories

1.3 Clustering and Classification

1.4 Hyperlink Analysis

1.5 Resource Discovery and Vertical Portals

1.6 Structured vs. Unstructured Data Mining

1.7 Bibliographic Notes

PART Ⅰ INFRASTRUCTURE

2 CRAWLING THE WEB

2.1 HTML and HTTP Basics

2.2 Crawling Basics

2.3 Engineering Large-Scale Crawlers

2.3.1 DNS Caching, Prefetching, and Resolution

2.3.2 Multiple Concurrent Fetches

2.3.3 Link Extraction and Normalization

2.3.4 Robot Exclusion

2.3.5 Eliminating Already-Visited URLs

2.3.6 Spider Traps

2.3.7 Avoiding Repeated Expansion of Links on Duplicate Pages

2.3.8 Load Monitor and Manager

2.3.9 Per-Server Work-Queues

2.3.10 Text Repository

2.3.11 Refreshing Crawled Pages

2.4 Putting Together a Crawler

2.4.1 Design of the Core Components

2.4.2 Case Study: Using w3c-1 i bwww

2.5 Bibliographic Notes

3 WEB SEARCH AND INFORMATION RETRIEVAL

3.1 Boolean Queries and the Inverted Index

3.1.1 Stopwords and Stemming

3.1.2 Batch Indexing and Updates

3.1.3 Index Compression Techniques

3.2 Relevance Ranking

3.2.1 Recall and Precision

3.2.2 The Vector-Space Model

3.2.3 Relevance Feedback and Rocchio's Method

3.2.4 Probabilistic Relevance Feedback Models

3.2.5 Advanced Issues

3.3 Similarity Search

3.3.1 Handling "Find-Similar" Queries

3.3.2 Eliminating Near Duplicates via Shingling

3.3.3 Detecting Locally Similar Subgraphs of the Web

3.4 Bibliographic Notes

PART Ⅱ LEARNING

SIMILARITY AND CLUSTERING

4.1 Formulations and Approaches

4.1.1 Partitioning Approaches

4.1.2 Geometric Embedding Approaches

4.1.3 Generative Models and Probabilistic Approaches

4.2 Bottom-Up and Top-Down Partitioning Paradigms

4.2.1 Agglomerative Clustering

4.2.2 The k-Means Algorithm

4.3 Clustering and Visualization via Embeddings

4.3.1 Self-Organizing Maps (SOMs)

4.3.2 Multidimensional Scaling (MDS) and FastMap

4.3.3 Projections and Subspaces

4.3.4 Latent Semantic Indexing (LSI)

4.4 Probabilistic Approaches to Clustering

4.4.1 Generative Distributions for Documents

4.4.2 Mixture Models and Expectation Maximization (EM)

4.4.3 Multiple Cause Mixture Model (MCMM)

4.4.4 Aspect Models and Probabilistic LSI

4.4.5 Model and Feature Selection

4.5 Collaborative Filtering

4.5.1 Probabilistic Models

4.5.2 Combining Content-Based and Collaborative Features

4.6 Bibliographic Notes

5 SUPERVISED LEARNING

5.1 The Supervised Learning Scenario

5.2 Overview of Classification Strategies

5.3 Evaluating Text Classifiers

5.3.1 Benchmarks

5.3.2 Measures of Accuracy

5.4 Nearest Neighbor Learners

5.4.1 Pros and Cons

5.4.2 Is TFIDF Appropriate?

5.5 Feature Selection

5.5.1 Greedy Inclusion Algorithms

5.5.2 Truncation Algorithms

5.5.3 Comparison and Discussion

5.6 Bayesian Learners

5.6.1 Naive Bayes Learners

5.6.2 Small-Degree Bayesian Networks

5.7 Exploiting Hierarchy among Topics

5.7.1 Feature Selection

5.7.2 Enhanced Parameter Estimation

5.7.3 Training and Search Strategies

5.8 Maximum Entropy Learners

5.9 Discriminative Classification

5.9.1 Linear Least-Square Regression

5.9.2 Support Vector Machines

5.10 Hypertext Classification

5.10.1 Representing Hypertext for Supervised Learning

5.10.2 Rule Induction

5.11 Bibliographic Notes

6 SEMISUPERVISED LEARNING

6.1 Expectation Maximization

6.1.1 Experimental Results

6.1.2 Reducing the Belief in Unlabeled Documents

6.1.3 Modeling Labels Using Many Mixture Components

……

PART Ⅲ APPLICATIONS

……[看更多目录]

序言This book is about finding significant statistical patterns relating hypertext documents, topics, hyperlinks, and queries and using these patterns to connect users to information they seek. The Web has become a vast storehouse of knowledge, built in a dec

文摘插图:

Web数据挖掘:超文本数据的知识发现(英文版)(图灵原版计算机科学系列)(Mining the Web:Discovering Knowledge from Hypertext Data)

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
>>返回首页<<
推荐阅读
 
 
频道精选
 
更多商品
中国古代测字(中国古代方术丛书)
象棋名谱名局赏析
月季(修订版)
PADS 2007高速电路板设计(附盘)(附赠VCD光盘一张)
电磁干扰检测与控制1000问(第2版)
利用线头编织的47种可爱小物件(玲珑工坊)
Photoshop+Illustrator平面设计创作实例教程(附光盘)(21世纪高等职业教育信息技术类)
会议管理(秘书专业)(21世纪高职高专精品教材)
秋冬的童话:情趣小织物(玲珑工坊)
COLOR DESIGN BOOK:色彩设计手册
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有