nutch 0.7 plug-ins 详解

王朝java/jsp·作者佚名  2006-01-10
宽屏版  字体: |||超大  

nutch 0.7 plug-ins 详解最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:

1、nutch 0.7 发布了;

2、nutch 的java源代码包路径改变成了org.apache...

3、yahoo也使用了nutch,并做了很多的工作。1 2

clustering-carrot2 :

一个搜索结果类聚的代码框架,目前和Egothor等搜 索引擎结合的很好;

地址:http://sourceforge.net/projects/carrot2

相关类:org.apache.nutch.clustering.OnlineClusterer

Nutch Online Search Results Clustering Plugin

org.apache.nutch.clustering.carrot2

Carrot2 Clusterer

creativecommons :

一个创作共用的工具集合。地址:http://creativecommons.org/ ;

相关类:

org.apache.nutch.parse.HtmlParseFilter

HTML Parse Filter

org.apache.nutch.indexer.IndexingFilter

Nutch Indexing Filter

org.apache.nutch.searcher.QueryFilter

Nutch Query Filter

index-basic :

相关类:

org.apache.nutch.indexer.IndexingFilter

Nutch Indexing Filter

index-more :

language-identifier : 语言检测工具;

相关类:

org.apache.nutch.analysis.lang.LanguageParser

Nutch language Parser

org.apache.nutch.analysis.lang

Nutch language identifier filter

org.apache.nutch.analysis.lang.LanguageQueryFilter

Nutch Language Query Filter

ontology : 一个概念话的规范,主要是针对人工智能的;

相关类:

org.apache.nutch.ontology.Ontology

Ontology Model Loader

parse-ext :

parse-html :

parse-js : 解析js文档

parse-msword : 解析msword文档

parse-pdf : 解析pdf文档

相关类:

org.apache.nutch.parse.pdf.PdfParser

parse-rss : 解析Rss格式文档

parse-text : 解析text文档

protocol-file :

protocol-ftp :

protocol-http :

protocol-httpclient :

query-basic :

query-more :

query-site :

query-url :

urlfilter-prefix :

urlfilter-regex :

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
© 2005- 王朝网络 版权所有