昨日关注:通用网页数据采集系统的架构和运行机理

王朝other·作者佚名  2006-01-09
宽屏版  字体: |||超大  

2005-2-5

[搜索技术] 通用网页数据采集系统的架构和运行机理 #

本文档详细介绍了网页数据采集系统的架构和运行机理。第一章简单介绍了Spider的设计意图和模块构成。第二章简单介绍了Spider.Crawler层如何抓取网页并落地。第三章简单介绍了Spider.Parser层如何解析落地网页,并生成数据XML文件。第四章简单介绍了Spider.Saver层如何解析落地XML文件,并生成SQL语句,同时插入数据库记录。

[.NET开发] C#中把RSS输出为HTML——开发自己的RSS Reader #

C#中把RSS输出为HTML的一个简单例子

[搜索技术] 如何用C#语言构造蜘蛛程序 #

本文介绍了开发Internet蜘蛛程序的基础知识,下面提供的源代码将帮助你进一步深入理解本文的主题。这里提供的代码非常灵活,你可以方便地将它用于自己的程序。

[新思维] Open Idea - BlogRank #

我认为评价一个Blog的受欢迎程度,主要集中关注它的rss文件被订阅的情况就可以了,因为通过聚合器来阅读Blog是很多Reader的首选,订阅者的欢迎要比搜索者的蜻蜓点水更重要。如果把给Blog进行排名的大任压到Blogline、NetNewsWire等网站身上,会不会又把它们变成第二个Alexa呢?鉴于最近tag满天飞,Blog里面的帖子被摘走的多少也可以做为一个评价因子,人收录的东西要比bot盲目index的有价值多了,这样的话,是不是把del.icio.us也给败坏了呢?顺便说一嘴,相对搜索引擎的bot,聚合器的bot要厚道的多,过来访问的时候还会把订阅数量汇报一下哦。

[市场营销] 史玉柱是不是奸商? #

2004年,段永基说:“史玉柱这个营销团队相当于中国保健品领域的美国戴尔公司。我看好的就是史玉柱和他的这个团队,” “脑白金就其技术含量来说,什么都不是”,但“真的白金卖出白金价,不是本事;而把不是白金的东西卖出了白金价,那才是真功夫。”

[融资并购] Monster入主ChinaHR #

我比较感兴趣的是,Monster.com建立有自己的Blog,不知进入到ChinaHR之后,会不会影响到ChinaHR也同样建立公司的Blog呢?如果一家“传统”的在线招聘网站做Blog的话,我觉得不妨学学这个Blog:Blogger Jobs,专门由Blogger发布职位需求或提供Blogger工作机会的Blog,这样Blog的社会性和基于信任关系的特点便能够充分地体现出来。

[IT业界] 数字商业时代:天极TechTarget精准出击 #

1999年成立、总部设在美国波士顿的TechTarget是美国少数业务在2000年之后仍持续增长的IT媒体及服务公司之一。“我们有超过1500个广告客户,包括IBM、惠普、思科、英特尔、Oracle、微软等。我们在2004年的收入为5000万美元,比2003年的3300万美元提高了52%.”TechTarget负责国际业务的副总裁苏珊。奥代尔解释道,该公司从2002年开始盈利,预计在未来3年内的收入将达到1亿美元,利润率超过30%.

[365Key报道] 江民等一批网站联手365key共享用户和流量 #

365key 2.0版正在开发之中,会和Blog/CMS/BBS做深度融合,抄袭365key帮助文件的人,无法抄袭其精髓以及对互联网的理解。另外,365key台湾版和英文版也将陆续上线。

365Key-天天网摘自动生成

更多新闻,请访问我的365KeyRSS),你可以通过365Key订阅

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
© 2005- 王朝网络 版权所有