Google 搜索引擎spam 的种类

王朝站长·作者佚名  2011-12-16  
宽屏版  字体: |||超大  

a. 内容型(内容欺骗型与非欺骗型) b. 链接型 c. 复合型

Google 搜索引擎判断spam的一般方法

- 链接分析:网站(域名,IP)之间的链接,网页之间的链接的数目,应该限制在一定的数目内,并且要考虑分布的状况。

- 面单一词汇的分析:(有时叫关键词密度分析)页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。

- 连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。

- 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam。

- 相关分析:白名单,黑名单。

- 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后链接就被记录下来,成为一个“陷阱”。

- 正文里非链接的文字的比例。现在采用两种page rank,一种是链接型网页,一种是内容型网页,链接型网页比较容易被判断当做spam,例如 hao123.com 。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
© 2005- 王朝网络 版权所有