站长从九个方面浅析搜索引擎预处理(二)
上篇文章站长从九个方面浅析搜索引擎预处理(一)中,分别从提取文字、中文分词、消除停止词、噪声消除四个方面和大家分享了“索引”预处理,相信这些基础性的文章对大家也会有帮助。今天就接着上篇文章,继续从去重、正向索引、倒排索引、链接关系计算、特殊文件的处理等五个方面和大家进行分享。
预处理是整个搜索引擎中比较复杂的一部分,本文从九个方面分别和大家阐述一些比较基础性的知识,让大家有个了解,对于以后的网站设计以及SEO都会有帮助。当然,这些也只是自己学习到的一些知识,如果有不对的地方,还希望大家多指正。好了,开始今天的正文。
第五、随时去重:随时去重是比较重要的一部分,因为互联网的信息量巨大,加上本身大家都喜欢分享,所以就导致很多重复的内容。如果搜索引擎不进行去重处理,那么就会造成大量的重复爬取和收录。搜索引擎常用来去重的方法是对页面进行关键词指纹计算,典型的就是MD5算法,会从页面呢中选取最优代表性的一部分关键词进行计算,从而判断这些文章是否是原创。指纹计算常常精确到段落,因此一般性的伪原创是会被搜索引擎发觉的,它很容易能判定你是在抄袭。
第六、正向索引:正向索引也简称索引,蜘蛛在对网页进行提取、分词、消噪以及去重后,会得到能反应主题的关键词。搜索引擎会把这些代表页面主题的关键词组成一个个集合,同时记录每个关键词在页面上出现的次数、格式、频率等,然后把这些一个个集合存储进索引库,在庞大的索引库中,每个文件都对应一个ID,内容是一系列的关键词组合,然后搜索引擎就会不断充足自己的索引库并为排名做直接铺垫。
第七、倒排索引:上边提及的正向索引还不能用户直接排名,用户排名的是倒排索引。大家试想,如果正向索引用户排名的话,当用户搜索某个关键词,则需要对所有包含该关键词的文件进行搜索,那么工作量就会很大也不现实。搜索引擎常常把正向索引库进行重新构造并转换为倒排索引,倒排索引的结构为一个关键词对应多个文件,当用户在搜索某个关键词时,就会在这个关键词下去搜索对应的文件,这样处理速度就会快很多,也较容易实现。
第八、链接关系计算:链接关系的计算总是大家最为关注的其中之一,现在主流的搜索引擎都会网页之间的链接计算作为很重要的一部分,看页面上哪些链接能够传递权重,那么只是起到引导作用。特别是Google PR值就是根据这种链接关系进行的计算,其它搜索引擎也有类似的计算,但不称作PR。链接关系往往非常复杂,计算也会花费很久的时间,这里就不做深入的分享,只是给大家提及,让大家知道预处理中有链接计算的存在。
第九、特殊文件的处理:网页上往往不仅仅是HTML文件,还存在多种文件类型。搜索引擎也会主动抓取以文字为基础的PDF、word、Txt文件等。我们在搜索的结果中也常常会发现此类搜索结果。但对于flash和图片,虽然搜索引擎一直在努力,但距直接读取其内容的距离还很远,所以大家如果想做SEO,尽量少采用图片和FLASH。应该尽量使用较多的文字让搜索引擎毫无障碍的爬行。
到这里,通过随时去重、正向索引、倒排索引、链接关系计算、特殊文件的处理等五个方面来把本章节分享完,加上上篇文章,总共有九个方面需要站长朋友去了解,希望看了本文能对大家有帮助。好了,本文就到这里,大家有好的想法欢迎和我交流,本文来自:深圳网站建设,网址:http://www.zijiren.net,如果有不对的地方,还欢迎指正,也欢迎大家转载,转载请保留链接,谢谢!