robots.txt的详细写法之wordpress博客(一)

王朝网站推广·作者佚名  2011-12-04
宽屏版  字体: |||超大  

今天回顾检查近期的收录结果,发现搜索引擎还是始终收录3月中发的那篇测试文章,而新的页面,无论原创还是伪原创一概不收录,仔细一检查发现是后台的sitemap插件有设置问题,已经修改好。然后突然发现自己的robots.txt写法似乎存在问题。

User-agent: *

Disallow:Sitemap: http://www.isongxia.com/sitemap.xml.gz

使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,网上此类的学习帖非常之多。@老乐的写法我认为比较不错。

最简单的严格写法

User-agent: *

Disallow: /wp-*

#Allow: /wp-content/uploads/

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.js$

Disallow: /*.css$

Disallow: /?s=

允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

@宋夏的写法

User-agent: *

Disallow: /wp-admin

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /wp-includes

Disallow: /?s=

Sitemap: http://www.isongxia.com/sitemap.xml.gz

允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。

robots.txt的详细写法之wordpress博客(二):http://www.isongxia.com/robots-txt-2.html

【宋夏的网络推广成长博客】本文地址:http://www.isongxia.com/robots-txt-1.html(转载敬请保留)

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
© 2005- 王朝网络 版权所有