用侠客站群系统对某健康网保健栏目抓取模块(一)
在A5里我的权限只是A1,一天只能上传3张图片,接触侠客站群管理系统没 几天,属于新手新新手,写这个的目的一是为了完成任务,二是为了记录自己的操作过程,如同笔记,写帖子的时候,就需要比较多的图片,这样以后自己记不清的 时候,翻翻帖子也知道怎么个操作了,如果只有3张图,我担心不够清楚,所以,非常感谢侠客的客服—可可美女同学,帮我传图片,谢谢了。
在www.xiake5.com下载了侠客站群免费版之 后,通 过这几天侠客站群的使用来看,侠客是集抓取采取,文章处理,自动发布与一体的大成式软件,但是自己的做站经验告诉我,如果要提高效率,只有先从自己的网站 内容量上来入手,在侠客站群的模块市场里,有大量的发布模块供给选择,所以,我更多的关注方向是抓取模块,就是如何能够更好更多地抓取到适合自己站点的内 容,这个帖子,是我感觉到自己需要能够更加深入的了解侠客的功用才做的,结果令人满意,侠客的神奇不仅仅是简便的视觉提取,甚至在正则抓取上面都有令人炫 目的表现,神器般的抓取效果,让人嗔目结舌,精准的提取让人兴奋不已,通过教程学习,根据教程,我尝试在内容列表页开始使用正则提取链接,也让我小成功了 一把,窃喜一下下,我会仔细地通过图片演示,将39健康网男性保健栏目的模块通过自定义抓取方式建立起来,通过上,中,下三个教程,分别对应自定义抓取过 程中的三个步骤即:
流程1:抓取列表链接;流程2:获取内容链接;流程3:内容取得链接,如下图
其中:流程1,流程2为视觉提取模式,流程3均为采取正则+视觉提取模式。
操作步骤:
1、进入39健康网的内容列表页面,一定要是这样的形式的,必须为文章列表模式,下面带有“1.2.3~~~”分页的页面,同时右键页面,查看源文件,编码为:charset=gb2312
这个是第一页的图:
这个是第二页的图:
这个是尾页的图:
总结三张图的共同点就是,前面都有:http://man.xxx.net/nxbj/bjcs这个定为入口点,
比较三张图的不同点就是,后面的index是不一样的,第一页没有,第二页为index_2.html,尾页为index_97.html,也就是从2至97,加1的增序排列的,编码为charset=gb2312"
以上的异同点记住,在制作流程1的时候会用得上的。
2、点击制作新模块—新建抓取模块,弹出上图后
3、选择“自定义模式”
4、点击“流程1:获取列表链接”,弹出:
选择:默认编码(GBK,GB2312),入口地址填为:http://manxx.net/nxbj/bjcs
5、点击上图中的“分页提取规则”,在弹出的页面中,如图填写:
《》提取引擎:选择基于视觉引擎提取
《》提取编码:默认编码(GBK,GB2312)
《》提取模式:自动生成链接
《》结果开头插入:http://manxx.net/nxbj/bjcs/index_
《》结果末尾插入:.html
《》尾:从2到97,增量1
其他不动,这样其实就是生成2-96页,首尾两页放弃,理论上2-98也可以,不过没试过,呵呵
然后点击右上的“测试全局规则”测试地址可以不管的,看到下面的提取结果了吧,出来了,好了一步步的保存数据,这样流程1:获取列表链接已经完成。
小 结一下,这个操作是根据教程提取搜狐女人页面来的,这样的被称为JS分页的,貌似是视觉方式提取是最好的,一定要选自动生成链接,这个是在源文件里看不到 的,我的经验是,如果源文件里看不到的最好采取视觉方式,只要源文件里能看到就可以使用正则了,以后的流程2和流程3将体验到侠客正则提取的威力,尽管拗 口,尽管难懂,但是有效,在这里最好新入门的同学去多去看教程,官网上很详细的,前几天的介绍里,都有教程的地址之类的,大家可以去翻翻帖子,我的逻辑能 力很低,劝大家,如果不是专业的计算机专业的,不要去度娘上看正则的专业教程,看完以后会糊涂中后悔崩溃的