织梦采集侠定向采集规则设置方法

时间:2012-04-02 02:00 来源:http://www.222o.com 责任编辑:2o站长 点击:
织梦采集侠是一个非常不错的站长辅助工具,特别是2.6出来以后增加了定向采集功能。
今天我以采集目标站游戏网名大全http://www.al66.com的游戏网名为列讲述下定向采集规则的编写方法,以免采集到非正文的垃圾内容。
织梦采集侠定向采集规则设置

首先,我们要确定目标站的页面编码是gb2312还是utf8,打开目标站游戏网名栏目,随便选取一篇文章查看源代码,如图1所示
图1:
图1:查看源代码

然后是列表url:打开游戏名字栏目选择第二页,然后再选第一页,查看url变化http://www.al66.com/nvwangyouming/list_4_2.htmlhttp://www.al66.com/nvwangyouming/list_4_1.html只有1个数字变化当然,也可以选择最后一页看看,基本上第一页和第二页才是最新的文章类容,我们这里选5页,统配符[开始页-结束页],可以填写规则为http://www.al66.com/nvwangyouming/list_4_[1-5].html
文章url:刚才查看源代码的那篇文章url是http://www.al66.com/nvwangyouming/1048.html通配符为(*),这个比较简单,只要将变化的内容换成(*)就可以了规则为http://www.al66.com/nvwangyouming/(*).html
标题规则:标题规则选择源代码里<title>与</title>之间的内容,这里要注意如图1,标题名是“个性女孩游戏网名:寶貝の不許哭 - 阿里露露网名设计”,查看网页的时候显示标题是“个性女孩游戏网名:寶貝の不許哭”,阿里露露网名设计是网站名字,这个不是我们要采集的,我们只要个性女孩游戏网名:寶貝の不許哭这个标题,那么我们规则可以设置为<title>[内容] - 阿里露露网名设计</title>
作者规则:很多网站都将网站域名或者是网站名作为作者名字,这也不是我们想要的,我们可以在采集侠高级设置里设置默认作者,所以这里设置为自动,也就是不采集。
来源规则:同作者规则一样,设置为自动。
内容规则:靠近内容部分独一无二的代码或者文字(不含文章内容部分),如<DIV class=wzrr>[内容]<embed height 多打开几篇内容页看看,必须每篇里面都包含
分页规则:这篇文章没有分页,网名站不要采集分页内容也不会影响文章可读性,所以可以选择自动不采集,如果其他网站可以参考内容规则写法
然后就是测试了
测试结果1
测试结果2

最后测试完成没有错误后一定要点击添加后再点保存,不然这些规则就白添加了。
  • [2o站长源码网]刊登此文只为传递信息,并不表示赞同或者反对作者观点。
  • 如果此内容给您造成了负面影响或者损失,本站不承担任何责任。
  • 如果内容涉及版权问题,请及时与我们取得联系。