[TOC]
自定义采集规则也是相当的简单,只需要你会一点点的css就可以搞定
### **后台功能目录:**
* [超级采集]
~~~
[资源采集]
1、自定规则
~~~
![](https://img.kancloud.cn/af/55/af55596813eb493042aa545d90d53004_603x526.png)
### **第一步:添加要采集的网站**
这里我们以小刀娱乐网为例:www.x6d.com
点击上方新增按钮
![](https://img.kancloud.cn/56/7c/567ca0fc6fc08f01cfd8d69bcc58f0bf_307x149.png)
我们将小刀娱乐网的域名输入进去,点击一键获取,即可获取该网站的TDK,图标和logo
按照你的喜好程度调整一下,点击确定按钮即可。
**注意:一键获取并不是万能的,获取不成功,只能手动填写信息!!!**
![](https://img.kancloud.cn/f4/da/f4da8ac9905c84b27ef148206b83947f_1300x705.png)
### **第二步:添加网站采集规则**
这个时候,我们点击刚才添加网站的**采集/规则**,来进行规则编写
![](https://img.kancloud.cn/f6/8c/f68c7b9bea88f90dab9b3050135f403d_435x436.png)
点击之后,会出现如下界面
![](https://img.kancloud.cn/4b/b1/4bb11f3d5879e7957312523eefc65c09_1243x488.png)
随后,我们点击新增按钮,来编写小刀娱乐网首页的最近更新采集规则
会弹出如下界面
![](https://img.kancloud.cn/02/46/0246fc0664827e11b6ccf55cda7967b4_1231x835.png)
划重点了,接下来我们打开小刀的网站首页:www.x6d.com
打开之后,我们拉到最近更新的地方,然后按下F12,审查元素。
![](https://img.kancloud.cn/ca/a2/caa2e67fa3a6e6f031fdf931657bad18_1516x750.png)
我们用左下角上的鼠标按钮,来寻找目标,如下图注释。
![](https://img.kancloud.cn/7b/1c/7b1c9d02daf701582a044ff767917b3e_1956x1146.png)
```
大致的列表定位就是:div#newslist ul li
或者也可以写成:#newslist ul li
```
细心的你一定发现了这个问题,有的li的class带addd,有的带new,这个也是一个过滤条件。
你要是只获取今日更新的教程,你就可以这样写,不要局限你的思维
```
大致的列表定位就是:div#newslist ul li.new
或者也可以写成:#newslist ul li.new
```
下面的话,就可以这样填写了,我采用的是只获取今日最新的列表
![](https://img.kancloud.cn/16/aa/16aa3536ca6b6a9d53e3b675e17d87b5_833x563.png)
接下来是获取链接,我们看li下的链接定位
![](https://img.kancloud.cn/75/72/7572b6dac5a0085967fd40914c7eb6e4_694x173.png)
大致的层级关系是这样的:
```
[li]
[a]
[span]
```
那么得出了以下结果
```
列表链接:a
列表标题:a
列表时间:span
```
那么就可以如下填写信息
![](https://img.kancloud.cn/ea/92/ea92ac4eb08e775748048a891af46f06_942x465.png)
采集类型我们可以看到,有两个选项:1、内容 2、链接
这里的意思是,我们采集过来是直接跳转链接还是内容。
如果你选择了内容的话,就继续下个步骤:获取内容定位。
这里我们就拿 https://www.x6d.com/i-wz-15612.html
这个来实例,获取内容,还是一样的,打开之后,按f12,审查元素
![](https://img.kancloud.cn/ff/d4/ffd406aa9c2c90a13f391a683b727efa_1585x1076.png)
由上图可知,可以得出如下结论
```
内容定位:.article-content
或者写成:div.article-content
```
然后我们就填写如下信息:
![](https://img.kancloud.cn/82/2e/822ed06b337dbdf14b1e2f49a7298425_863x618.png)
过滤行数的作用就是过滤列表的前几行。我这里采集的是今日最新,所以就填写了0即可、
内容图片这里,是看内容里面的img的src属性是否正确的指向了图片地址,一般是不用改的,就默认src
![](https://img.kancloud.cn/7c/ad/7caddb160972a1a25da0169fe4ff46f0_1700x1176.png)
例如,小刀这里的内容页,就是保持的src默认属性。
剔除元素:以“,”分割,作用是为了剔除你不想要的部分。
比如你想剔除img元素和span,就可以直接这样写
```
img,span
```
不用剔除就留空即可
css跟js是添加到内容底下的,你要是想采集过来附加什么样式的话,都可以自定义。
接下来我们保存这项规则,点击刷新,来测试一下。
![](https://img.kancloud.cn/67/f7/67f75e4709e4ee5b1cb055b4cac6ad2a_1254x874.png)
我们来对比一下,采集的地方是否准确就可以了。
然后我们来测试一下采集就可以了,不准确的地方,可以修改规则微调一下。