资源采集-自定义采集 · 万辰CMS系统综合手册

[TOC] 自定义采集规则也是相当的简单，只需要你会一点点的css就可以搞定 ### **后台功能目录：** * [超级采集] ~~~ [资源采集] 1、自定规则 ~~~ ![](https://img.kancloud.cn/af/55/af55596813eb493042aa545d90d53004_603x526.png) ### **第一步：添加要采集的网站** 这里我们以小刀娱乐网为例：www.x6d.com 点击上方新增按钮 ![](https://img.kancloud.cn/56/7c/567ca0fc6fc08f01cfd8d69bcc58f0bf_307x149.png) 我们将小刀娱乐网的域名输入进去，点击一键获取，即可获取该网站的TDK，图标和logo 按照你的喜好程度调整一下，点击确定按钮即可。 **注意：一键获取并不是万能的，获取不成功，只能手动填写信息！！！** ![](https://img.kancloud.cn/f4/da/f4da8ac9905c84b27ef148206b83947f_1300x705.png) ### **第二步：添加网站采集规则** 这个时候，我们点击刚才添加网站的**采集/规则**，来进行规则编写 ![](https://img.kancloud.cn/f6/8c/f68c7b9bea88f90dab9b3050135f403d_435x436.png) 点击之后，会出现如下界面 ![](https://img.kancloud.cn/4b/b1/4bb11f3d5879e7957312523eefc65c09_1243x488.png) 随后，我们点击新增按钮，来编写小刀娱乐网首页的最近更新采集规则会弹出如下界面 ![](https://img.kancloud.cn/02/46/0246fc0664827e11b6ccf55cda7967b4_1231x835.png) 划重点了，接下来我们打开小刀的网站首页：www.x6d.com 打开之后，我们拉到最近更新的地方，然后按下F12，审查元素。 ![](https://img.kancloud.cn/ca/a2/caa2e67fa3a6e6f031fdf931657bad18_1516x750.png) 我们用左下角上的鼠标按钮，来寻找目标，如下图注释。 ![](https://img.kancloud.cn/7b/1c/7b1c9d02daf701582a044ff767917b3e_1956x1146.png) ``` 大致的列表定位就是：div#newslist ul li 或者也可以写成：#newslist ul li ``` 细心的你一定发现了这个问题，有的li的class带addd，有的带new，这个也是一个过滤条件。你要是只获取今日更新的教程，你就可以这样写，不要局限你的思维 ``` 大致的列表定位就是：div#newslist ul li.new 或者也可以写成：#newslist ul li.new ``` 下面的话，就可以这样填写了，我采用的是只获取今日最新的列表 ![](https://img.kancloud.cn/16/aa/16aa3536ca6b6a9d53e3b675e17d87b5_833x563.png) 接下来是获取链接，我们看li下的链接定位 ![](https://img.kancloud.cn/75/72/7572b6dac5a0085967fd40914c7eb6e4_694x173.png) 大致的层级关系是这样的： ``` [li] [a] [span] ``` 那么得出了以下结果 ``` 列表链接：a 列表标题：a 列表时间：span ``` 那么就可以如下填写信息 ![](https://img.kancloud.cn/ea/92/ea92ac4eb08e775748048a891af46f06_942x465.png) 采集类型我们可以看到，有两个选项：1、内容 2、链接这里的意思是，我们采集过来是直接跳转链接还是内容。如果你选择了内容的话，就继续下个步骤：获取内容定位。这里我们就拿 https://www.x6d.com/i-wz-15612.html 这个来实例，获取内容，还是一样的，打开之后，按f12，审查元素 ![](https://img.kancloud.cn/ff/d4/ffd406aa9c2c90a13f391a683b727efa_1585x1076.png) 由上图可知，可以得出如下结论 ``` 内容定位：.article-content 或者写成：div.article-content ``` 然后我们就填写如下信息： ![](https://img.kancloud.cn/82/2e/822ed06b337dbdf14b1e2f49a7298425_863x618.png) 过滤行数的作用就是过滤列表的前几行。我这里采集的是今日最新，所以就填写了0即可、内容图片这里，是看内容里面的img的src属性是否正确的指向了图片地址，一般是不用改的，就默认src ![](https://img.kancloud.cn/7c/ad/7caddb160972a1a25da0169fe4ff46f0_1700x1176.png) 例如，小刀这里的内容页，就是保持的src默认属性。剔除元素：以“,”分割，作用是为了剔除你不想要的部分。比如你想剔除img元素和span，就可以直接这样写 ``` img,span ``` 不用剔除就留空即可 css跟js是添加到内容底下的，你要是想采集过来附加什么样式的话，都可以自定义。接下来我们保存这项规则，点击刷新，来测试一下。 ![](https://img.kancloud.cn/67/f7/67f75e4709e4ee5b1cb055b4cac6ad2a_1254x874.png) 我们来对比一下，采集的地方是否准确就可以了。然后我们来测试一下采集就可以了，不准确的地方，可以修改规则微调一下。