企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
[TOC] 自定义采集规则也是相当的简单,只需要你会一点点的css就可以搞定 ### **后台功能目录:** * [超级采集] ~~~ [资源采集] 1、自定规则 ~~~ ![](https://img.kancloud.cn/af/55/af55596813eb493042aa545d90d53004_603x526.png) ### **第一步:添加要采集的网站** 这里我们以小刀娱乐网为例:www.x6d.com 点击上方新增按钮 ![](https://img.kancloud.cn/56/7c/567ca0fc6fc08f01cfd8d69bcc58f0bf_307x149.png) 我们将小刀娱乐网的域名输入进去,点击一键获取,即可获取该网站的TDK,图标和logo 按照你的喜好程度调整一下,点击确定按钮即可。 **注意:一键获取并不是万能的,获取不成功,只能手动填写信息!!!** ![](https://img.kancloud.cn/f4/da/f4da8ac9905c84b27ef148206b83947f_1300x705.png) ### **第二步:添加网站采集规则** 这个时候,我们点击刚才添加网站的**采集/规则**,来进行规则编写 ![](https://img.kancloud.cn/f6/8c/f68c7b9bea88f90dab9b3050135f403d_435x436.png) 点击之后,会出现如下界面 ![](https://img.kancloud.cn/4b/b1/4bb11f3d5879e7957312523eefc65c09_1243x488.png) 随后,我们点击新增按钮,来编写小刀娱乐网首页的最近更新采集规则 会弹出如下界面 ![](https://img.kancloud.cn/02/46/0246fc0664827e11b6ccf55cda7967b4_1231x835.png) 划重点了,接下来我们打开小刀的网站首页:www.x6d.com 打开之后,我们拉到最近更新的地方,然后按下F12,审查元素。 ![](https://img.kancloud.cn/ca/a2/caa2e67fa3a6e6f031fdf931657bad18_1516x750.png) 我们用左下角上的鼠标按钮,来寻找目标,如下图注释。 ![](https://img.kancloud.cn/7b/1c/7b1c9d02daf701582a044ff767917b3e_1956x1146.png) ``` 大致的列表定位就是:div#newslist ul li 或者也可以写成:#newslist ul li ``` 细心的你一定发现了这个问题,有的li的class带addd,有的带new,这个也是一个过滤条件。 你要是只获取今日更新的教程,你就可以这样写,不要局限你的思维 ``` 大致的列表定位就是:div#newslist ul li.new 或者也可以写成:#newslist ul li.new ``` 下面的话,就可以这样填写了,我采用的是只获取今日最新的列表 ![](https://img.kancloud.cn/16/aa/16aa3536ca6b6a9d53e3b675e17d87b5_833x563.png) 接下来是获取链接,我们看li下的链接定位 ![](https://img.kancloud.cn/75/72/7572b6dac5a0085967fd40914c7eb6e4_694x173.png) 大致的层级关系是这样的: ``` [li] [a] [span] ``` 那么得出了以下结果 ``` 列表链接:a 列表标题:a 列表时间:span ``` 那么就可以如下填写信息 ![](https://img.kancloud.cn/ea/92/ea92ac4eb08e775748048a891af46f06_942x465.png) 采集类型我们可以看到,有两个选项:1、内容 2、链接 这里的意思是,我们采集过来是直接跳转链接还是内容。 如果你选择了内容的话,就继续下个步骤:获取内容定位。 这里我们就拿 https://www.x6d.com/i-wz-15612.html 这个来实例,获取内容,还是一样的,打开之后,按f12,审查元素 ![](https://img.kancloud.cn/ff/d4/ffd406aa9c2c90a13f391a683b727efa_1585x1076.png) 由上图可知,可以得出如下结论 ``` 内容定位:.article-content 或者写成:div.article-content ``` 然后我们就填写如下信息: ![](https://img.kancloud.cn/82/2e/822ed06b337dbdf14b1e2f49a7298425_863x618.png) 过滤行数的作用就是过滤列表的前几行。我这里采集的是今日最新,所以就填写了0即可、 内容图片这里,是看内容里面的img的src属性是否正确的指向了图片地址,一般是不用改的,就默认src ![](https://img.kancloud.cn/7c/ad/7caddb160972a1a25da0169fe4ff46f0_1700x1176.png) 例如,小刀这里的内容页,就是保持的src默认属性。 剔除元素:以“,”分割,作用是为了剔除你不想要的部分。 比如你想剔除img元素和span,就可以直接这样写 ``` img,span ``` 不用剔除就留空即可 css跟js是添加到内容底下的,你要是想采集过来附加什么样式的话,都可以自定义。 接下来我们保存这项规则,点击刷新,来测试一下。 ![](https://img.kancloud.cn/67/f7/67f75e4709e4ee5b1cb055b4cac6ad2a_1254x874.png) 我们来对比一下,采集的地方是否准确就可以了。 然后我们来测试一下采集就可以了,不准确的地方,可以修改规则微调一下。