💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
# 添加采集规则 ![](https://img.kancloud.cn/dd/c2/ddc26c7a8b12f9607dc00df6d8b39211_1556x999.png) ## 任务名称: 你所创建的任务的名称,方便查看管理 ## 初始种子 一般为所采集的栏目 ![](https://img.kancloud.cn/90/80/9080650f499d5c08d57aca5033b3be42_1556x999.png) ## 备注 方便管理记忆,和任务名称区别不大 ## 翻译处理 一般只有在采集国外文章才用到翻译接口 ![](https://img.kancloud.cn/bf/83/bf83f3005596d94d85e6eeb9bb4ed05a_1556x999.png) ## 高级选项 cookies: 需要通过FD捉包获取ID值,一般只有在采集国外才用到这个. ## 允许域名: 如果采集获取不了域名,或者禁止访问,就填写对方网站主域名即可. ## 原创度 原创度检测,如果采集不检测则默认为0 ## Delay采集间隔: 不设置则为0,一般不建议为0,因为有一些网站加密狗反爬虫会检测得到,建议35-60秒左右.模拟人工采集. ## 字符集: 网站编码一般为UTF-8或者GBK(gb2312) 查看网站编码方式主要为查看源代码,CTRL+F查找** charset** ![](https://img.kancloud.cn/c5/c4/c5c4a84aa49c45ef91f054ddf938774e_1556x999.png) ## 解码: 有一些网站采集加密了,可以用解码获取。一般不选择. ## 点击下一步 ***** 获取该栏目下多少篇文章 一般获取a的值 *采用(JQUERY)*获取 ***** 采用开发者工具键盘(CTRL+SHIET+i)键获取 ~~如果打不开开发者工具那就是网站代码打键盘输入禁止了,可以通过图下获取~~ ![](https://img.kancloud.cn/98/95/989576de1538c3cfda519350ef62a1b5_1862x965.png) ***** 获取改栏目下面每篇文章的地址 可以通过 ![](https://img.kancloud.cn/87/94/879404b427f3a551811b5cd626f5a06a_1862x965.png)获取每个a的值 ![](https://img.kancloud.cn/b4/a5/b4a52507b531646bd9b6769317ed1c71_1556x999.png) 完成就**测试一下采集** ![](https://img.kancloud.cn/e9/2e/e92e00c2206d35fe9f11ed792e32fb68_1556x999.png)模拟采集十条成功. *****接下来就是采集分页 ![](https://img.kancloud.cn/62/f1/62f17ba582eec7aa6522d7cfe9d1fb46_1862x965.png) ![](https://img.kancloud.cn/3d/bb/3dbb1ba7dee3088c085b7b6ece5e96db_1556x999.png) 点击下一步 ``` 模拟采集分页可成功即可点击下一页 接下来就是模拟采集文章是否成功 点击一篇文章模拟采集 ``` ![](https://img.kancloud.cn/64/31/6431845728ffb8f8e5bf6b696fb3b214_1556x999.png) 获取文章标题 ``` 一般网站只有一对h1 如果没有h1则填写title 【填写title注意获取标题需要过滤一些字符】 ``` ![](https://img.kancloud.cn/aa/ec/aaec1d4404f7e76106a43da1aabc834c_1242x1026.png) 在获取文章内容 ![](https://img.kancloud.cn/81/7d/817d42fe1cd4ff0398dbcf5711aab07c_1862x965.png) ![](https://img.kancloud.cn/18/e0/18e0d4978c577a1b31cbfb028c380ae5_1552x999.png) ![](https://img.kancloud.cn/6b/a8/6ba8336cc5fe82c2c187a9a4ee467291_1552x999.png) 点击模拟采集 ![](https://img.kancloud.cn/35/1a/351a2cdc3d02c527733561add76acda4_1552x999.png) ![](https://img.kancloud.cn/2d/d4/2dd4b285cf0c8247b321419c05520be3_1552x999.png) 模拟采集文章成功,即可进入下一步【绑定网站栏目】和设置定时采集时间 ![](https://img.kancloud.cn/49/6f/496faec5e723124929ac4ad531295da7_1680x878.png)