AI写作智能体 自主规划任务,支持联网查询和网页读取,多模态高效创作各类分析报告、商业计划、营销方案、教学内容等。 广告
##### 一、简介 文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器的数据库内。 文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。 编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。 ##### 二、功能演示 一、采集流程 简单的讲有三个步骤: 1、添加采集点,填写采集规则。 2、采集网址,采集内容 3、发布内容到指定栏目 以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)为例,作一下详细流程介绍。 实例说明: 目标:采集新浪新闻到V9系统 “国内” 栏目中。 目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml 1、添加采集点 2. 网址规则配置 **1. 添加采集点,填写采集规则** ![](https://img.kancloud.cn/c9/46/c94687ff274759bb7e60fe69c46003a3_797x729.png) **A.内容规则** ![](https://img.kancloud.cn/27/23/272319c5c27ed6147655bea0c08374e0_784x723.png) *注:上图的“目标网页源码”是指:目标网页的源代码。具体步骤如下: 目标网页——>右键——>查看源代码——>找到你要采集的源代码开始和结束,按“上图”填写规则。* 添加成功后,测试你的网址采集规则是否正确,如下图所示: ![](https://img.kancloud.cn/ca/86/ca86d92c8a1c12ce4875e111948b1263_855x562.png) **B.内容规则配置** 为了便于说明,我们只采集标题、内容两个字段。 采集内容网址:http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。 **标题采集配置:** 从网页<title></title>里取标题,并去除不需要的字符。如下图 ![](https://img.kancloud.cn/2c/b9/2cb92cc535350529c241899bb335f95b_1068x173.png) **内容采集配置:** 新浪新闻最终页,新闻内容都包含在 <!-- 正文内容 begin --> <!-- 正文内容 end --> 之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图 ![](https://img.kancloud.cn/38/01/38018880a849f290e50cb126728f8912_1239x152.png) **C.自定义规则** 除系统自带的规则外,可根据自己需求进行自定义规则采集。操作和系统规则相同,如下图: ![](https://img.kancloud.cn/56/25/56252200c726398a24f8fc4d5979083a_1260x304.png) **D.高级配置** 可设置是否把图片下载到服务器上,是否打水印等配置。如下图所示: ![](https://img.kancloud.cn/ce/84/ce84f59ab03b9a1e8deb2aa4137d5d1e_396x232.png) **2. 采集管理** 添加采集点测试成功后,你可以管理你添加的采集点(采集网址,采集内容,内容发布,测试,修改,复制,导出).如下图所示: ![](https://img.kancloud.cn/ad/5e/ad5eb6d0db252013359359555dc77847_802x185.png) **A.采集网址** 采集采集点的网址。 **B.采集内容** 采集采集点的内容。 **C.内容发布** 将采集的内容发布到指定栏目中。如下图所示: ![](https://img.kancloud.cn/12/b4/12b4c9d89b9a1299e7d56c42059b305c_792x546.png) 点击“导入”,跳转到选择栏目页面。如下图所示: ![](https://img.kancloud.cn/e3/72/e372199d7437fb86c3e287de2d553eaa_722x229.png) 点击“提交后”,跳转到栏目配置设置页面。如下图所示: ![](https://img.kancloud.cn/48/55/485596d867856ac0199afd130fb8388a_798x169.png) ![](https://img.kancloud.cn/b3/fc/b3fc7e643a4be728847494e8263f611c_799x265.png) 提交成功将采集内容导入到指定栏目(如下图所示)。在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就操作完成。在指定的栏目下已经存在你采集的内容信息。 ![](https://img.kancloud.cn/57/05/570566e2a918d117a42937b74a475662_861x202.png)