爬虫采集过程中如何实现增量采集

 时间:2024-10-01 03:22:10

本文介绍爬虫采集过程中增量采集的作用以及如何实现增量采集。

爬虫采集过程中如何实现增量采集

爬虫采集过程中如何实现增量采集

方法/步骤

1、有些用户配置了一个规则任务之后,可能会有除了需要第一鸱远忡绑次采集所有的数据内容,后续再采集的时候只需要采集网页上新增的数据内容,对于这个需嫫绑臾潜求我们可以用增量采集这个功能实现。注意这个功能只会在云采集上生效。注意整个规则中只能出现一个提取数据的步骤才可以启用增量采集功能,如下图所示如果有两个或以上提取数据的步骤是不支持增量采集的

爬虫采集过程中如何实现增量采集

2、配置规则的时候,在保存并启动旁有个齿轮状的设置按键,点开后云采集设置中有个启用增量采集。这个地方默认是不启用增量采集的。要勾上启用增量采集那个勾才会启用增量采集。

爬虫采集过程中如何实现增量采集

3、可以上到上图中增量采集是有两个选项的对比整个URL,包含所有参数烂瘀佐栾这个意思是说,当前整条URL会与之前采集过的URL做醑穿哩侬对比,如果是完全一样的URL,就不会采集。仅对比URL及以下参数意思是说,只会对比URL中部分相同的地方。例如:如果八爪鱼第一次运行采集到第一条URL所在网页的数据,第二次规则运行时我们遇到第二条URL了,注意我们识别参数是以链接中&开头然后=之前的视为一个参数选项的。http://XXXXXXXXXX.com/forum.php?&tid=14094703&page=1http://XXXXXXXXXX.com/forum.php?&tid=14094704&page=1可以看到这两条URL中只有tid=后面的数字不一样,我们就可以选择仅对比tid这个参数,选择之后这两条URL都会采集。另外再看下page参数,如果我们选择只对比page参数,那第二条URL就不会采集的注意:如上图:系统默认选择“对比整个URL,包含所有参数”这个选项。如果需要使用“仅对比URL及以下参数”这个选项,网页URL中必须要有对应的参数才会出现参数的选择,如果没有URL里没有参数则是没有参数选项的。例如:下图中可以看到这是循环点击的规则,采集器对比的是点击之后网页的URL。

爬虫采集过程中如何实现增量采集

4、点击元素后,可以看到链接里是不带参数的

爬虫采集过程中如何实现增量采集

5、点开设置后,勾选启用增量采集,仅对比URL及以下参数,发现对比参数的列表没有参数,说明不可用。

爬虫采集过程中如何实现增量采集

6、换一个带参数的规则,点击元素后如下

爬虫采集过程中如何实现增量采集

7、点开设置后,勾选启用增量采集,仅对比URL及以下参数,发现对比参数的列表有了可以选择的参数。

爬虫采集过程中如何实现增量采集

8、这时候勾选需要增量采集的参数,便可在云采集是实现根据参数的增量采集。

《原神》3.3天云草实位置及获取方法攻略 原神帕蒂沙兰怎么获得 三国志幻想大陆只能用手机注册吗 如何设置PicPick使用中文简体语言 渊下宫在哪
热门搜索
女生宿舍 电影 2017 开国大典电影 中秋节好看的图片大全 美女祼体图片图 大众帕萨特报价及图片