5
新手入门 功能点介绍

【智能模式】【流程图模式】如何设置数据去重

2019-10-29 08:48:15
浏览 379 次

摘要:本教程为大家介绍了如何设置数据去重 免费下载软件

数据去重功能是指在任务采集过程中,将可能遇到的重复数据筛除,只留下有效数据。软件的数据去重功能需要先采集下所有数据再进行筛除,因此开启此项功能会造成采集速度变慢,大家请谨慎使用。

在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。

1、去重条件

1)所有字段都重复

勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重,筛除掉一条重复数据。如果两行数据中有一个字段不相同,其他字段数据相同,那么这条数据则不判定为重复数据,软件会采集下两条数据。

2)某些字段重复

勾选此去重条件,软件可以按照某一或者某些字段进行去重,只要设置去重条件的字段的数据重复,就可以判定为重复数据,只会保留下一条数据。

按照字段去重可以设置多个字段,点击“+”或者“—”符号进行设置,多个字段之间的关系是并且关系,即如果设置了两个字段去重,要同时满足字段1和2都相同的前提下,才会对这条数据进行筛除。

2、执行动作

设置完去重条件,接着可以设置在这个去重条件下是跳过继续采集,还是停止任务。

一般采集时,我们会选择当数据重复时,跳过继续采集,让软件筛除无效数据。

遇到特殊情况,如某些比较特殊的网页最后一页一直重复采集,此时可以选择当数据重复时停止采集任务。

分享到: