5
新手入门 功能点介绍

【智能模式】【流程图模式】如何通过批量输入组合文本采集数据

2022-12-13 10:21:58
浏览 107 次

摘要:本文主要为大家介绍使用后羿采集器的流程图模式,通过输入组合文本的形式采集数据。 免费下载软件

本文主要为大家介绍使用后羿采集器的流程图模式,通过输入组合文本的形式采集数据。

温馨提示】该功能的使用需要企业标准版套餐,套餐详情请参考官网价格页面的套餐介绍

步骤一:新建采集任务

1、复制网页地址,本次以帮助中心的链接为例。

更多详情内容,请参考以下教程:

如何正确地输入网址

2、新建流程图模式采集任务

您可以在软件上新建采集任务,也可以直接导入已经创建好的任务。

更多详情内容,请参考以下教程:

如何导入和导出采集规则

步骤二:配置采集任务

1、设置输入组合文本任务

在流程图模式输入网址新建任务之后,我们点击搜索框,然后在左上角出现的操作提示框内输入要采集的文字。

输入文字组件的介绍,请参考以下教程:

流程图组件介绍

由于我们需要在多个文本框输入文本,因此我们选择点击操作框上的“批量输入文本”按钮。

接着选择“批量输入组合文本”。

然后点击第二个输入文本框。全部输入文本框选中完毕后,点击“确定”。

在弹出的输入文本界面填写组合文本,组合文本之间请用英文逗号,”进行分割。

点击“确定”按钮后,软件会自动生成组件。

然后我们点击页面上的“登录”按钮,在操作框内选择“点击一次该元素”按钮,跳转到结果页。

2、设置提取字段数据

输入组合文本循环设置好之后,我们设置需要提取的字段数据,点击网页上的字段,在左上角的操作提示框内选择”提取列表中的数据“。接着软件会自动识别到分页,可以根据软件的”操作提示“去设置分页。

然后我们可以在这个基础上按照自己的需求对采集字段进行设置。

更多详情内容,请参考以下教程:

如何对采集字段进行配置

3、设置深入采集

如果我们需要采集详情页的数据,可以使用深入采集功能。

更多详情内容,请参考以下教程:

如何实现深入采集

4、设置详情页数据

详情页的采集和单页类型的采集方式是一样的。我们点击页面上需要采集的数据,然后在操作提示框内点击“提取该元素中的数据”按钮,之后数据设置可参考列表页的设置。

更多详情内容,请参考以下教程:

如何采集单页类型的网页

5、完整组件图

步骤三:设置并启动采集任务

1、启动采集任务

点击“开始采集”按钮,可在弹出的启动设置页面中进行一些高级设置,包括“定时启动、防屏蔽、自动导出、文件下载、加速引擎、数据去重、开发者设置”功能,本次操作没有用到以上功能,直接点击“启动”按钮开始采集。

更多关于定时启动,自动导出,图片下载的详情内容,请参考以下教程:

如何设置定时采集

如何设置自动导出

如何设置文件下载

【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的;专业版及以上用户可使用定时启动功能;旗舰版用户可以使用自动导出功能及加速引擎功能。

2、运行任务提取数据

任务启动之后便开始自动采集数据,我们从界面上可以直观的看到程序运行过程和采集结果,采集结束之后会有提醒。

步骤四:导出并查看数据

数据采集完成后,我们可以查看和导出数据,后羿采集器支持多种导出方式(手动导出到本地、手动导出到数据库、自动发布到数据库、自动发布到网站)和导出文件的格式(EXCEL、CSV、HTML和TXT),同时还支持导出具体条数,可以在数据中选择想导出的条数,然后点击“确认导出”。

分享到:
python爬虫 python数据采集 正则匹配邮箱 网页内容关键字提取 网页下载成word 批量下载图片 数据自动整理成excel php爬虫 批量下载视频 批量生成网址
关闭