5
新手入门 功能点介绍

【流程图模式】如何利用批量输入页码的方式翻页

2022-04-21 15:06:03
浏览 7302 次

摘要:本文主要介绍如何使用后羿采集器的流程图模式,利用批量输入页码的方式进行翻页。 免费下载软件

在采集任务的设置中,经常能遇到网页没有翻页按钮或者网站有严格的防采集限制,不能用点击下一页按钮的形式进行翻页的情况这个时候我们就可以使用后羿采集器的流程图模式,利用批量输入页码的方式翻页。

步骤一:新建采集任务
1、复制目标网站的网址

【温馨提示】需要搜索结果页的网址,而不是首页的网址。

点此了解关于如何正确地输入网址。

2、新建流程图模式采集任务
您可以在软件上直接新建采集任务。
点此了解如何导入和导出采集任务。

步骤二:配置采集任务
1、设置批量输入页码的循环组件
在流程图模式输入网址新建任务之后,我们点击页码输入框,然后在左上角出现的操作提示框内输入要采集的页码。

温馨提示】由于我们需要输入多个页码,因此我们选择点击操作框上的“批量输入文本”按钮。

接着选择“批量输入单个文本”。

然后在弹出的文本列表中输入我们需要设置的页码,这里我们分别输入“1”,“2”,“3”。

点击“确定”按钮后,软件会自动生成循环输入页码的组件。

然后我们点击页面上的跳转按钮,在操作框内选择“点击一次该元素”按钮,跳转到对应的网页并生成点击组件。


2、设置提取列表数据
输入多个页码循环设置好之后,我们需要设置提取列表数据,点击网页上的字段,在左上角的操作提示框内选择“提取列表中的数据”。

软件会自动识别到分页,本次的采集任务是不需要设置自动分页的,所以选择“不需要翻页,只采集当前页”。


然后我们可以在这个基础上对采集字段进行设置,用户可以按照自己的需求去设置。

更多详情内容,请参考以下教程:

如何对采集字段进行配置

步骤三:设置并启动采集任务
1、启动采集任务
点击“开始采集”按钮,可在弹出的启动设置页面中进行一些高级设置,包括“定时启动、智能策略、自动导出、文件下载”等功能,本次操作没有用到以上功能,直接点击启动按钮开始采集。

点此深入了解什么是定时启动。

点此深入了解什么是自动导出。

点此深入了解如何设置文件下载。

【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的;专业版及以上用户可使用定时启动功能;旗舰版用户可以使用自动导出功能。

2、运行任务提取数据
任务启动之后便开始自动采集数据,我们从界面上可以直观的看到程序运行过程和采集结果,采集结束之后会有提醒。

步骤四:导出并查看数据

数据采集完成后,我们可以导出和查看数据,后羿采集器支持多种导出方式和导出文件的格式(EXCEL、CSV、HTML和TXT),同时还支持导出具体条数,可以在数据中选择想导出的条数,然后点击“导出数据”。

分享到:
python爬虫 python数据采集 正则匹配邮箱 批量下载视频 批量下载图片 批量生成网址 网页内容关键字提取 网页下载成word 数据自动整理成excel php爬虫
关闭