5
新手入门 功能点介绍

【智能模式】【流程图模式】如何批量生成网址

2020-10-16 17:31:16
浏览 71610 次

摘要:本文主要给大家介绍如何使用后羿采集器的批量生成网址功能。 免费下载软件

后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示:

批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况:

第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。

第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过批量生成的方式来生成,而无需手动填写。

一般情况下,网址的基本结构都是:固定网址+变化参数

这里我们用后羿采集器官网作为例子来给大家介绍一下,网址示例如下:

http://www.houyicaiji.com/?type=list&cat_id=148

http://www.houyicaiji.com/?type=list&cat_id=148&page=2

http://www.houyicaiji.com/?type=list&cat_id=148&page=3

http://www.houyicaiji.com/?type=list&cat_id=148&page=4

上面几个网址对应的网页如下图所示,我们可以看到除了首页,其余网址除了红色部分数字不同,其余部分都是相同的。

(注:针对首页不符合规则的情况,我们可以尝试手动修改成符合规则的样子,即:http://www.houyicaiji.com/?type=list&cat_id=148&page=1,如果修改前后都能够访问同一个网页,则可以一起生成,否则第一个网址需要单独采集,本文这个网址是不满足的)

下面我们来介绍一下使用批量生成网址的步骤。

步骤一:输入第一部分的固定网址:

http://www.houyicaiji.com/?type=list&cat_id=148&page=

步骤二:点击添加参数:

步骤三:设置第一个参数,参数类型设为数字,然后对起始值、截止值和步长等参数进行配置(因为这里第一个网址修改之后不能用,所以我们设置为从2到10,步长为1,递增,数字前不补零)

 

我们可以在网址预览中看到最终生成的网址样式。

温馨提示:

本文仅以数字类型参数为例进行了描述,后羿采集器支持的参数类型还包括字母和时间,大家可以参考本文进行设置。

在使用批量生成网址时一定要注意是否需要关闭分页设置,如果不需要翻页就必须关闭分页设置,否则会出现大量重复数据。如下图所示:

分享到:
批量生成网址 网页下载成word 数据自动整理成excel 批量下载图片 php爬虫 批量下载视频 python爬虫 python数据采集 网页内容关键字提取 正则匹配邮箱
关闭