5
新手入门 功能点介绍

【智能模式】【流程图模式】如何批量生成网址

2019-10-29 15:32:24
浏览 10658 次

摘要:本文主要给大家介绍如何使用后羿采集器的批量生成网址功能。 免费下载软件

后羿采集器支持批量生成网址功能,即通过设置一定的规则,自动生成您需要的网址,智能模式和流程图模式的具体设置位置相同,在新建采集任务界面中,如下图所示:

批量生成网址一般用于多网址采集的场景,这里又可以分为两种情况:

第一种:当网页中没有翻页按钮时,这种情况下无法通过点击翻页按钮进行循环翻页采集,这种网站各个分页的网址一般都只有部分参数(例如页面编号)不同,因此可以通过使用批量生成网址功能来一次性生成所有的分页网址,然后按照多网址进行采集。

第二种:当你需要采集多个网址,但是这些网址是符合一定的规则的,那么就可以通过批量生成的方式来生成,而无需手动填写。

一般情况下,网址的基本结构都是:固定网址+变化参数+固定网址

这里我们用时光网作为例子来给大家介绍一下,网址示例如下:

http://www.mtime.com/top/movie/top100/

http://www.mtime.com/top/movie/top100/index-2.html

http://www.mtime.com/top/movie/top100/index-3.html

……

http://www.mtime.com/top/movie/top100/index-10.html

上面几个网址对应的网页如下图所示,我们可以看到除了首页,其余网址除了红色部分数字不同,其余部分都是相同的。

(注:针对首页不符合规则的情况,我们可以尝试手动修改成符合规则的样子,即:http://www.mtime.com/top/movie/top100/index-1.html,如果修改前后都能够访问同一个网页,则可以一起生成,否则第一个网址需要单独采集,本文这个网址是不满足的)

下面我们来介绍一下使用批量生成网址的步骤。

步骤一:输入第一部分的固定网址:

http://www.mtime.com/top/movie/top100/index-

步骤二:点击添加参数:

步骤三:设置第一个参数,参数类型设为数字,然后对起始值、截止值和步长等参数进行配置(因为这里第一个网址修改之后不能用,所以我们设置为从2到10,步长为1,递增,数字前不补零)

步骤四:点击添加参数,添加第二个参数,设置参数类型为自定义,然后将后半截固定网址粘贴进去,即:.html

我们可以在网址预览中看到最终生成的网址样式。

 

温馨提示:

本文仅以数字类型参数为例进行了描述,后羿采集器支持的参数类型还包括字母和时间,大家可以参考本文进行设置。

在使用批量生成网址时一定要注意是否需要关闭分页设置,如果不需要翻页就必须关闭分页设置,否则会出现大量重复数据。如下图所示:

分享到: