5
新手入门 功能点介绍

【智能模式】【流程图模式】如何设置文件下载

2019-10-29 16:20:41
浏览 13736 次

摘要:本教程介绍了如何设置文件下载功能 免费下载软件

后羿采集器支持在采集的过程中下载文件,文件类型包括:图片、音频、视频、文档、其他文件,启用文件下载功能的位置如下图所示:

需要注意的是,此处的设置只是针对文件下载功能的开启,所有的文件下载都需要在采集字段中设置对应的下载链接,无法获取下载链接的文件不支持下载。

在下载文件时,软件支持对文件下载路径进行修改,你可以按照下图进行设置:

在下载文件时,软件支持按照一定的规则创建独立的文件夹用来存放文件,规则包括按照文件类型、采集日期、任务名称或者按照字段值给文件夹命名,如下图所示:

在下载文件时,软件支持按照一定的规则重命名下载的文件,规则包括按照原文件名、文件md5值、任务名称_编号、采集日期_编号、编号、自定义和字段值给下载文件命名,如下图所示:

当选择自定义规则时,可以对不同的固定规则进行组合,从而创建出所需的命名规则,如下图所示:

文件下载可以分为三种类型,第一种是直接点击下载链接下载文件,第二种是通过点击下载按钮下载文件,第三种是通过数据处理生成下载链接。

第一种类型:点击下载链接下载文件

1、图片

支持图片的格式包括jpg、png、gif、jpeg、bmp、eps、psd等主流图片格式。当我们需要下载图片时,请勾选图片选项,如下图所示:

下载图片有以下三种情况:

(1)下载列表页的图片

(2)下载详情页的图片

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这三种情况。

(1)下载列表页的图片

第一步:点击添加字段,然后点击列表中的图片

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

具体如下动图所示:

如果下载列表页图片时出现图片显示不完整,或者下载后的图片非常小,或者图片无法打开,那是因为采集时图片未完全加载显示出来,此时可以选择设置一个更大的请求等待时间,或者在防屏蔽中勾选逐行滚动选项,如下图所示:

(2)下载详情页的图片

如果当前网页可以通过点击选中全部想要采集的内容,请按照以下步骤处理:

第一步:点击添加字段,然后点击页面内容,确保选中内容包含了所有的图片

第二步:右击字段,设置取值属性为“提取外部HTML”

如果当前网页无法通过点击选中全部想要采集的内容,请按照以下步骤处理:

第一步:选择图片最全的详情页作为深入采集的链接,然后点击添加多个字段,分别对应需要采集的图片

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中包含所有图片的内容

第二步:右击字段,设置取值属性为“提取外部HTML”

补充:在下载详情页图片时,如果图片需要滚动页面才能显示出来,此时需要在详情页加一个滚动操作。

在智能模式中,请在详情页点击右上角预执行脚本按钮,然后在预执行脚本窗口中进行如下设置:

在流程图模式中,请直接拖动一个滚动组件放到点击打开详情页的点击组件之后,具体设置如下所示:

2、音频

支持音频图片的格式包括mp3、amr、wav、m4a等主流音频格式。当我们需要下载音频时,请勾选音频选项,如下图所示。 

下载音频有以下两种情况:

(1)下载列表页的音频

(2)下载详情页的音频

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的音频

如果可以通过点击获取音频下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的音频下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中音频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的音频

第一步:点击添加字段,然后点击详情页中的音频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中音频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

3、视频

支持音频图片的格式包括mp4、avi、mov、3gp、flv等主流视频格式。当我们需要下载视频时,请勾选视频选项,如下图所示。

下载视频有以下两种情况:

(1)下载列表页的视频

(2)下载详情页的视频

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的视频

如果可以通过点击获取视频下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的视频下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中视频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的视频

第一步:点击添加字段,然后点击详情页中的视频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中视频下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

4、文档

支持文档的格式包括doc(x)、ppt(x)、xls(x)、pdf、snb、txt等主流文档格式。当我们需要下载文档时,请勾选文档选项,如下图所示。

下载文档有以下两种情况:

(1)下载列表页的文档

(2)下载详情页的文档

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的文档

如果可以通过点击获取文档下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的文档下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文档下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的文档

第一步:点击添加字段,然后点击详情页中的文档下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文档下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

5、其他文件

支持其他文件的格式包括apk、exe、rar、zip、gzip、dmg、torrent、epub等主流文件格式。当我们需要下载这些文件时,请勾选其他文件选项,如下图所示。

下载其他文件有以下两种情况:

(1)下载列表页的文件

(2)下载详情页的文件

接下来我们以智能模式为例(流程图模式的操作与此相同)分别介绍一下这两种情况。

(1)下载列表页的文件

如果可以通过点击获取文件下载链接,请按照以下步骤进行操作:

第一步:点击添加字段,然后点击列表中的文件下载链接

第二步:右击设置该字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文件下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

(2)下载详情页的文档

第一步:点击添加字段,然后点击详情页中的文件下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

如果以上方法无法解决你的需求,请按照以下步骤处理:

第一步:点击添加字段,然后右击字段,选择“编辑字段Xpath”,通过手动改写Xpath来选中文件下载链接

第二步:右击字段,设置取值属性为“提取图片等媒体地址”

第二种类型:点击下载按钮下载文件

针对第二种类型,所有的文件类型设置方式相同,具体步骤如下:

第一步:点击添加字段,然后点击下载按钮

第二步:右击字段,设置取值属性为“下载按钮”

在开启下载的设置部分,勾选对应的文件选项即可,具体方法请参考上文第一种类型的下载设置。

第三种类型:通过数据处理生成下载链接

针对第三种类型,在进行下载链接的数据处理之后,需要再添加一个数据处理步骤,如下图所示:

在开启下载的设置部分,勾选对应的文件选项即可,具体方法请参考上文第一种类型的下载设置。

 

分享到: