新手入门 功能点介绍 实战案例

【智能模式】如何正确地输入网址

2018-09-08 21:30:28
浏览 660 次

摘要:本教程主要给大家介绍在智能模式中如何正确地输入网址。

如果您选择了后羿采集器的智能模式,当您新建一个采集任务时,是否正确地输入了网址,对最终的采集结果至关重要。

本文主要给大家介绍一下如何正确地输入网址,从而保证大家能够采集到想要的数据。

1、输入网址的位置:

1)在采集器首页:只能输入一个网址。

2)新建智能模式采集任务,打开网址编辑窗口:

智能模式支持输入多个网址或是从本地文件中导入网址(目前只支持TXT格式文件,其余文件格式正在开发中)。

在该窗口中输入/导入网址时,请保证格式符合如下要求:

i)  所有的网页属于同一个网站;

ii)  多个网址请用回车键分割,保证每一行只有一个网址;

iii)  所有的网页属于同一种类型,例如都是单页类型列表类型列表详情页类型

注意:不同网站的网页或者同一网站的不同类型的网页请建立不同的任务。

3)在智能采集任务打开的界面中:

这里可以对网址进行编辑,超过200个请直接修改本地文件。

注意:如果是从本地文件中导入的网址,这里的修改不会影响本地文件。

编辑之后的网址格式请符合上述第 2) 条中的要求。

2、输入网址的来源:

在智能模式下,后羿采集器可以进行自动翻页,但是不能进行输入文本和搜索等操作(如果需要进行这些操作,请使用流程图模式)。

所以输入的网址应该是已经完成了搜索操作,显示出最终需要被采集的内容的页面(或是多个需要被采集的连续页面中的第一个页面)。

例如:单网址采集,在豆瓣中搜索“复仇者联盟3”,打开对应的页面,复制网址。

例如:单网址采集,通过淘宝搜索手机后,得到的搜索结果列表页面,复制第一页的网址。

例如:多网址采集,在大众点评网分别搜索“火锅”和“烧烤”,分别复制网址。

分享到: