5
新手入门 功能点介绍 实战案例

智能模式采集详情页数据

2018-09-28 15:59:46
浏览 211 次

摘要:本教程详细说明通过 后羿采集器的智能模式 如何采集商品详情页的数据 免费下载软件

后羿采集器的智能模式可以自动提取列表数据并自动识别分页,用户只需要输入列表第一页的链接,全程自动化且采集速度极快。在这个过程中,可能还需要采集详情页的数据,方法也很简单,就是选择列表数据中的详情页链接字段,打开“深入此链接采集”并点选要从详情页提取的数据即可。

下面以采集京东商品为例具体说明,比如我们要采集商品介绍,这个数据在商品列表中没有,必须通过商品详情页提取。

开始采集前,请先从官网下载最新版后羿采集器,并安装到电脑上(支持windows、mac和linux)。

第一步,创建采集任务,输入商品列表链接和设置自动分页

这一步可以参考上一课教程:

新手入门1-智能模式采集分页列表数据

商品列表链接参考:https://search.jd.com/Search?keyword=%E7%A9%BA%E8%B0%83&enc=utf-8&wq=%E7%A9%BA%E8%B0%83&pvid=66b8caf74df144d6840344f1d1b269cf

第二步,深入商品详情页采集

选择提取字段中的商品链接那一列,点击“深入此链接采集”,在详情页选择要提取的数据。软件便会同时采集所有商品的详情页数据了。

手动提取数据的方法是:先点击“添加字段”,然后在页面中点选要提取的字段数据

第三步,开始采集,导出数据

点击“开始采集”,可以在弹出的对话框中设置浏览器类型、下载图片等。开始采集后,可以实时查看采到的数据。采集完成后,可以导出数据到本地文件(包括excel、html、csv等)和数据库等。

P.S. 采集时会合并列表页和详情页的数据

 

下面是导出到excel2007的文件截图:

分享到: