5
新手入门 功能点介绍

智能模式采集分页列表数据

2019-12-12 17:38:29
浏览 316 次

摘要:本文介绍 使用后羿采集器的智能模式 自动采集列表页数据,以采集搜狐国际新闻列表为例 免费下载软件

后羿采集器(http://www.houyicaiji.com)的智能模式采集,可以自动分析并提取出列表数据,并自动识别分页。对于只需要采集网站的列表数据来说,用户只需要输入列表页的第一页链接,就可以免配置全自动化进行数据采集,是最简单的网页采集方式

下面以搜狐国际新闻列表(http://www.sohu.com/c/8/1461)为例,采集新闻列表中的新闻标题、链接、来源、发布时间。具体说明采集和导出数据的方法。

请先从官网下载最新版后羿采集器,并安装到电脑上(支持windows、Mac和Linux)。

步骤一,创建采集任务

打开后羿采集器,选择“智能模式”,点击“创建任务”。

步骤二,输入首页链接

输入新闻列表第一页的链接:http://www.sohu.com/c/8/1461,等待片刻,软件会自动提取数据。

 

软件会自动提取列表每项里所有的数据,可以对字段进行删减和名称修改等

步骤3,设置自动识别分页

点击左边的“不启用分页”,选择分页类型,因为搜狐新闻是瀑布流(滚动加载下一页),所以我们选择“瀑布流分页”。

P.S. 支持自动识别分页(瀑布流或者下一页按钮),同时支持手动选择分页按钮和通过xpath选择分页按钮。

步骤4,开始采集,导出数据

点击“开始采集”,软件会自动开始批量采集,采集的数据会实时显示。采集结束后,可以导出数据到本地文件(包括csv、excel、html等)和数据库。

 

下面是导出到excel2007的文件截图:

分享到: