5
新手入门 功能点介绍 实战案例

如何采集巴比特区块链论坛数据

2018-09-27 10:47:40
浏览 147 次
下载规则

摘要:输入巴比特区块链论坛url,简单调整标题字段XPath和下一页列表页获取方式后,便可轻松采集论坛数据了。 免费下载软件

本文介绍如何使用后羿采集器“智能模式”,轻松采集巴比特区块链论坛发帖数据

 

后羿采集器是一款非常好用的人工智能网页采集器,可以自动识别网页列表和表格里的数据,并能自动识别分页元素和瀑布流分页。同时满足所有团队配置,支持所有操作系统(包括Windows、Mac和Linux)。

 

要采集巴比特区块链论坛,就不单单只是输入链接这么简单了,还需要调整采集字段的XPath来获取准确的“帖子标题”信息,此外,还需要手动点击设置下一页的获取方式。

 

下面,一起来看看吧,具体步骤如下:

 

步骤一 注册并登录

后羿采集器官网下载并安装好后羿采集器最新版,注册并登录后羿采集器。

注意神箭手账号可直接登录。

 

步骤二 打开“智能模式”

输入要采集的巴比特区块链论坛地址,点击“智能采集”,稍等片刻,网页便会加载进来,采集字段也会完成初始化。

 

 

步骤三 配置采集规则

这里你可以看到,软件并未准确识别网页上的字段数据,所以需要先手动设置“列表模式”。

勾选“选择列表”,在网页上选择两篇帖子,后羿采集器会自动识别需要采集的模块信息。

设置“分页”,点击“手动设置分页”,勾选“选择分页元素”,并在网页上选择下一页箭头。

 

由于这里只采集“标题”、“最近回帖人”和“回帖时间”,所以需要对字段做处理。

将“title”字段名称改为“标题”,由于“标题”字段识别不准确,这里你需要选择“手动设置XPath”为“//*[contains(@class,’s xst’)]”,此处直接复制XPath即可。

而“最近回帖人”和“回帖时间”两个字段,后羿采集器已经自动识别了,只需修改名称,并删除其他字段,字段处理完成后,如下图所示:

 

 

步骤四 设置并启动采集器

采集规则调好后,点击“开始采集”。

在弹出的页面,勾选“跳过继续采集”,设置“2”秒请求等待时间,点击“启动”按钮。

后羿采集器便开始自动采集数据了,等待一会儿,就可以看到采集到的数据信息了。

 

步骤五 导出数据

数据采集完成后,你就可以导出数据,选择导出的文件类型,点击“确认导出”。

 

“巴比特区块链论坛”帖子数据导出示例展示,如下图所示:

 

这里再给你推荐“【智能模式】采集东方财富网股吧发帖”和“【智能模式】股票表格数据自动识别和采集”两篇采集教程供你学习和使用~~

分享到: