5
新手入门 功能点介绍 实战案例

如何采集CSDN用户博客阅读量数据

2018-09-27 13:25:11
浏览 200 次
下载规则

摘要:输入CSDN用户博客目录url,只需简单点选字段值,便可快速、高效的采集CSDN用户博客阅读量数据啦~~ 免费下载软件

本文介绍如何使用后羿采集器“智能模式”,轻松采集CSDN用户博客阅读量数据。

 

后羿采集器是一款非常好用的人工智能网页采集器,可以自动识别网页列表和表格里的数据,并能自动识别分页元素和瀑布流分页。同时满足所有团队配置,支持所有操作系统(包括Windows、Mac和Linux)。

 

要采集CSDN用户博客阅读量,首先要输入用户博客目录页url,然后手动点选需采集字段,如果对采集数据不满意,还可对数据做简单处理。

 

下面,一起来看看吧,具体步骤如下

 

步骤一 注册并登录

后羿采集器官网下载安装后羿采集器最新版,注册并登录后羿采集器。

注意神箭手账号可直接登录。

 

步骤二 打开“智能模式”

输入要采集的CSDN用户博客目录页地址,点击“智能采集”,稍等片刻,网页完成加载,软件初始化结束。

 

步骤三 配置采集规则

先手动选择“列表模式”中的“选择列表”。

然后,在网页上就近选择两篇文章,后羿采集器会自动识别需要采集的模块和字段信息。

而且,后羿采集器已经帮你自动识别了下一个分页,是不是很贴心!

由于只采集“文章标题”、“发布时间”、“阅读数”和“评论数”四个字段,所以需要增加和删除部分字段。

字段的提取要这样操作,点击“添加字段”,点击字段名称右侧下拉按钮,选择“在页面中选择”,点选采集的数据即可。

如果你对采集的“阅读数”和“评论数”字段不满意,还可以对数据值再优化一下。

点击字段名称右侧下拉按钮,选择“数据处理”。

选择“提取数字”,点击“确定”,这两个字段值就优化完成了。

字段值优化前后对比,如下图所示:

 

步骤四 设置并启动采集器

采集规则设置好后,点击“开始采集”。

在弹出的页面,勾选“跳过继续采集”,设置“3”秒请求等待时间,勾选“不加载网页图片”,最后点击“启动”。

后羿采集器便开始自动采集数据了,等待一会儿,就可以看到采集的阅读量等数据信息了。

 

步骤五 导出数据

数据采集完成后,你就可以导出数据了,选择导出的文件类型,点击“确认导出”。

注意:数据可以excel、csv、html、txt或数据库等方式导出到本地,也可发布到wordpress、dede和typecho等CMS网站,你可自由选择。

 

CSDN用户博客阅读量数据导出示例展示,如下图所示:

 

这里再给你推荐“【智能模式】如何采集百姓网招聘信息”和“【智能采集】携程网团购酒店和图片”两篇采集教程供你学习和使用~~

分享到: