5
新手入门 功能点介绍 实战案例

如何采集网易国内新闻

2018-09-27 10:40:02
浏览 1139 次
下载规则

摘要:使用后羿采集器,一键采集异步加载的网易国内新闻~~ 免费下载软件

本文介绍如何使用后羿采集器“智能模式”,轻松采集网易国内新闻

 

后羿采集器是一款非常好用的人工智能网页采集器,可以自动识别网页列表和表格里的数据,并能自动识别分页元素和瀑布流分页。同时满足所有团队配置,支持所有操作系统(包括Windows、Mac和Linux)。

 

网易国内新闻采用异步加载展示,并不好采集,为此后羿采集器特意兼容了此类情况,让你从此再无烦恼哦~~

 

下面,一起来看看吧,具体步骤如下:

 

步骤一  注册并登录

后羿采集器官网下载安装后羿采集器最新版本,注册并登录后羿采集器。

注意:神箭手用户可直接登录。

 

步骤二  打开“智能模式”

输入要采集的网易国内新闻地址,点击“智能采集”,这里要等一会,因为网页异步加载较慢,网页完成加载,软件初始化结束。

 

步骤三  配置采集规则

设置“页面类型”,手动选择“列表类型”中的“选择列表”。

然后,在网页上选择相邻两篇新闻,后羿采集器便会自动识别需要采集的模块和字段信息。

由于网易新闻采用异步加载的方式,所以需要在“分页设置”中选择“手动设置分页”,并选择“瀑布流+点选分页按钮”,点击网页中的“加载更多”按钮。

这里我们采集默认字段,只需调整字段名即可。

 

步骤四  设置并启动采集器

采集规则调整好后好后,点击“设置”。

在弹出的页面,勾选“跳过继续采集”,设置“3”秒请求等待时间,勾选“不加载网页图片”,点击“保存”。

注意:“不加载网页图片”后可以提高网页采集速度。

然后,点击“保存并启动”按钮,“设置定时启动”、配置“定时入库”参数,选择是否保存“采集的图片”,最后点击“启动”。

后羿采集器便开始自动采集数据了,等待一会儿,就可以看到采集的网易国内新闻了。

 

步骤五 导出数据

数据采集完成后,你就可以导出数据了,选择导出的文件类型,点击“确认导出”。

注意:数据可以excel、csv、html、txt或数据库等方式导出到本地,也可发布到wordpress、dede和typecho等CMS网站,你可自由选择。

 

网易国内新闻数据导出示例展示,如下图所示:

 

末了,再给你推荐“【智能模式】采集百度搜索结果”和“【智能模式】淘宝店铺商品批量采集教程”两篇采集教程供你学习和使用~~

分享到: