5
新手入门 功能点介绍 实战案例

如何采集环球网滚动新闻

2018-09-27 10:40:39
浏览 808 次
下载规则

摘要:本文以采集环球网娱乐滚动新闻为例,让大家见识真正的网页采集技术! 免费下载软件

环球网是中国领先的国际资讯门户,拥有独立采编权的中央重点新闻网站。环球网秉承环球时报的国际视野,力求及时、客观、权威、独立地报道新闻,致力于应用前沿的互联网技术,为全球化时代的中国互联网用户提供与国际生活相关的资讯服务、互动社区。

 

对于需要及时获取最新新闻的亲来说,通过后羿采集器智能采集新闻文章,是最简单的新闻采集方式,不需要编程和配置,只需要输入链接就能自动识别和提取,还能自动识别分页。

本文便以采集环球网娱乐滚动新闻为例,让大家见识真正的网页采集技术!

请先从官网下载并安装好后羿采集器最新版哦~

 

采集网址:http://ent.huanqiu.com/article/

采集数据:新闻标题、新闻链接、时间、新闻内容

使用功能点

1、智能采集,自动提取列表和分页

2、自定义修改数据字段

3、深入新闻链接,采集内容页

 

采集步骤

步骤1,打开后羿采集器,输入采集的网址智能采集:

 

步骤2,等待页面加载完成,会自动识别出新闻列表内的数据,以及分页按钮:

 

步骤3,在下方的数据预览中,修改数据字段名称,去掉不需要采集的字段等:

 

步骤4,选择新闻链接列头,点击“深入链接采集”。在打开的页面中,手动点选要采集的字段:新闻内容

 

 

P.S. 因为我们要采集的新闻内容是html元素,而软件默认采集的是元素文本,所以需要修改字段中的取值属性,如下图所示:

 

步骤5,保存后,开始采集。采集结束导出数据。

可以一键导出采集的数据到本地文件(支持excel,csv和html等)或者数据库

 

 

下面是导出的采集数据文件截图:

分享到: