5
新手入门 功能点介绍

如何采集豆瓣影评数据

2019-12-12 15:48:11
浏览 11 次

摘要:本案例通过采集豆瓣电影中复联3的短评,来介绍后羿采集器自动识别和抽取分页列表数据的强大功能,让你快速成为采集高手! 免费下载软件

豆瓣是一个社区网站,提供图书、电影、音乐唱片的推荐、评论和价格比较,以及城市独特的文化生活。无论描述还是评论都由用户提供(User-generated content,UGC),是Web 2.0网站中具有特色的一个网站。

 

本案例通过采集豆瓣电影中复联3的短评,来介绍后羿采集器自动识别和提取分页列表数据的强大功能,让你快速成为采集高手!

 

在开始采集之前,请先从官网下载并安装好最新版的后羿采集器软件,windows、mac和linux都支持哦~

 

采集网址:https://movie.douban.com/subject/24773958/comments?status=P

采集数据:发布者、评价内容、发布时间、发布者头像、有用数

使用功能点

1、智能采集,自动识别列表数据,手动选择分页按钮

2、自定义删除不需要的字段,增加字段,修改字段名称

 

采集步骤

第一步,打开后羿采集器,输入采集的网址进行智能采集:

 

第二步,等待网页加载完成,会自动识别并提取列表中的数据:

 

第三步,手动设置分页按钮,修改数据字段

选择自动识别分页下拉框,选择”手动设置分页”->”选择分页元素”。在页面中点击选择下一页按钮:

 

在字段列表中,点击右边的下拉按钮,可以删除和修改字段等;点击列表右上角的添加字段,可以点选增加要采集的列表字段:

 

第四步,开始采集,导出采集的数据

修改好要采集的字段后,点击“保存”,再点击“开始采集”,软件会自动翻页并采集配置的数据。可以随时点击“停止采集”或者等采集完成自动结束,点击“导出数据”,可以一键导出所有采集的数据到本地文件或者数据库中:

 

分享到: