5
新手入门 功能点介绍 实战案例

【智能辅助点击】如何免费采集天猫商品评论数据

2019-05-24 14:25:02
浏览 1722 次

摘要:本文主要介绍如何使用后羿采集器的智能模式加辅助点击,免费采集天猫商品评论数据。 免费下载软件

本文主要介绍如何使用后羿采集器的智能模式加辅助点击,免费采集天猫商品评论数据。

采集对象简介:

天猫(www.tmall.com)原名淘宝商城,是一个综合性购物网站,其整合数千家品牌商、生产商,为商家和消费者之间提供一站式解决方案。

教程为大家介绍如何采集天猫商品评论数据,我们采用智能模式加辅助点击的方式来采集数据,在设置预加载的时候,由于有时候网站加载比较慢,我们可以在点击元素组件前面加一个定时等待组件,在采集初次评论字段时,我们会发现有追加评价的字段和没有追加评价的字段的xpath是不同的,此时我们可以添加两个不同的字段,然后将其合并,教程中还给大家介绍了如何使用数据处理的方式处理字段,大家可以作为参考。

采集工具简介:

后羿采集器(www.houyicaiji.com)是一款基于人工智能技术的网页采集器,只需要输入网址就能够自动识别网页数据,无需配置即可完成数据采集,是业内首家支持三种操作系统(包括Windows、Mac和Linux)的网络爬虫软件

该软件是一款真正免费的数据采集软件,对采集结果导出没有任何限制,没有编程基础的小白用户也可轻松实现数据采集要求。

采集字段:

用户名、初次评价、追加评价、网络类型、机身颜色、套餐类型、存储容量

采集结果预览:

下面我们来详细介绍一下如何免费采集天猫商品评论的数据,我们以华为手机为例,具体步骤如下:

步骤一:下载安装后羿采集器,并注册登录

1、点此打开后羿采集器官网,下载并安装爬虫软件工具—后羿采集器软件

2、点击注册登录,注册新账号,登录后羿采集器

下载和注册后羿采集器

【温馨提示】您可以直接使用此款爬虫软件,不需要进行注册,但是匿名账户下的任务在切换到注册用户时会丢失,因此建议您注册后使用。

后羿采集器为神箭手云旗下产品,如果您是神箭手用户,可直接登录。

步骤二:新建采集任务

1、复制天猫华为P30商品的网址。

点此了解关于如何正确地输入网址。

2、新建智能模式采集任务

您可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。

点此了解如何导入和导出采集规则。

步骤三:配置采集规则

1、设置预登录

天猫上的店铺一定要登录后才能查看店铺的商品信息,因此我们需要先进行登录,然后才能进行采集。

这里我们要使用到“预登录”功能,点击“预登录”按钮即可打开登录窗口,如下图所示。后羿采集器不会存储和上传您的账户信息,您可以放心使用此功能。

点此深入了解预登录功能的使用用法。

2、使用辅助点击功能

由于网址输入进去之后,要滚动一定的页面才是评论的内容,我们可以选择直接点击评论,然后进行数据采集,由于一些用户电脑网速较慢,所以可能出现点击了之后预加载无效的情况,这种时候可以在点击元素前面加一个定时等待的组件,具体操作步骤如下所示:

3、设置数据字段

辅助点击设置完毕后,保存退出后软件会自动对搜索结果页进行识别,我们可以在这个基础上右击字段进行相关设置,包括修改字段名称、增减字段、处理数据等。

点此了解如何对采集字段进行配置。

在采集初次评价时,我们会发现有的评论没有采集下来,是空白的字段,这个是因为有追加评价的评论和没有追加评论的评价xpath是不同的,我们可以分别设置两个字段选中不同的评价,然后再合并字段,这样子我们就能兼容两个xpath了,具体操作如下图所示:

我们在采集数据的时候,发现有的时候会把不需要的字也采集下来,例如我们只想采集“4G全网通”,但是会采集成“网络类型:4G全网通”,此时我们可以用数据处理将这一部分的字给处理掉,具体操作如图所示:

全部字段设置完毕后,我们可以进行采集,字段设置效果如下:

3、设置分页

软件已经自动识别出了分页,但是有的天猫店铺评论的分页比较特殊,需要滚动评论之后才能识别到下一页,因此如果正常识别的分页只能采集出第一页,我们需要在这个基础上再设置瀑布流分页,设置效果如下图所示:

步骤四:设置并启动采集任务

1、启动采集任务

点击“开始采集”按钮,可在弹出的启动设置页面中进行一些高级设置,包括“定时启动、防屏蔽、自动导出、文件下载、加速引擎、数据去重、开发者设置”功能,有的用户电脑加载比较慢,可以在防屏蔽中设置手动防屏蔽,设置3-5秒的请求等待时长,有的用户加载正常可以直接选择智能防屏蔽,不用进行特殊设置,然后可以直接点击启动按钮开始采集。

点此深入了解什么是定时启动。

点此深入了解什么是自动导出。

点此深入了解如何下载图片。

【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的;专业版及以上用户可使用定时启动功能;旗舰版用户可以使用自动导出功能及加速引擎功能。

2、运行任务提取数据

任务启动之后便开始自动采集数据,我们从界面上可以直观的看到程序运行过程和采集结果,采集结束之后会有提醒。

步骤五:导出并查看数据

数据采集完成后,我们可以查看和导出数据,后羿采集器支持多种导出方式(手动导出到本地、手动导出到数据库、自动发布到数据库、自动发布到网站)和导出文件的格式(EXCEL、CSV、HTML和TXT),同时还支持导出具体条数,可以在数据中选择想导出的条数,然后点击“确认导出”。

点此深入了解如何查看和清空采集数据。

点此深入了解如何导出采集结果。

【温馨提示】:所有手动导出功能都是免费的。个人专业版及以上版本可以使用发布到网站功能。

 

再为您推荐几个教程:

如何免费采集苏宁易购商品大图

如何免费采集京东商品评论信息

如何免费采集淘宝同一关键词下商品评论

分享到: