5
新手入门 功能点介绍

【流程图】如何免费采集优酷视频评论数据

2019-12-12 15:47:04
浏览 714 次

摘要:本文介绍如何使用后羿采集器的流程图模式,免费采集优酷视频评论数据。 免费下载软件

本文介绍如何使用后羿采集器的流程图模式,免费采集优酷视频评论数据。

采集工具简介:

后羿采集器(www.houyicaiji.com)是一款基于人工智能技术的网页采集器,只需要输入网址就能够自动识别网页数据,无需配置即可完成数据采集,是业内首家支持三种操作系统(包括Windows、Mac和Linux)的网络爬虫软件

该软件是一款真正免费的数据采集软件,对采集结果导出没有任何限制,没有编程基础的小白用户也可轻松实现数据采集要求。

采集对象简介:

优酷(tv.youku.com)是由古永锵在2006年6月21日创立,现为阿里巴巴文化娱乐集团大优酷事业群下的视频平台。目前视频平台覆盖5.8亿多屏终端、日播放量11.8亿,支持PC、电视、移动三大终端,兼具版权、合制、自制、自频道、直播、VR等多种内容形态。

采集字段:

用户、评论内容、点赞、踩、回复数、发布时间

下面我们来详细介绍一下如何使用流程图模式,采集优酷视频评论数据,我们以大江大河的评论为例,具体步骤如下:

步骤一:下载安装后羿采集器,并注册登录

1、打开后羿采集器官网,下载并安装最新版的后羿采集器

2、点击注册登录,注册新账号,登录后羿采集器

【温馨提示】您可以直接使用此款爬虫软件,不需要进行注册,但是匿名账户下的任务在切换到注册用户时会丢失,因此建议您注册后使用。

后羿采集器为神箭手旗下产品,神箭手用户可直接登录。

步骤二:新建采集任务

1、复制优酷的网页地址

点此了解关于如何正确地输入网址。

2、新建流程图模式采集任务

您可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。

点此了解如何导入和导出采集规则。

步骤三:配置采集规则

1、搜索“大江大河”剧集

选中首页的输入框,然后在跳转出的任务栏内输入文字“大江大河”。

在文本框内输入文字后点击确定,可以看到首页上的搜索框已经出现了需要搜索的文字。

接着再点击首页上的“搜全网”字样,在出现的任务栏中选中“点击该元素”按钮,然后跳转到搜索结果页。

在搜索结果页上,我们点击剧集,在跳转出的任务栏内再次点击“点击该元素”组件,跳转到剧集的详情页上。

2、设置提取数据字段

跳转到详情页之后,我们等待页面加载成功后,点击页面上的评论字段,然后在跳转出的任务栏内点击“提取全部元素”按钮。

提取出评论列表页上的字段之后,我们可以右击字段进行相关设置,包括修改字段名称、增减字段、处理数据等。

点此了解更多关于提取字段组件的内容。

我们需要采集用户、评论内容、点赞数、踩及发布时间等信息,字段设置效果如下:

3、设置下一页

我们采集出了单页的评论数据,现在需要采集下一页的数据,我们点击页面上的“下一页”按钮,在左上角出现的操作提示框内选择“循环点击下一页”。

点此了解更多关于翻页的内容。

4、流程图组件设置效果

一个完整的流程图组件的设置效果图如下所示,如果某些网页加载较慢,用户可以在相应组件前添加“定时等待”组件。

步骤四:设置并启动采集任务

1、启动采集任务

点击“开始采集”按钮,可在弹出的启动设置页面中进行一些高级设置,包括“开启定时、开启防屏蔽、开启自动导出、开启图片下载、开启加速引擎”功能,输入框内为默认设置,如果需要设置具体的功能,勾选相应功能跳转界面去设置,本次采集任务没有使用到这些功能,直接点击“启动”运行爬虫工具。

点此深入了解什么是定时采集。

点此深入了解什么是自动入库。

点此深入了解如何下载图片。

【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的。个人专业版及以上版本可以使用高级定时功能和自动入库功能。

2、运行任务提取数据

任务启动之后便开始自动采集数据,我们从界面上可以直观的看到程序运行过程和采集结果,采集结束之后会有提醒。

步骤五:导出并查看数据

数据采集完成后,我们可以查看和导出数据,后羿采集器支持多种导出方式(手动导出到本地、手动导出到数据库、自动发布到数据库、自动发布到网站)和导出文件的格式(EXCEL、CSV、HTML和TXT),同时还支持导出具体条数,也可以在数据中选择想导出的条数,然后点击“确认导出”。

点此深入了解如何查看和清空采集数据。

点此深入了解如何导出采集结果。

【温馨提示】:所有手动导出功能都是免费的。个人专业版及以上版本可以使用发布到网站功能。

 

分享到: