5
新手入门 功能点介绍 实战案例

【新手入门】常见问题清单

2019-05-28 16:49:01
浏览 32788 次

摘要:本篇教程主要给大家介绍了后羿采集器的常见问题,大家可以在遇到问题时先参考本文进行排查。 免费下载软件

1、如果您是新手,请务必先看一下官网视频讲解教程。

教程地址:http://www.houyicaiji.com/?type=videolist

视频教程是由我们官方培训讲师给大家讲解后羿采集器的使用方法,每一篇教程其实都很简短,如果大家在开始采集之前先看一下这些视频讲解教程,大部分问题都能得到解答。

 

2、XX 网站能不能采集?XX 内容能不能采集?

请先参考第一条。

官网视频讲解教程中我们已经介绍过,后羿采集器是一款通用网页采集软件,只要是有网址,可以通过网页浏览,您能看得见的内容,大多都是可以采集的(视频比较特殊,得分析具体情况)。

 

3、为什么采集数据提前停止了?

如果您遇到的采集提前停止的问题,请按照以下步骤自检一下:

第一步:请确认您在浏览器中能看见多少内容

有的时候搜索显示数量和你最终能看得见的数量不是一致的,请确认您能看见多少条数据,然后再确定采集是提前停止还是正常停止。

第二步:运行日志是否提示“网页数据未显示,等待加载时间不足或被反爬

在采集过程中,如果遇到这个问题,有以下两种可能性:

第一种可能性是采集速度过快而网页加载时间过慢,从而导致无法采集到网页中的数据。

遇到这种情况时请增加请求等待时间,等待时间长一点之后,就有足够的时间留给网页加载内容。

请求等待时间的设置在 启动设置—>防屏蔽设置 中,如下图所示:

第二种可能性是你遇到了反爬,所谓反爬就是网站针对疑似采集的行为(不同网站对采集行为的定义不一致,例如有些网站觉得你翻页过快就不正常,有些网址觉得你翻页过多就不正常,有些网站觉得你直接输入了详情页的网址就不正常,等等)。

是否遇到了反爬我们可以通过在运行过程中,点击运行界面中的“查看网页”来观察一下当前的网页内容是否正常,是否无法正常显示,是否出现了验证码或者其他非正常内容的提示性文字。

如果出现了上述情况,那么你就是被反爬了。

解决反爬一般有降低采集速度、切换代理IP、手动打码或自动打码等方式,至于哪种方式可以起作用,这个需要测试才知道,不同的网站反爬手段不同,没有一个统一的解决方案。

如果是遇到了反爬,你可以在问答社区反馈给我们,我们会为您提供支持。

 

4、为什么采集字段不全?

字段不全一般有以下两种情况:

第一种,由于列表元素的结构不同,有些元素中有的字段其他元素中没有,这是正常的现象,请大家先在网页中确认对应元素中是否存在你想要的字段。

第二种,页面结构发生了变化,这种通常会发生在同一个搜索结果中包含多种页面结构的场景,例如百度搜索结果(包含很多种网站),淘宝搜索结果(包含淘宝和天猫)等。

这种情况需要针对具体问题进行分析,您可以导出您的采集任务,发到我们官方的问答社区,我们的工程师会帮您进行测试分析。

 

5、为什么采集数据重复?

首先请确认你已经看过视频教程,你的采集任务没有页面类型的设置问题,即错把单页类型设置为列表类型,或是你错误地理解了循环采集的使用方法。

然后请确定你是多次反复采集数据出现重复还是某一次单独采集出现了重复数据。

在未修改采集任务时,每一次运行采集任务都是从头开始采集,所以每一次采集的数据都是重复的,这是正常的。

如果是在单次采集时出现了重复数据,请确认是否满足以下情况:

第一种:重复数据均为最后一页的数据,这种有可能是翻到最后一页未能停止翻页,请尝试修改采集范围,然后看是否还会出现重复数据的情况。

第二种:重复数据为中间页的数据,这种情况无法直接得出结论。

以上两种情况下,都请上传你的采集任务到问答社区,我们的工程师会帮您进行测试分析。

 

6、采集停止了,再运行是不是从头开始?

是的,采集停止之后,下次再直接启动会默认按照上一次的设置从头开始采集。

如果想进行断点续采,请看这个教程:http://www.houyicaiji.com/?type=post&pid=6293

 

7、软件奔溃了,重启后左侧数据都是0,数据丢了吗?

请放心,已经采集到的数据除非你手动删除,否则都不会丢失。

在软件非正常关闭时,重启后左侧任务采集的数据的数量需要手动刷新,你只需点击一下那个数字,就会恢复正常。

 

8、能不能帮我改一下正则表达式或者Xpath

非常抱歉,公司规定只能给订制客户提供修改正则表达式或Xpath的服务。

目前后羿采集器本身已经非常智能,而且我们还在继续优化,和竞争对手相比,我们的免费力度非常大,这让我们的盈利水平偏低。

收费定制采集规则目前是我们养活团队的一个收入来源,目前找我们订制规则的客户一般都是遇到了非常复杂的网页,然后需要修改正则表达式进行数据处理或者需要分析网页结构,手动修改Xpath。

如果我们提供免费的正则表达式和Xpath修改服务,这将给我们的工程师团队造成巨大的压力,而且对那些订制客户也很不公平。

所以希望大家能够理解和支持。

 

9、管理员能不能帮我看一下采集任务哪里有问题

后羿采集器为大家提供了QQ群和问答社区两种解决采集问题的渠道。

在QQ群中一般适合提比较简单的具体问题,管理员看见后能够通过简单几句话帮你解决。

如果遇到复杂的采集问题,尤其是需要查看采集任务才能知道的问题,建议大家直接发到问答社区。

QQ群中用户较多,聊天内容过多时,你的问题容易被忽视,而且管理员面对那么多用户,反馈可能会比较慢。

问答社区的问题会直接推送到工程师那里,所有问题都会得到解答,请大家尽量使用问答社区来反馈问题。

 

10、编辑任务时出现验证码该怎么办?

如果大家在编辑任务时出现了验证码,软件会进行自动检测并给出提示,请大家根据软件的提示进行操作。

需要注意的是,自动检测会存在一定的误识别概率,如果你判断页面中不需要进行验证码操作,点击取消即可。

此外,如果软件并未识别,请点击右上角“手动打码”(蓝色)按钮进行打码操作。

 

11、编辑采集任务时页面无法正常显示该怎么办?

首先请确认你在Chrome浏览器中,直接粘贴该网址是否可以访问。

如果Chrome浏览器无法打开,那么软件目前就是支持不了的,你可以反馈到问答社区,我们的工程师会尽快想办法兼容这个网址。

如果浏览器中可以访问,但是软件中无法访问,请点击右上角“手动打码”(蓝色)按钮,然后在弹出的窗口中点击访问你输入网址的网站的首页,例如点击左上角的网站LOGO或首页按钮之类的。

在正常打开首页之后,点击预登录窗口右下角的验证完成按钮,这样软件中应该就可以正常访问了。

很多网址不允许在未访问过首页/列表页的情况下直接访问详情页,所以尽量不要直接从详情页开始采集,可以选择从列表页开始采集。

 

12、运行过程中需要输入验证码该怎么办?

在运行过程中弹出验证码提示是一种常规的反爬措施,针对这种情况,后羿采集器支持图片验证码自动打码、图片验证码和滑动验证码手动打码。

如果需要自动打码,请参考这个教程:http://www.houyicaiji.com/?type=post&pid=4900

如果是手动打码,请按照软件提示操作即可。

需要注意的是,软件在运行过程中自动检测验证码并弹出提示时,采集任务会暂停下来,手动打码之后软件就会继续运行当前任务。此外,自动识别验证码存在一定的误识别概率,如果你判断页面中不需要打码,点击跳过即可,连续跳过两次之后软件将不再检测验证码。

 

13、发布到数据库报错怎么办?

(1)连接问题总结

1)宝塔控制面板

使用此管理工具时需要注意mysql数据库访问权限设置,和远程访问端口的开放。

2) localhost、192.168.xxx.xxx

使用此类主机地址需要注意是本机需要开启MySQL服务

3)不确定报错详请

可使用navicat先确定具体报错详情

(2)字段映射问题总结

1)字段类型

仅支持数据表中字符串和整型字段的映射(如果需要映射日期字段,需要将数据表中对应字段改成字符串类型)

2)字段长度

需要注意字段长度是否可以满足本地采集的数据长度

(3)导出中的错误日志总结:

mysql插入数据时出现Incorrect string value: ‘\xF0\x9F…’ for column ‘name’ at row 1的异常,原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或者某些特殊字符是4个字节,而 mysql 的utf8编码最多3个字节,所以数据插不进去。解决方法如下:

在mysql的安装目录下找到my.ini,作如下修改:

[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4
修改后重启Mysql    sudo service mysql restart

通过管理工具将已经建好的表以及相应的字段也转换成utf8mb4

 

分享到: