新手入门 功能点介绍 实战案例

【智能模式】如何采集单页类型的网页

2018-09-27 17:20:37
浏览 748 次

摘要:本教程介绍了什么是单页类型以及如何使用后羿采集器快速采集单页类型的数据。

1、什么样的网页属于单页类型的网页

如果我们需要采集单条新闻内容、某个回答帖的内容、某篇公众号文章、某篇博客或者某篇通知公告等,这些网页就属于单页类型的网页,也可以称之为详情页内容的网页,如下图所示:

 

 

 

2、如何采集单页类型的网页

如果我们需要爬取这些单页类型的网页,就需要运用到后羿采集器的智能模式中的单页采集功能。

在智能模式下,后羿采集器会默认按照列表类型进行识别,如果输入的是单页类型,此时软件会识别失败并给出提示,您可以根据软件提示进行操作,重新设置网页类型,然后再启动采集任务。

关于采集字段的设置可以看这里→_→ 如何对采集字段进行配置

温馨提示:

如果我们需要采集整篇文章的内容,需要将鼠标移动到整篇文章的右下角进行点击(如上图中所示),确保整篇文章都被框选。

如果只对某一个段落进行框选点击,只能采集到这个段落的内容(上图中可以看到鼠标滑过时只有段落被选中)。

简而言之,点选之后被框选的内容才能被采集到。

分享到: