5
新手入门 功能点介绍

【流程图模式】如何对采集字段进行配置

2019-11-28 15:51:04
浏览 613 次

摘要:本教程主要介绍了流程图模式下提取数据组件的功能点及应用场景。 免费下载软件

在流程图模式下,提取数据组件会将用户需要的数据提取出来,用户可以在这个组件内对采集字段进行设置。提取数据用于提取采集网页中的数据,该组件既可以单独使用也可以和循环组件或者判断组件搭配使用。单独使用时适合提取单页上的数据,搭配使用时,适合提取所有页面上的数据。

具体设置介绍如下:

1、修改字段名称

2、合并字段

合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,并选择合适的分隔符,这种方式适合两个字段的合并。

另外一种方法是按crtl或shift选中多个字段,然后右击“合并字段”,这种方法适合多个字段的合并。

3、在页面中选择

如果要修改字段中提取的内容,或者添加了一个新字段要设置提取内容,需要点击“在页面中选择”或者字段上的齿轮图标,然后在网页中提取需要的数据。

4、编辑字段Xpath

Xpath一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据在网页中的位置。有编程基础的用户可以使用此功能设置新的Xpath。

5、设置取值属性

不同的数据需要设置不同的取值属性,在设置新字段的时候,字段的取值默认的是文本字段,一般情况下,在用户选取新数据时,软件会自动帮你判断好字段属性,不需要另外设置,但如果出现判断失误的情况下,用户可以自己设置字段的取值属性。

提取文本:适合普通的文本数据

提取内部HTML:适合提取不包括内容自身的HTML

提取外部HTML:适合提取包括内容自身的HTML

提取链接地址:适合提取链接的数据

提取图片等媒体地址:适合提取图片等媒体

提取输入框内容:适合提取输入框的文字,多用于关键词采集时使用

下载按钮:用于提取下载地址

6、解码选择

一般软件会自动识别出需要解码的字段,在有些字段解码不正确或者没有识别出解码的情况下,可以手动选择解码功能。解码功能为企业版功能,用户需要升级才可使用。

7、数据处理

我们对所提取的字段内容要进行一些加工处理,比如只需要字段里的数字、邮箱、字段中的文本替换成新文本、清除首尾的空白字符、或者要新建正则表达式,就可以点击“数据处理”进行字段处理。

8、设置特殊字段

在数据采集过程中,有些用户需要采集一些特殊字段,如采集时的时间、当前网页标题、当前网页URL等,这些字段无法直接在网页中提取,那么可以使用“改为特殊字段”功能进行字段设置,用户可以新建字段,把字段改为特殊字段,也可以把原字段改为特殊字段。

9、删除字段

10、清空所有

如果用户不需要软件自动识别出来的字段,可以使用“清空所有”功能清空字段,重新设置需要的字段。

11、添加字段

如果要增加新字段,那就点击“添加字段”按钮新增字段,然后到页面中点击需要采集的数据。

分享到: