5
新手入门 功能点介绍

【流程图模式】如何对采集字段进行配置

2019-12-24 20:04:28
浏览 22461 次

摘要:本教程主要介绍了流程图模式下提取数据组件的功能点及应用场景。 免费下载软件

在流程图模式下,提取数据组件会将用户需要的数据提取出来,用户可以在这个组件内对采集字段进行设置。提取数据用于提取采集网页中的数据,该组件既可以单独使用也可以和循环组件或者判断组件搭配使用。单独使用时适合提取单页上的数据,搭配使用时,适合提取所有页面上的数据。

具体设置介绍如下:

1、修改字段名称

2、合并字段

合并字段有两种办法,一种是点击一条需要合并的字段,右击选择“合并字段”,然后在页面中选择需要合并的字段,这种方式适合两个字段的合并。在合并字段中,用户可以设置两个字段内容之间的分隔符,如果不需要分隔符,在分隔符部分直接设置为空白就好。

另外一种方法是按crtl或shift选中多个字段,然后右击“合并字段”,这种方法适合多个字段的合并。

3、在页面中选择

如果要修改字段中提取的内容,或者在添加新字段时进行提取对象的设置,可以点击“在页面中选择”或者字段上的瞄准器图标,然后在网页中点击需要的数据。

4、编辑字段Xpath

Xpath一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据在网页中的位置。有编程基础的用户可以使用此功能进行采集对象的定位。

5、设置取值属性

不同的数据需要设置不同的取值属性,在设置新字段的时候,字段的取值默认的是文本字段,一般情况下,在用户选取新数据时,软件会自动帮你判断好字段属性,不需要另外设置,但如果出现判断失误的情况下,我们可以自己设置字段的取值属性。

提取文本:适合普通的文本数据

提取内部HTML:适合提取不包括内容自身的HTML

提取外部HTML:适合提取包括内容自身的HTML

提取链接地址:适合提取链接的数据

提取图片等媒体地址:适合提取图片等媒体资源

提取输入框内容:适合提取输入框的文字,多用于关键词采集时使用

下载按钮:用于提取下载地址

6、识别格式选择

在进行图像识别时,通常软件会自动检测到识别格式,如果有些内容未识别到或者识别结果不正确,我们可以手动选择识别格式。需要注意的是,图像识别功能为企业版功能。

7、数据处理

如果需要对所提取的字段内容进行处理,比如只需要字段里的数字、邮箱、文本替换、清除首尾的空白字符等,可以点击“数据处理”进行字段处理。

8、设置特殊字段

在数据采集过程中,如果需要采集一些特殊字段,如采集时的时间、当前网页标题、当前网页URL等,这些字段无法直接在网页中提取,那么可以使用“改为特殊字段”功能进行字段设置,通常我们会新建字段,然后把字段改为特殊字段,我们也可以直接把其他字段改为特殊字段。

9、删除字段

10、清空所有

如果不需要软件自动识别出来的字段,可以使用“清空所有”功能清空字段,重新设置需要的字段。

11、添加字段

如果要增加新字段,我们可以点击“添加字段”按钮新增字段,然后到页面中点击需要采集的数据。

也可以直接在页面中点击要采集的内容,然后点击提示中的提取数据选项。(下图为在详情页中提取数据示例)

 

分享到:
网页下载成word php爬虫 网页内容关键字提取 批量下载视频 批量生成网址 批量下载图片 python爬虫 数据自动整理成excel 正则匹配邮箱 python数据采集
关闭