当前位置:文档之家› 【八爪鱼采集攻略】提取数据如何设置自定义抓取方式

【八爪鱼采集攻略】提取数据如何设置自定义抓取方式

【八爪鱼采集攻略】提取数据如何设置自定义抓取方式
自定义抓取方式包含“从页面中提取数据”’、“从浏览器提取数据”、“生成数据”三部分。

八爪鱼提取数据-自定义抓取方式图1
1、从页面中提取数据
(1)抓取元素的指定属性值:首先要先选中InnerHtml和OuterHtml查看要提取的属性值是否存在,再选中抓取元素的指定属性值。

例如源码:
<a id="hot-comments-tab" class="on" href="comments">热门</a> 中,id、class、href就是A标签的属性,在下拉选项中选取要提取的属性名称,即可提取到该属性的属性值,演示如下:
八爪鱼提取数据-自定义抓取方式图2
八爪鱼提取数据-自定义抓取方式图3
(2)抓取文本:提取网页中展示的内容,可见的文字信息。

(3)抓取地址:一般用于抓取图片地址或Iframe地址,首先字段的Xpath定位到的是IMG标签或者Iframe标签,提取其中的src属性值。

(4)抓取选中项的文本:配合循环下拉框试用,提取当前选中项的文本
(5)抓取这个元素的OuterHtml,InnerHtml:提取网页源码
(6)抓取值:一般用于抓取输入框的文字,首先字段的Xpath定位到的是input 标签,提取其中的value值,演示如下:
八爪鱼提取数据-自定义抓取方式图4
八爪鱼提取数据-自定义抓取方式图5
(7)抓取超链接:首先字段的Xpath定位到的是A标签,从A标签中提取href
的属性值。

演示如下:
八爪鱼提取数据-自定义抓取方式

6
八爪鱼提取数据-自定义抓取方式 图7
2、从浏览器提取数据
八爪鱼提取数据-自定义抓取方式图8
(1)页面网址:同添加其他特殊字段中的抓取当前页面的网址效果
(2)页面标题:同添加其他特殊字段中的抓取当前页面的标题效果
(3)从页面源码里抓取:可直接用正则表达式提取网页源码里匹配到的数据3、生成数据
八爪鱼提取数据-自定义抓取方式图9
(1)生成固定的值:同添加其他特殊字段中的生成固定值效果,常用于发布到网站时设置发布的用户名,发布到的版块等固定字段
(2)使用当前时间:同添加其他特殊字段中的使用当前时间效果,用于记录采集时间,此设置有可能会导致八爪鱼采集器去重功能检测失效
相关采集教程:
美团商家信息采集
1688热门商品采集
搜狗微信文章采集
八爪鱼——70万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。

完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。

配置好采集任务后可关机,任务可在云端执行。

庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。

免费版具备所有功能,能够满足用户的基本采集需求。

同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

相关主题