八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
关键词采集方法
本文将介绍如何利用【词库】批量挖掘并采集长尾词的方法,对SEOSEM站长
来说非常实用。本来还将介绍一款免费好用的数据采集工具【八爪鱼数据采集】,
让站长采集关键词的工作事半功倍。
长尾词对于站长来说是提高网站流量的核心之技能之一,是不容忽视的一项技巧,
在搜索引擎营销中对关键词策略的制定是非常重要的,这些长尾关键词能为网站
贡献很大的一部分流量,并且带来的顾客转化率也很不错。
下面就以【词库】为例,教各位站长如何是用【八爪鱼数据采集器】批量采集关
键词。
采集网站:
http://www.ciku5.com/
本文就以一组(100个B2B行业有指数的关键词)为例,来采集关于这一组关
键词的所有相关长尾关键词。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
采集的内容包括:搜索后的长尾关键词,360指数,该长尾关键词搜索量以及搜
索量的第一位网站(页面)这四个有效字段。
使用功能点:
循环文本输入
http://www.bazhuayu.com/tutorialdetail-1/wbxh_7.html
Xpath
xpath入门教程1
xpath入门2
相对XPATH教程-7.0版
数字翻页
http://www.bazhuayu.com/tutorialdetail-1/szfy_7.html
步骤1:创建词库网采集任务
1)进入主界面,选择“自定义采集”
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
步骤2:创建循环输入文本
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
1)打开网页之后,点开右上角的流程,然后从左侧拖一个循环进来
2)点击循环步骤,在它的高级选项那里选择文本列表,再点开下面的A,把复
制好的关键词全部粘贴进去,注意换行,再点击确定保存。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
3)创建好循环文本输入后,点击页面上的搜索框,创建输入文本的步骤,注意,
不需要输入任何文本即可,若是自动生成的是在循环外面,拖入进去,再勾选循
环即可。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
4)右键选择页面上的搜索按钮,设置好点击元素,这样,循环文本输入就设置
好了,流程下方就是搜索出来的长尾关键词。
步骤3:创建数字翻页
1)由于该搜索结果页面没有下一页按钮,只有数字页数,所以我们需要用到
xpath的一些相关知识,来设置特殊的数字翻页。首先去火狐浏览器里把该网页
打开并搜索相应关键词后,打开浏览器右上角的firebug工具--小瓢虫(不懂的
同学可以去官网教程看一下相应的xpath教程)
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
2)翻到页面下方,找到数字位置的源码,可以看到当前页面的数字跟其他数字,
在源码里节点的属性class是有所不同的
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
3)收益我们首先定位到该页面的数字位置,手写xpath:
//div[@id="page"]/a[contains(@class,'current')]
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
4)再利用固定函数following-sibling来定位到该节点后的第一个同类节点,
注意,该函数后面接::是固定格式,a[1]是指该节点后的第一个同类节点
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
5)可以查看翻页后还是正常定位到下一页的数字上,说明该xpath没有问题
6)再回到八爪鱼,在左侧流程页面拖一个循环进来,高级选项里选择单个元素,
并把xpath放入进去,点确定保存好
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
7)再从左侧拖一个点击元素进来,并在高级选项里勾选好循环,特殊数字翻页
循环就创建好了
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
步骤4:创建循环列表
1)我们安装常规方法创建循环列表,发现,由于搜索结果后的表格中出现了这
个无用的一整行信息。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
2)于是在八爪鱼里面是无法正常的创建好循环列表的,因为这个无用的信息导
致八爪鱼自动生成的列表会定位不准
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
3)所以我们还是得用到xpath的知识,去火狐浏览器里面手动创建一个循环列
表的xpath。首先定位到第一行第一列的源码位置
4)再找到每一行的源码位置,发现他们都是tbody父节点下相同的tr标签
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
5)再观察每一行真正的tr节点里都有一个共同的属性“id”,并且id属性都
有一个共同的tr值,所以我们以此为共同点,手写该
xpath:.//tbody/tr[contains(@id,'tr')],来定位到所有的tr节点,并把所有无
用的tr给过滤掉,这样,循环列表的xpath就创建好了
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
6)再从左侧拖一个循环进去,循环方式选择不固定元素,把该xpath放入八爪
鱼里,并以第一个循环为例,设置相应的采集字段(由于部分字段源码里是没有
的,所以采集不到),
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
步骤5:启动采集
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
1)点击保存任务后,运行采集,以本地采集为例
2)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,
将采集好的数据导出。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
本文来自于:http://www.bazhuayu.com/tutorialdetail-1/cikucrawl.html
相关采集教程:
京东商品信息采集(通过搜索关键词)
http://www.bazhuayu.com/tutorial/jdspsscj
阿里巴巴关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/aliwordcj.html
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
爱站关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/azkeywordcj.html
百度相关搜索关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/bdxgsscj.html
亚马逊关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/amzwordcj.html
京东关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/jdkeywordcj.html
新浪微博关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/xlwbgjccj.html
关键词提取
http://www.bazhuayu.com/tutorial/hottutorial/qita/guanjianci
八爪鱼——90万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化
流程,点击鼠标完成操作,2分钟即可快速入门。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布
流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大
云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的
基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户
的需要。