当前位置：文档之家› 关键词采集方法

关键词采集方法

八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

关键词采集方法
本文将介绍如何利用【词库】批量挖掘并采集长尾词的方法，对SEOSEM站长
来说非常实用。本来还将介绍一款免费好用的数据采集工具【八爪鱼数据采集】，
让站长采集关键词的工作事半功倍。

长尾词对于站长来说是提高网站流量的核心之技能之一，是不容忽视的一项技巧，
在搜索引擎营销中对关键词策略的制定是非常重要的，这些长尾关键词能为网站
贡献很大的一部分流量，并且带来的顾客转化率也很不错。

下面就以【词库】为例，教各位站长如何是用【八爪鱼数据采集器】批量采集关
键词。

采集网站：
http://www.ciku5.com/

本文就以一组（100个B2B行业有指数的关键词）为例，来采集关于这一组关
键词的所有相关长尾关键词。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

采集的内容包括：搜索后的长尾关键词，360指数，该长尾关键词搜索量以及搜
索量的第一位网站（页面）这四个有效字段。

使用功能点：
 循环文本输入
http://www.bazhuayu.com/tutorialdetail-1/wbxh_7.html

 Xpath
xpath入门教程1
xpath入门2
相对XPATH教程-7.0版
 数字翻页
http://www.bazhuayu.com/tutorialdetail-1/szfy_7.html

步骤1：创建词库网采集任务
1）进入主界面，选择“自定义采集”
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

2）将要采集的网址URL复制粘贴到网站输入框中，点击“保存网址”
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

步骤2：创建循环输入文本
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

1）打开网页之后，点开右上角的流程，然后从左侧拖一个循环进来

2）点击循环步骤，在它的高级选项那里选择文本列表，再点开下面的A，把复
制好的关键词全部粘贴进去，注意换行，再点击确定保存。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

3）创建好循环文本输入后，点击页面上的搜索框，创建输入文本的步骤，注意，
不需要输入任何文本即可，若是自动生成的是在循环外面，拖入进去，再勾选循
环即可。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

4）右键选择页面上的搜索按钮，设置好点击元素，这样，循环文本输入就设置
好了，流程下方就是搜索出来的长尾关键词。

步骤3：创建数字翻页
1）由于该搜索结果页面没有下一页按钮，只有数字页数，所以我们需要用到
xpath的一些相关知识，来设置特殊的数字翻页。首先去火狐浏览器里把该网页
打开并搜索相应关键词后，打开浏览器右上角的firebug工具--小瓢虫（不懂的
同学可以去官网教程看一下相应的xpath教程）
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

2）翻到页面下方，找到数字位置的源码，可以看到当前页面的数字跟其他数字，
在源码里节点的属性class是有所不同的
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

3）收益我们首先定位到该页面的数字位置，手写xpath：
//div[@id="page"]/a[contains(@class,'current')]
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

4）再利用固定函数following-sibling来定位到该节点后的第一个同类节点，
注意，该函数后面接::是固定格式，a[1]是指该节点后的第一个同类节点
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

5）可以查看翻页后还是正常定位到下一页的数字上，说明该xpath没有问题

6）再回到八爪鱼，在左侧流程页面拖一个循环进来，高级选项里选择单个元素，
并把xpath放入进去，点确定保存好
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

7）再从左侧拖一个点击元素进来，并在高级选项里勾选好循环，特殊数字翻页
循环就创建好了
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

步骤4：创建循环列表
1）我们安装常规方法创建循环列表，发现，由于搜索结果后的表格中出现了这
个无用的一整行信息。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

2）于是在八爪鱼里面是无法正常的创建好循环列表的，因为这个无用的信息导
致八爪鱼自动生成的列表会定位不准
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

3）所以我们还是得用到xpath的知识，去火狐浏览器里面手动创建一个循环列
表的xpath。首先定位到第一行第一列的源码位置

4）再找到每一行的源码位置，发现他们都是tbody父节点下相同的tr标签
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

5）再观察每一行真正的tr节点里都有一个共同的属性“id”，并且id属性都
有一个共同的tr值，所以我们以此为共同点，手写该
xpath：.//tbody/tr[contains(@id,'tr')]，来定位到所有的tr节点，并把所有无
用的tr给过滤掉，这样，循环列表的xpath就创建好了
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

6）再从左侧拖一个循环进去，循环方式选择不固定元素，把该xpath放入八爪
鱼里，并以第一个循环为例，设置相应的采集字段（由于部分字段源码里是没有
的，所以采集不到），
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

步骤5：启动采集
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

1）点击保存任务后，运行采集，以本地采集为例

2）采集完成后，会跳出提示，选择“导出数据”。选择“合适的导出方式”，
将采集好的数据导出。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

本文来自于：http://www.bazhuayu.com/tutorialdetail-1/cikucrawl.html
相关采集教程：
京东商品信息采集（通过搜索关键词）
http://www.bazhuayu.com/tutorial/jdspsscj
阿里巴巴关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/aliwordcj.html
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

爱站关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/azkeywordcj.html
百度相关搜索关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/bdxgsscj.html
亚马逊关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/amzwordcj.html
京东关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/jdkeywordcj.html
新浪微博关键词采集:
http://www.bazhuayu.com/tutorialdetail-1/xlwbgjccj.html
关键词提取
http://www.bazhuayu.com/tutorial/hottutorial/qita/guanjianci

八爪鱼——90万用户选择的网页数据采集器。
1、操作简单，任何人都可以用：无需技术背景，会上网就能采集。完全可视化
流程，点击鼠标完成操作，2分钟即可快速入门。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com

2、功能强大，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布
流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。
3、云采集，关机也可以。配置好采集任务后可关机，任务可在云端执行。庞大
云采集集群24*7不间断运行，不用担心IP被封，网络中断。
4、功能免费+增值服务，可按需选择。免费版具备所有功能，能够满足用户的
基本采集需求。同时设置了一些增值服务（如私有云），满足高端付费企业用户
的需要。

e商务文档

关键词采集方法

相关文档推荐：