当前位置：文档之家› 贴吧采集器使用教程

贴吧采集器使用教程

贴吧采集器使用教程
本文介绍使用八爪鱼采集器采集百度贴吧帖子内容的方法。

在这里仅仅以其中一个帖子举例说明：
旅行贴吧的某个帖子（【集中贴】2018年1、2月出发寻同行的请进来登记）
采集内容包括：贴吧帖子内容，贴吧用户昵称
使用功能点：
●创建循环翻页
●修改Xpath
步骤1：创建百度贴吧帖子内容采集任务
1）进入主界面，选择“自定义采集”
2）将要采集的网站
URL复制粘贴到输入框中，点击“保存网址”
步骤2：创建循环翻页
1）网页打开以后，鼠标下拉到最底部，选择下一页，提示框中选择“循环点击下一页”
2)鼠标选中帖子的回复，在右面的提示框中选择“选中全部”
2）如果要采集贴吧的其他信息，也可以选择，这里选择的是贴吧昵称，贴吧昵称。

接着选择“采集元素”，把不必要的字段删除。

步骤3：修改XPATH
1）保存采集后发现有些帖子内容没有正确采集，所以需要修改XPATH，打开右上角的流程按钮
2）点击循环选项，“循环方式”选择“不固定元素列表”，“不固定元素列表”
XPATH：//div[@class="l_post j_l_post l_post_bright "]。

填入
2)点击“提取数据”，修改贴吧帖子内容XPATH。

选中帖子内容字段，依次点击“自定义数据字段”->“自定义元素定位方式”，并设置：
元素匹配的XPATH:
//div[@class="l_post j_l_post l_post_bright "]//div[@class="d_post_content j_d_post_content clearfix"]
相对
XPATH：
//div[@class="d_post_content j_d_post_content clearfix"]
选中帖子内容字段
自定义数据字段位置
帖子内容字段数据提取xpath
设置
3) 修改贴吧用户昵称XPATH 。

选中贴吧用户昵称字段，依次点击“自定义数据
字段”->“自定义元素定位方式”，并设置：
元素匹配的XPATH:
//div[@class="l_post j_l_post l_post_bright "]//li[@class="d_name"]/a 相对XPATH：
//li[@class="d_name"]/a
选中贴吧用户昵称字段
步骤5：百度贴吧帖子内容数据采集及导出
1）打开流程按钮，修改采集字段名称，点击“保存并开始采集”
启动本地采集
集完成后，会跳出提示，选择“导出数据”选择“合适的导出方式”，将采集好的数据导出，这里我们选择excel 作为导出为格式，一份完好的百度贴吧帖子内容就采集好了，数据导出后如下图
本文来自于：
/tutorialdetail-1/tiebashendu.html
相关采集教程：
八爪鱼采集遇到无下一页，数字翻页的解决方法:
/tutorialdetail-1/szfy_7.html
百度地图坐标内容采集方法:
/tutorialdetail-1/bddtzbcj.html
淘宝商品采集:
/tutorialdetail-1/tbspxx_7.html
新浪微博发布内容采集方法:
/tutorialdetail-1/xlwbcj_7.html
八爪鱼7.0教程——查看数据和导出数据:
/tutorialdetail-1/cksj_7.html
天猫店铺数据采集方法:
/tutorialdetail-1/tmdpcj-7.html
大众点评商家数据采集详细教程:
/tutorialdetail-1/dzdp2_7.html
八爪鱼——90万用户选择的网页数据采集器。

1、操作简单，任何人都可以用：无需技术背景，会上网就能采集。

完全可视化流程，点击鼠标完成操作，2分钟即可快速入门。

2、功能强大，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。

3、云采集，关机也可以。

配置好采集任务后可关机，任务可在云端执行。

庞大云采集集群24*7不间断运行，不用担心IP被封，网络中断。

4、功能免费+增值服务，可按需选择。

免费版具备所有功能，能够满足用户的基本采集需求。

同时设置了一些增值服务（如私有云），满足高端付费企业用户的需要。

e商务文档

贴吧采集器使用教程

相关文档推荐：