当前位置：文档之家› 微博爬虫采集数据详细方法

微博爬虫采集数据详细方法

新浪微博上有很多用户发布的社交信息数据，对于做营销或者运营行业的朋友来说，这些数据都非常的具有价值，比如做营销的同学可以根据微博的阅读量、转化量以及评论数等数据可以大致的判断这个人是否具有影响力，从而找到自身行业中的KOL。

另外像微博的评论数据，能反应出自身产品对于用户的口碑如何，利用爬虫采集数据，可以第一时间找到自身产品的缺点，从而进行改进。

那么，说了这么多，应该如何利用微博爬虫去采集数据呢。

步骤1：创建采集任务
1）进入主界面，选择“自定义模式”
2）将要采集的网址复制粘贴到网站输入框中，点击“保存网址”
步骤2：创建翻页循环
1）系统自动打开网页，进入微博页面。

在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。

等待约2秒，页面会有新的数据加载出来。

经过2次下拉加载，页面达到最底部，出现“下一页”按钮
微博爬虫采集数据方法图3
“打开网页”步骤涉及Ajax下拉加载。

打开“高级选项”，勾选“页面加载完成后向下滚动”，设置滚动次数为“4次”，每次间隔“3秒”，滚动方式为“直接滚动到底部”，最后点击“确定”
微博爬虫采集数据方法图4
注意，这里的滚动次数、间隔时间，需要针对网站进行设置，可根据相关功能点教程进行学习：
八爪鱼7.0教程——AJAX滚动教程
八爪鱼7.0教程——AJAX点击和翻页教程
/tutorial/ajaxdjfy_7.aspx?t=1
2）将页面下拉到底部，点击“下一页”按钮，在右侧的操作提示框中，选择“循环点击下一页”
微博爬虫采集数据方法图5
此步骤同样涉及了Ajax下拉加载。

打开“高级选项”，勾选“页面加载完成后向下滚动”，设置滚动次数为“4次”，每次间隔“3秒”，滚动方式为“直接滚动到底部”，最后点击“确定”
微博爬虫采集数据方法图6
步骤3：创建列表循环
1）移动鼠标，选中页面里的第一条微博链接。

选中后，系统会自动识别页面里的其他相似链接。

在右侧操作提示框中，选择“选中全部”
微博爬虫采集数据方法图7
2）选择“循环点击每个链接”，以创建一个列表循环
步骤4：提取微博信息
1）在创建列表循环后，系统会自动点击第一条微博链接，进入微博详情页。

点击需要的字段信息，在右侧的操作提示框中，选择“采集该元素的文本”。

继续选择要采集的字段，选择“采集该元素的文本”
微博爬虫采集数据方法图9
2）继续选中要采集的字段，这里选中了微博链接，在操作提示框中，选择“采集该链接的地址”。

重复以上操作，直至需要的字段选择完成
微博爬虫采集数据方法图10
3）字段信息选择完成后，选中相应的字段，可以进行字段的自定义命名。

完成后，点击左上角的“保存并启动”，启动采集任务
微博爬虫采集数据方法图11
4）选择“启动本地采集”
步骤5：数据采集及导出
1）采集完成后，会跳出提示，选择“导出数据”。

选择“合适的导出方式”，将采集好微博发博数据导出
微博爬虫采集数据方法图13
2）这里我们选择excel作为导出为格式，数据导出后如下图
微博爬虫采集数据方法图14
相关采集教程：
知乎信息采集详细教程/tutorial/zh-ht
豆瓣读书书籍信息采集方法/tutorial/doubanbookcj
微信公众号文章正文采集/tutorial/wxcjnotimg
新浪微博关键词采集/tutorial/xlwbgjccj
微博粉丝信息采集/tutorial/wbyhxxcj
新浪微博发布内容采集方法/tutorial/xlwbcj_7
新浪微博评论数据的抓取与采集方法/tutorial/wbplcj-7
八爪鱼——70万用户选择的网页数据采集器。

1、操作简单，任何人都可以用：无需技术背景，会上网就能采集。

完全可视化流程，点击鼠标完成操作，2分钟即可快速入门。

2、功能强大，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。

e商务文档

微博爬虫采集数据详细方法

相关文档推荐：