当前位置:文档之家› 微博爬虫采集数据详细方法

微博爬虫采集数据详细方法

新浪微博上有很多用户发布的社交信息数据,对于做营销或者运营行业的朋友来说,这些数据都非常的具有价值,比如做营销的同学可以根据微博的阅读量、转化量以及评论数等数据可以大致的判断这个人是否具有影响力,从而找到自身行业中的KOL。

另外像微博的评论数据,能反应出自身产品对于用户的口碑如何,利用爬虫采集数据,可以第一时间找到自身产品的缺点,从而进行改进。

那么,说了这么多,应该如何利用微博爬虫去采集数据呢。

步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址”
步骤2:创建翻页循环
1)系统自动打开网页,进入微博页面。

在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。

将当前微博页面下拉至底部,出现“正在加载中,请稍后”的字样。

等待约2秒,页面会有新的数据加载出来。

经过2次下拉加载,页面达到最底部,出现“下一页”按钮
微博爬虫采集数据方法图3
“打开网页”步骤涉及Ajax下拉加载。

打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“4次”,每次间隔“3秒”,滚动方式为“直接滚动到底部”,最后点击“确定”
微博爬虫采集数据方法图4
注意,这里的滚动次数、间隔时间,需要针对网站进行设置,可根据相关功能点教程进行学习:
八爪鱼7.0教程——AJAX滚动教程
八爪鱼7.0教程——AJAX点击和翻页教程
/tutorial/ajaxdjfy_7.aspx?t=1
2)将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”
微博爬虫采集数据方法图5
此步骤同样涉及了Ajax下拉加载。

打开“高级选项”,勾选“页面加载完成后向下滚动”,设置滚动次数为“4次”,每次间隔“3秒”,滚动方式为“直接滚动到底部”,最后点击“确定”
微博爬虫采集数据方法图6
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条微博链接。

选中后,系统会自动识别页面里的其他相似链接。

在右侧操作提示框中,选择“选中全部”
微博爬虫采集数据方法图7
2)选择“循环点击每个链接”,以创建一个列表循环
步骤4:提取微博信息
1)在创建列表循环后,系统会自动点击第一条微博链接,进入微博详情页。

点击需要的字段信息,在右侧的操作提示框中,选择“采集该元素的文本”。

继续选择要采集的字段,选择“采集该元素的文本”
微博爬虫采集数据方法图9
2)继续选中要采集的字段,这里选中了微博链接,在操作提示框中,选择“采集该链接的地址”。

重复以上操作,直至需要的字段选择完成
微博爬虫采集数据方法图10
3)字段信息选择完成后,选中相应的字段,可以进行字段的自定义命名。

完成后,点击左上角的“保存并启动”,启动采集任务
微博爬虫采集数据方法图11
4)选择“启动本地采集”
步骤5:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”。

选择“合适的导出方式”,将采集好微博发博数据导出
微博爬虫采集数据方法图13
2)这里我们选择excel作为导出为格式,数据导出后如下图
微博爬虫采集数据方法图14
相关采集教程:
知乎信息采集详细教程/tutorial/zh-ht
豆瓣读书书籍信息采集方法/tutorial/doubanbookcj
微信公众号文章正文采集/tutorial/wxcjnotimg
新浪微博关键词采集/tutorial/xlwbgjccj
微博粉丝信息采集/tutorial/wbyhxxcj
新浪微博发布内容采集方法/tutorial/xlwbcj_7
新浪微博评论数据的抓取与采集方法/tutorial/wbplcj-7
八爪鱼——70万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。

完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

相关主题