当前位置：文档之家› 微博爬虫抓取方法

微博爬虫抓取方法

微博爬虫一天可以抓取多少条数据
微博是一个基于用户关系信息分享、传播以及获取的平台。

用户可以通过WEB、WAP等各种客户端组建个人社区，以140字（包括标点符号）的文字更新信息，并实现即时分享。

微博作为一种分享和交流平台，十分更注重时效性和随意性。

微博平台上产生了大量的数据。

而在数据抓取领域，不同的爬虫工具能够抓取微博数据的效率是质量都是不一样的。

本文以八爪鱼这款爬虫工具为例，具体分析其抓取微博数据的效率和质量。

微博主要有三大类数据
一、博主信息抓取
采集网址：/1087030002_2975_2024_0
采集步骤：博主信息抓取步骤比较简单：打开要采集的网址>建立翻页循环（点击下一页）>建立循环列表（直接以博主信息区块建立循环列表）>采集并导出数据。

采集结果：一天（24小时）可采集上百万数据。

微博爬虫一天可以抓取多少条数据图1
具体采集步骤，请参考以下教程：微博大号-艺术类博主信息采集
二、发布的微博抓取
采集网址：
采集步骤：这类数据抓取较为复杂，打开网页（打开某博主的微博主页，经过2次下拉加载，才会出现下一页按钮，因而需对步骤，进行Ajax下拉加载设置）>建立翻页循环（此步骤与打开网页步骤同理，当翻到第二页时，同样需要经过2次下来加载。

因而也需要进行Ajax下拉加载设置）>建立循环列表（循环点击每条微博链接，以建立循环列表）>采集
并导出数据（进入每条微博的详情页，采集所需的字段，如：博主ID、微博发布时间、微博来源、微博内容、评论数、转发数、点赞数）。

采集结果：一天（24小时）可采集上万的数据。

微博爬虫一天可以抓取多少条数据图2
具体采集步骤，请参考以下教程：新浪微博-发布的微博采集
三、微博评论采集
采集网址：
https:///mdabao?is_search=0&visible=0&is_all=1&is_tag=0&profile_fty pe=1&page=1#feedtop
采集步骤：微博评论采集，采集规则也比较复杂。

打开要采集的网页（打开某博主的微博主
页，经过2次下拉加载，才会出现下一页按钮，因而需对步骤，进行Ajax 下拉加载设置）>建立翻页循环（此步骤与打开网页步骤同理，当翻到第二页时，同样需要经过2次下来加载。

因而也需要进行Ajax 下拉加载设置）>建立循环列表（循环点击每条微博链接，以建立循环列表）>点击微博链接，进入微博详情页（下拉页面，默认停留在“评论”页面上）>建立微博评论的翻页循环（此点击元素步骤，需设置Ajax 超时）>建立微博评论的列表循环>提取微博评论（博主ID 、发博时间、微博地址、微博内容、评论内容）采集结果：一天（24小时）可采集上十万的数据。

微博爬虫一天可以抓取多少条数据图
3
具体采集步骤，请参考以下教程：微博评论采集
注意：数据采集速度与网络情况、规则配置等各种因素有关，不能一概而论，需具体情况具
体分析。

同时，八爪鱼的旗舰版具有云采集功能，采集速度可快10倍。

相关采集教程：
百度搜索结果采集
豆瓣电影短评采集
搜狗微信文章采集
八爪鱼——70万用户选择的网页数据采集器。

1、操作简单，任何人都可以用：无需技术背景，会上网就能采集。

完全可视化流程，点击鼠标完成操作，2分钟即可快速入门。

2、功能强大，任何网站都可以采：对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，均可经过简单设置进行采集。

3、云采集，关机也可以。

配置好采集任务后可关机，任务可在云端执行。

庞大云采集集群24*7不间断运行，不用担心IP被封，网络中断。

4、功能免费+增值服务，可按需选择。

免费版具备所有功能，能够满足用户的基本采集需求。

同时设置了一些增值服务（如私有云），满足高端付费企业用户的需要。

e商务文档

微博爬虫抓取方法

相关文档推荐：