当前位置:
文档之家› Python网络爬虫技术 第6章 终端协议分析
Python网络爬虫技术 第6章 终端协议分析
小结
本章介绍了如何抓取终端协议的数据,分别使用HTTP Analyzer工具和Fiddler工具抓取客户端和APP端的数 据。本章主要内容如下。 在千千音乐客户端上,介绍了HTTP Analyzer工具的抓包过程。 在人民日报APP上,介绍了Fiddler工具抓取包过程以及爬取人民日报APP图片。
17
分析人民日报APP
打开人民日报手机APP,如下图所示。
18
分析人民日报APP
在Fiddler工具的左侧栏找到人民日报APP的信息,每个Fiddler工具抓取到的数据包都会在该列表中展示, 单击具体的一条数据包后,可以在右侧菜单上单击“Insepector”按钮查看数据包的详细内容。Fiddler工 具的右侧栏主要分为请求信息(即客户端发出的数据)和响应信息(服务器返回的数据)两部分。在请求信 息上,单击“Raw”按钮(显示Headers和Body数据),在响应信息单击“JSON”(若请求或响应数据是 json格式,以json形式显示请求或响应内容),如下图所示。
16
了解Fiddler工具
3.利用Fiddler工具抓包测试
设置完成Fiddler工具和AnFid Fiddler工具,如下图所示。
窗口1显示所有的HTTP连接的流量信息,并可以根据进程和时间进行归类排序。 窗口2以选项卡的形式显示出选中的HTTP连接的详细信息。其中包括HTTP头部信息、响应内容、表单数
据、请求计时、查询字符串、Cookies、原始数据流、提示信息、注释、响应状态码的解释信息。 窗口3显示当前连接的所属进程的相关信息。 单击“Start”按钮下面的“Process”下拉框,可以根据进程来过滤数据,左边选择进程,右边显示的是
终端协议分析
2019/5/7
目录
1
分析PC客户端抓包
2
分析APP抓包
3
小结
2
了解HTTP Analyzer工具
本节使用的是HTTP Analyzer V7.6。HTTP Analyzer工具的主界面如下图所示。单击图左上方“Start”按 钮,即可开始记录当前处于会话状态的所有应用程序的HTTP流量。如果当前没有正在进行网络会话的应用 程序,可以在单击“start”按钮后,使用浏览器打开任意一个网页,即可看到相应的HTTP的流量信息。
19
分析人民日报APP
在Fiddler中得到GET请求的URL地址后,Chrome浏览器需要下载JSON-handle插件,才能看到返回的 JSON格式的信息,如下图所示。
20
分析人民日报APP
最终爬取到的人民日报首页图片如下图所示。
21
目录
1
分析PC客户端抓包
2
分析APP抓包
3
小结
22
3
了解HTTP Analyzer工具
如果当前有应用程序正在进行网络会话,即可看到中间网格部分会显示一条或者多条详细的HTTP流量信息 ,如下图所示,单击任意的HTTP连接,即可查看该连接所对应的详细信息,捕获到的HTTP连接信息显示 在中间的网格中,每个窗口的具体信息如下。
4
了解HTTP Analyzer工具
内容,可以清楚地看到一个进程对应内容,如右图所示。
5
了解HTTP Analyzer工具
以text/html为过滤条件,单击“Type”下拉框,选择“text/html”,窗口1显示的是内容,可以通过数 据类型进行过滤来得到结果,如下图所示。
6
爬取千千音乐PC客户端数据
打开千千音乐PC客户端,如下图所示。
23
9
目录
1
分析PC客户端抓包
2
分析APddler工具
1.设置Fiddler工具
打开Fiddle工具的打开工具的设置,单击“Tools”并选择“Options”,如下图所示。
11
了解Fiddler工具
1.设置Fiddler工具
选中“Decrypt HTTPS traffic”,Fiddler即可截获HTTPS请求,如下图所示。
15
了解Fiddler工具
2.设置Android系统的手机
在Android系统手机的浏览器打开无线局域网IPv4网址的8888端口,本节设置的安装证书网页为 “http://192.168.137.42:8888”。单击“FiddlerRoot certificate”证书的安装证书,如下图所示。
重启Fiddler,即可完成配置。
13
了解Fiddler工具
2.设置Android系统的手机
在命令提示符中通过“ipconfig”命令查看电脑IP地址,找到无线局域网适配器WLAN的IPv4地址并记录, 如下图所示。
14
了解Fiddler工具
2.设置Android系统的手机
成功获取计算机IP地址和端口号后,在Android系统手机的WiFi设置上 ,找到手机连接路由器的WiFi,然后修改网络,即可对手机进行代理设 置。将代理设置为手动,填入获取到的IP地址和端口号,单击“保存” 按钮,如右图所示。
7
爬取千千音乐PC客户端数据
启动HTTP Analyzer,选择仅显示千千音乐PC客户端信息的进程,并以text/html为过滤数据类型,在千 千音乐客户端中的搜索框搜索某歌手,可以看到下图所示的抓包效果。
8
爬取千千音乐PC客户端数据
针对上述所示的抓包效果,主要关注搜索请求的类型头和响应。可以发现,搜索使用的是GET请求。选择 之前搜索的某歌手的请求链接,它是一个API接口。此时,响应的内容如下图所示。
12
了解Fiddler工具
1.设置Fiddler工具
切换至“Connections”选项卡,选中“Allow remote computers to connect”,表示允许远程设备 将HTTP/HTTPS请求发送到Fiddler,如下图所示。此处默认的端口号是8888,可以根据需求更改,但是 需注意不能与已使用的端口冲突。