当前位置:文档之家› Python-爬虫零基础入门-爬取那些你喜欢的小说

Python-爬虫零基础入门-爬取那些你喜欢的小说

数据
网页解析库BeautifulSoup
• BeautifulSoup美味的汤
• 作用:解析和提取数据
本章主讲内容
• 1.什么是爬虫 • 2.浏览器的工作原理 • 3.爬虫的工作原理 • 4.爬虫的工作步骤 • 5.网页解析库BeautifulSoup美味的汤
• (4)储存数据:爬虫程序把这些有用的数据保存起来,便于你日后的使用 和分析-文件存储
请求与响应
• 请求request
• 请求方式 get和post • get请求:地址栏上显示表单数据
http://127.0.0.1:8020/siper/get.html ? uname=admin&pwd=8888
值的数据,重要的就是速度比手动获取数据快
浏览器的工作原理
爬虫的工作原理
爬虫的工作步骤
• 爬虫的工作步骤
• (1)获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然 后返回数据 -url
• (2)解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式。 response响应结果
• (3)提取数据:爬虫程序再从中提取出我们需要的数据。
爬虫零基础入门-爬取那些你喜欢的小说
本章主讲内容
• 1.什么是爬虫 • 2.浏览器的工作原理 • 3.爬虫的工作原理 • 4.爬虫的工作步骤 • 5.网页解析库BeautifulSoup美味的汤
什么是爬虫
• 爬虫
• 从本质上来说,就是利用程序在网上拿到对我们有价值的数据 • 实际上爬虫就是使用编程语言所编写的程序,作用是从网络上获取有价
• 爬张图片到本地
小试牛刀-零点小说网
• 请求网址url: https:/// • 请求方式:get • 爬虫方式发送请求得到响应
• 获取响应数据
网页解析库BeautifulSoup
• BeautifulSoup美味的汤
• 作用:解析和提取数据 • Python内置库html.parser不是唯一的解析器,去是简单的那个 • bs的类型为bs4.BeautifulSoup类型,就可以使用对象中的方法进行提取
• post请求:表单数据在form data中
请求与响应
• 响应response
• 响应回来的数据:html+css+js+data,由浏览器Βιβλιοθήκη 行解析执行小试牛刀-零点小说网
• 请求网址url: https:/// • 请求方式:get • 爬虫方式发送请求得到响应
相关主题