第4章常规动态网页爬取
教案
课程名称:Python网络爬虫技术
课程类别:必修
适用专业:大数据技术类相关专业
总学时:32学时(其中理论14学时,实验18学时)
总学分:2.0学分
本章学时:6学时
一、材料清单
(1)《Python网络爬虫技术》教材。
(2)配套PPT。
(3)引导性提问。
(4)探究性问题。
(5)拓展性问题。
二、教学目标与基本要求
1.教学目标
先通过源码对比区分动态网页和静态网页,然后使用逆向分析技术爬取网站“”首页新书信息。
还有使用Selenium爬取网站“/search/books”中的以“Python编程”为关键词的信息。
和将数据存入MongoDB数据库。
2.基本要求
(1)了解静态网页和动态网页的区别。
(2)逆向分析爬取动态网页。
(3)使用Selenium库爬取动态网页。
(4)使用MongoDB数据库储存数据。
三、问题
1.引导性提问
引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。
(1)什么是动态网站?
(2)动态网站和静态网站有和区别?
(3)和关系型数据库比较,非关系型数据库解决了什么问题?
2.探究性问题
探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。
或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。
(1)Selenium库爬取网站的优缺点是什么?
(2)Selenium库如何快速得到想要数据?
(3)MongoDB和MySQL对比有哪些优点?
3.拓展性问题
拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。
亦可以提供拓展资料供学生研习探讨,完成拓展性问题。
(1)Selenium库Requests库相比爬取网站和的优缺点是什么?
(2)如何提高Selenium爬取网站速度?
四、主要知识点、重点与难点
1.主要知识点
(1)了解静态网页和动态网页区别。
(2)逆向分析爬取动态网页。
(3)安装Selenium库以及下载浏览器补丁。
(4)Selenium库声明浏览对象并访问页面。
(5)Selenium库页面等待。
(6)Selenium库页面操作。
(7)Selenium库元素选取。
(8)Selenium库预期的条件。
(9)了解MongoDB数据库和MySQL数据库的区别。
(10)将数据存储入MongoDB数据库。
2.重点
(1)逆向分析爬取动态网页。
(2)Selenium库元素选取。
(3)将数据存储入MongoDB数据库。
3.难点
(1)Selenium库的使用。
(2)将数据存储入MongoDB数据库。
五、教学过程设计
1.理论教学过程
(1)了解静态网页和动态网页的区别。