当前位置:文档之家› 网络数据采集

网络数据采集

1

《网络数据采集实验》课程教学大纲

课程编码:12120801314

课程性质:方向课

学 分:2

课 时:36

开课学期:6

适用专业:电子商务

一、课程简介

《网络数据采集》是面向计电子商务专业本科生开设的一门专业方向课。以Python语言为例进行讲解。本课程主要讲述BeautifulSoup的安装与使用、正则表达式、HTML解析、Scrapy的使用,MySQL数据库。通过本课程的学习,可以使学生了解网络采集数据的原理与基本思想,如何解析网页结构并提取出需要的内容。本课程的先修课程为:计算机文化基础,Python程序设计。

二、教学目标

通过本课程的教学应实现以下目标:

了解该课程的基本内容,了解网络数据采集的常用方法;

理解该课程的主要网络数据采集模块,并能够熟练使用;

掌握该课程的主要技能并能在实际工作中应用,包括编写具有基本功能的爬虫,使用爬虫框架等。

三、实验项目与课时分配

实验项目编号 实验项目名称 课时分配 实验类别 实验类型 实验要求 每组人数

1212080131401 BeautifulSoup的安装与使用 2 专业 验证性 必修 1

1212080131402 HTML解析 4 专业 验证性 必修 1

1212080131403 正则表达式 4 专业 验证性 必修 1

1212080131404 存储数据 6 专业 验证性 必修 1

1212080131405 读取文档 4 专业 验证性 必修 1

1212080131406 Python爬虫常用模块 6 专业 验证性 必修 1

1212080131407 Scrapy爬虫框架 6 专业 验证性 必修 1

1212080131408 Selenium模拟浏览器 4 专业 验证性 必修 1

合计 36

四、实验条件

2 实验主要设备和台件数

实验项目编号 实验项目 设备名称 每组应配台件数 备注

1212080141801 BeautifulSoup的安装与使用 联网的计算机 1

1212080141802 HTML解析 联网的计算机 1

1212080141803 正则表达式 联网的计算机 1

1212080141804 存储数据 联网的计算机 1

1212080141805 读取文档 联网的计算机 1

1212080141806 Python爬虫常用模块 联网的计算机 1

1212080141807 Scrapy爬虫框架 联网的计算机 1

1212080141808 Selenium模拟浏览器 联网的计算机 1

五、实验内容及要求

实验项目编号 实验项目 实验内容 基本要求

1212080141801

BeautifulSoup的安装与使用 BeautifulSoup的安装(pip安装),运行与使用 了解Beautifulsoup的安装

掌握Beautifulsoup的使用

1212080141802 HTML解析 HTML网页结构,CSS结构 掌握HTML网页结构

掌握CSS结构

1212080141803 正则表达式 正则表达式的语法,正则表达式的书写,正则表达式的使用 了解正则表达式的语法

掌握正则表达式的查找、替换与匹配,并能使用正则表达式解析网页

1212080141804 存储数据 CSV文件格式,MySQL数据库,MySQL数据库与Python的整合 掌握使用Python对CSV文件的存取

掌握熟练使用Python语言读写MySQL数据库

1212080141805 读取文档 文档编码,纯文本文件、PDF文件 掌握文档编码知识

了解文档转存中由于编码原因导致的问题

掌握python对常见文档的读取

1212080141806 Python爬虫常用模块 urllib2模块、requests模块、sys模块、time模块

熟练使用Python爬虫常用的几个模块

1212080141807 Scrapy爬虫框Scrapy的使用,创建Scrapy项目 能够使用Scrapy创建爬虫,爬取所需内容,并存储爬到的内容 3 架

1212080141808 Selenium模拟浏览器 Selenium的安装,Selenium模拟浏览器的使用 了解Selenium的特点和使用场景,并能使用Selenium进行数据爬取

六、实验报告

实验报告内容有:实验名称、目的、内容、原理、实验步骤、实验记录、数据处理(实验现象描述、原理论证、结构说明、误差分析等)、讨论等。

七、考核办法和成绩评定

1.考核方式:操作

2.成绩评定:实验总评成绩=平时考核成绩×30%+操作考核×70%

八、推荐实验指导书

1.《Python网络数据采集 》(第1版),米切尔 (Ryan Mitchell) (作者), 陶俊杰 (译者),

陈小莉 (译者),人民邮电出版社,2016年。

2.《Python网络爬虫实战》(第1版),胡松涛 编著,清华大学出版社,2017年。

3. 《用Python写网络爬虫》(第1版),[澳]理查德 劳森 (作者), 李斌 (译者),人民邮电出版社,2016年。

大纲制订人:杜亚敏

大纲审定人:黄铭

制订时间: 2017年 9月 3 日

相关主题