当前位置:
文档之家› 大数据 分析大数据 大数据分析模型构建
大数据 分析大数据 大数据分析模型构建
• 数据的获取及存储
数据采集
日志、web、温度、图像、音频、视频、温度、湿度、光感、力学、 距离
数据存储
Mysql、Hive、Hbase、MongoDB
Car 情报局
任务2 构建数据分析模型
1 厘清数据分析过程
• 数据处理及清洗
目的:
一致性、有效性
数据错误类型:
内容缺失、数据格式问题、数据重复、数据不准确、数据不完整、数 据不一致等
Car 情报局
任务2 构建数据分析模型
(1)理解机器学习的几个概念
• 深度学习
Car 情报局
深度学习是指机器学习中的一类函数,通常指的是多层神经网络。 很多深度学习的算法是半监督式学习算法,用来处理存在少量未标识 数 据 的 大 数 据 集 。 常 用 的 算 法 有 : 受 限 波 尔 兹 曼 机 ( Restricted Boltzmann Machine, RBN)、Deep Belief Networks(DBN)、 卷积网络(Convolutional Network)、堆栈式自动编码器(Stacked Auto-encoders)。
任务2 构建数据分析模型
(1)理解机器学习的几个概念
• 机器学习
机器学习(Machine Learning)是一门讨论各式各样的适用于不同 领域问题的函数形式,以及如何使用数据有效地获取函数参数具体值 的一门学科。而从方法论的角度看,机器学习是计算机基于数据构建 概率统计模型并运用模型对数据进行预测与分析的学科。
任务2 构建数据分析模型
(2)机器学习模型的建立过程
1 模型选择 2 模型训练 3 模型预测
Car 情报局
任务2 构建数据分析模型
(2)机器学习模型的建立过程-模型选择Car 情报局
模型选择
分类
回归
房子价格的波动、气温的、销售额 离散值 连续值 图像的分类、疾病的监测结果
房价预测: 线性回归算法
任务2 构建数据分析模型
(2)机器学习模型的建立过程-模型训练Car 情报局
损失函数
1 厘清数据分析过程
• 数据可视化 饼图、柱形图、条形图、折线图、散点图、雷达图
Car 情报局
任务2 构建数据分析模型
2 机器学习模型
1 理解机器学习的几个概念 2 机器学习模型的建立过程 3 机器学习算法分类
Car 情报局
任务2 构建数据分析模型
(1)理解机器学习的几个概念
• 数据挖掘
Car 情报局
任务1 透析大数据分析
1 概述数据分析
1 推测或解释数据并确定如何使用数据 2 检查数据是否合法 3 给决策者提供合理化的建议 4 诊断或推测错误的原因 5 预测未来发展趋势或者事态发展方向
Car 情报局
任务1 透析大数据分析
2 数据分析的类型
1 统计学领域 2 验证性数据分析 3 探索性数据分析
Car 情报局
《大数据平台应用》
项目六:分析大数据 之大数据分析模型构建
教学环节
1 任务1:透析大数据分析 2 任务2:构建分析模型
Car 情报局
任务1 透析大数据分析
1 概述数据分析 2 数据分析分类
Car 情报局
任务1 透析大数据分析
1 概述数据分析
Car 情报局
• 数据分析是指通过收集、存储、清理、计算等过程获取数据中隐含的信息 的过程。也就是说,数据分析是建立数据分析模型,对数据进行核实、筛 查、反复计算、判断等操作,将目标数据等理想情况与实际情况进行对比 分析,发现内规律的过程。
很多学者对给出了不同的定义,一种认为比较全面的定位是数据挖 掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但 又是潜在有用的信息和知识的过程。数据挖掘常用的算法有分类、聚 类、回归分析、关联规则、特征分析、Web页挖掘、神经网络等智能 算法。
x1:房龄 x2:面积
y1: 房屋预测价格 y2: 房屋真实价格
w1 : 房龄的权重 w2 :面积的权重 b : 偏差
y1=w1x1x1+w2x2+b
任务2 构建数据分析模型
(2)机器学习模型的建立过程-模型训练Car 情报局
训练数据集
模型训练重要的一个元素就是训练数据集,我们通常情况下是使 用一系列的历史真实数据作为训练数据集
已有假设的证实或证伪 发现新的特征
Car 情报局
任务1 透析大数据分析
2 数据分析概述
• 人类探索自然的过程
定性数据分析 定量数据分析
“有没有”、“是不是” 分析对象各项特征指标及其数值
Car 情报局
任务1 透析大数据分析
2 数据分析的类型
• 数据量的大小
内存级数据分析 BI级数据分析 海量级数据分析
样本 训练数据集中的每一条数据
标签 数据集中的结果
特征 数据集中的每一个元素
任务2 构建数据分析模型
(2)机器学习模型的建立过程-模型训练Car 情报局
任务2 构建数据分析模型
(2)机器学习模型的建立过程-模型训练Car 情报局
我们常用使用一个函数作为准确值与预测值之间的误差,这个函数我们称作为损失函数。损失 函数计算出来的值越小说明预测值越接近真实值,从而说明我们的训练模型越好
1 厘清数据分析过程
1 设计分析 2 数据的获取及存储 3 数据处理和清洗 4 数据分析 5 数据的可视化
Car 情报局
任务2 构建数据分析模型
1 厘清数据分析过程
• 设计分析
明确数据分析目标 确定分析的数据对象 分析方式 采用的逻辑思维 达到什么样的指标
Car 情报局
任务2 构建数据分析模型
1 厘清数据分析过程
Car 情报局
任务1 透析大数据分析
2 数据分析的类型
• 时效性
实时数据分析 离线数据分析
Car 情报局
任务1 透析大数据分析
2 数据分析的数据分析 规则性数据分析
Car 情报局
任务2 构建分析模型
1 厘清数据分析过程 2 机器学习模型
Car 情报局
任务2 构建数据分析模型
数据处理方式:
数据清洗、数据转化、数据抽取、数据合并、数据计算
Car 情报局
任务2 构建数据分析模型
1 厘清数据分析过程
• 数据分析 建立数据分析模型,采用有效的各类数据挖掘算法,提取出有价值的信息 K-Means聚类算法,朴素贝叶斯网络、决策树算法、线性回归算法等算法
Car 情报局
任务2 构建数据分析模型