当前位置:
文档之家› 大数据分析工具 rapidminer 操作实践
大数据分析工具 rapidminer 操作实践
Linear Discriminant Analysis 线性辨别分析操作符
训练数据集
辨别分析可解决的实际问题: 教练根据体校往届学生的身 体素质条件和他们擅长的运 动项目为新一届体校学员制 定专项训练计划。
测试数据集
逻辑回归分析(预测分析类)
Logistic回归建模步骤繁多且复杂,在本软件 中,已经高度整合在一个算子之中,使用者只 需要调整个别参数即可实现快速建模。
大数据+机器学习
支持向量机 决策树 贝叶斯 关联聚类 深度学习 神经网络
Machine Learning
回归
分布式机器学习
这张大数据领域知识架构网络图中,黄色部分代表着领域的前沿。解读网络图可知, 机器学习在大数据分析领域中的应用,激活了之前几个独立的应用领域,使得大数 据具备了自主学习能力,在预测分析与逆向检验方面取得快速发展。
大数据分析工具--RapidMiner
基于机器学习的大数据分析
Big data analysis frontier sharing
RapidMiner软件介绍
目录
CONTENT S
数据访问、准备、清洗 基本大数据分析实战
RapidMiner+机器学习
01
rapidMiner软件介绍
RapidMiner a Leader in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
深度学习
深度学习算法计算结果 BP算法计算结果
深层神经网络
BP神经网络 在相同样本训练下,利用深层神经网络来进行 预测相较于BP算法结果存在明显的差异。 将大数据分析与深度学习相结合是时下最热门 的研究主题。
显著性差异
感谢您的聆听
Your opinion is the most valuable asset.
决策树算法
机器学习的训练过 程生成了决策树 决策树算法的通俗理解是: 根据已有的一个训练数据集,通过机器学 习对数据集里的数据进行逻辑联系判断, 生成一个带有复杂判断条件的决策树,当 有新的数据集(测试数据集)需要在某一 标签下进行预测时,软件就调用新的数据 进入决策树中,来进行判断预测。 销售量决策树
数据访问、准备、清洗
可以自动对数据源中的异常数 据进行分析过滤,防止在数据 分析过程中出现程序性错误
可以调节数据源中数据的类型, 支持多种文字编码格式,有效 防止解码错误。 主动检测BUG,在最大限度上 保证数据源的质量和完整性。
数据清洗。
03
基本大数据分析实战
RapidMiner a Leader in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
RapidMiner软件介绍
Rapid Miner 是技术性和适用性的完美结合,专业 为最新建立的人性化数据挖掘分析提供服务。通过推拽 算子,设置参数及组合算子,在RapidMiner 中定义分 析流程,可以使各专业技术人员专注于业务而非编程。
内置1500多个专业数据分析流程
强大的视觉化功能
GUI或编程界面
支持访问各种类型数据库
多模态数据分析预测
深层人工神经网络
高超的建模能力
RapidMiner软件介绍
RapidMiner软件介绍
02
数据访问、准备、清洗
RapidMiner a Leader in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
通过往届球员身体素质样本数据,利用BP人 工神经网络进行大数据分析,在隐藏层中建立 了人类难以直接理解的目标特征属性(这是与 决策树算法中明显的判别标准截然不同的), 来预测一批新球员谁能够成为世界巨星。
BP神经网络的计算过程由正向计算和 反向计算组成。正向传播,输入模式 从输入层经隐藏层逐层处理,传向输 出层,每一层神经元的状态只影响下 一层神经元的状态。如果在输出层不 能得到期望的输出,则转入反向传播, 将误差信号沿原来的连接通路返回, 通过修改各神经元的权值,使得误差 信号最小。
根据挖掘目的设置指标变量 y ; x1 , x 2 ,… x p
列出回归方程
p Ln 0 1 x1 1 p p xp
估计回归系数
逻辑回归分析可解决的实际问题:
模型检验F检验 应用方差分析表对模型检验
回归系数检验t检验 应用参数估计表对回归系数 进行t检验
是否周末 是 否 是否有促销 坏 是否有促销 是 高 否 低 好 高 是 天气 坏 低 否 低
决策树是对测试 集目标进行预测 的逻辑判断依据 概率判断结果
Hale Waihona Puke 天气 好 高人工神经网络 ANNs
人工神经网络(Artificial Neural Networks,ANNs),是模拟生物神 经网络进行信息处理的一种数学模 型。它以对大脑的生理研究成果为 基础,其目的在于模拟大脑的某些 机理与机制,实现一些特定的功能。
利用训练好的模型,可以对测试 数据集中各个个体是否容易罹患 二次心脏病做出基于概率的预测。
预测控制
04
RapidMiner+机器学习
RapidMiner a Leader in the 2018 The Forrester Wave™: Multimodal Predictive Analytics And Machine Learning Solutions
K-Means 聚类分析
模型
Cluster
聚类分析可解决的实际问题: 1) 如何通过用餐客户的餐饮选择来找到有价值 的客户群和需要关注的客户群? 2) 如何合理对菜品进行分析,以便区分哪些菜 品畅销毛利又高,哪些菜品滞销毛利又低?
分析结果
可视化
辨别分析(预测分析类)
模型应用操作符:将测试数据集 输入进已经训练好的分析模型中。 学 员 姓 名 预 测 结 果
数据访问、准备、清洗
RapidMiner提供了大量数据连接器。 包括60种结构化和非结构化的数据读取。 进一步支持文本,网络和多媒体数据挖掘处理。 支持纯文本,HTML,PDF,RTF,CSV以及更 多非数据库数据。
RapidMiner Cloud提供超大数据分析所需要的计 算能力,为用户的预测分析进行最大支持。 用户可在在云的弹性计算环境中运行大量的任务, 使得本地机器得以释放,任务并行提交给 RAPIDIMSER云。