当前位置：文档之家› 数据分析方法简介

数据分析方法简介

0.0
0.86 0.78 0.60 0.38 0.18 0.12 0.04 0.16 0.5 1.0 1.5 0.21 0.18 0.35 0.24 2.0
0.50 0.84 0.60 1.06
2.5
3.0
线性图
30 25 20 15 10 5 0 1998
客户
50
A系列 B系列
160 140 120 100 80
40
竞争者 1
30
竞争者 2
竞争者 3
20
60 40 20
竞争者 4
10
0
1999 2000 2001 2002E
0 东部西部北部南部
饼图
E类 7% D类 9% A类 40% F类 4%
四象限散点图
40% 30% 20% 10% 0%
C类 16%
-10% -20% -30% -20%
B类 24%
•一个总体分布峰度越小，分布形态便越平缓，总体的数值便越分散，差异便越
用EXCEL进行描述性统计
工具——数据分析——描述统计
检验假设
假设检验的基本思想
事先对总体参数或分布形式作出某种假设
然后利用样本信息来判断原假设是否成立
采用逻辑上的反证法，依据统计上的小概率原理 1. 提出原假设和备择假设确认适当的统计检验量规定显著性水平计算检验统计量的值作出统计决策
步骤
2. 3. 4. 5.
显著性水平与拒绝域
未知总体方差—双尾T检验
用EXCEL进行假设检验
工具—数据分析-t检验-双样本等方差假设
• P值小于0.05，有显著差异
方差分析
目的：检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等 1. 一般提法 H0 ： m1 = m2 =…= mk 假设： ◦ 自变量对因变量没有显著影响 H1 ： m1 ，m2 ，… ，mk不全相等 ◦ 自变量对因变量有显著影响 2. 注意：拒绝原假设，只表明至少有两个总体的均值不相等，并不意味着所有的均值都不相等
数据分析方法简介
数据分析
作图法
◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ 柱形图和条形图折线图和组合图饼图和四象限散点图概率论描述性统计假设检测方差分析回归分析（一元） K-mean 支持向量机神经网络
统计分析
聚类分析
作图法：柱形图和条形图
A类 6 B类 10
C类
7
D类
24
偏态和三值的关系
对称图形偏态图形偏态图形
众值中位值
众中均值位值值
均中众值位值值
均值
离散趋势
是测定总体中各个个体单位标志值差异的变动范围或差异程度的指标。
极差
测量的是数据的分散程度，就是样本中最大值与最小值之差。反映标志值的变动范围极差计算简便，易于理解，应用普遍。极差=最大标志值-最小标志值
单因素方差分析(基本结构)
单因素方差分析原理总结
在观测变量总离差平方和中，如果组间离差平方和所占比例较大，则说明观测变量的变动主要是由控制变量引起的，可以主要由控制变量来解释，控制变量给观测变量带来了显著影响；反之，如果组间离差平方和所占比例小，则说明观测变量的变动不是主要由控制变量引起的，不可以主要由控制变量来解释，控制变量的不同水平没有给观测变量带来显著影响，观测变量值的变动是由随机变量因素引起的。
相关分析既可以研究因果关系的现象也可以研究共变的现象，
不必确定两变量中谁是自变量，谁是因变量。而回归分析是研究两变量具有因果关系的数学形式，因此必须事先确定变量中自变量与因变量的地位。在相关分析中计算相关系数的两变量是对等的，改变两变量
的地位并不影响相关系数的数值。在回归分析中因变量是随
机的，自变量是可控制的解释变量，不是随机变量，二者地位不对等。因此回归分析只能用自变量来估计因变量，而不允许由因变量来推测自变量。
单位75 成70 本
65 60 1 2 3 4 5 6 实际值
y
拟合直线
y x a b 77 .37 n n
回归方程为：ｙ＝77.37－1.82ｘ
x产量
用Excel进行一元回归分析
使用INTERCEPT和SLOPE函数
使用LINEST函数（还可以给出估计标准误差、判定系数等数值）
使用数据分析工具
用FORECAST函数预测
用TREND函数预测
6 1481 21 426 0.9091 (6 79 21)(6 30268 426 )
显然说明产量和单位成本之间存在高度负相关。
拟合直线方程：已知产量和单位成本之间存在高度的相关关系，那么我们完全可以先把直线回归方程的一般形式写出来，即
yc a bx
式中：a是直线的截距；
b是直线的斜率，即回归系数；
yc表示因变量y的估计值。
最小二乘法（最小平方法）求参数a、b: 最小二乘法的原理：使拟合的直线上的点到实际值点的距离平方和最小，即所谓的yc到y的“离差平方和最小”， yc为拟合曲线上据以推算的估计值，y 为实际值。 n xy x y b 2 1.82 2 n x ( x)
y
产量（千件）
2 3 4 3 4 5
单位成本（元）
73 72 71 73 69 68
x产量
※以产量为自变量，单位成本为因本间存在相关关系变量拟合直线回归方程。
※从相关图上可以看出产量与单位成
计算相关系数
nxy xy r 2 2 2 2 nx (x) ny (y )
统计决策
将统计量的值 F 与给定的显著性水平的临界值
F进行比较，作出对原假设H0的决策根据给定的显著性水平，在F分布表中查找与第一自由度df1＝k-1、第二自由度df2=n-k 相应的临界值 F 若F>F ，则拒绝原假设H0 ，表明均值之间

的差异是显著的，所检验的因素对观察值有显著影响若F<F ，则不能拒绝原假设 H0 ，无证据支持表明所检验的因素对观察值有显著影响
•一个较大的标准差，代表大部分的数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。
偏度
理想的分布形态是对称的，但在现实生活中，现象之分布并不完全对称，而是或多或少地不同程度地存在着非对称情况，在统计上将这个非对称分布称为偏态。
表征概率分布密度曲线相对于平均值不对称程度的特征数。
E类 0 5 10
15
15
20
25
30
条形图，两个数据系列
A类 6 6 10 10 7 7 24 24 15 15 0 5 10 15 20 25 30
数据集1 数据集 2
B类
C类
D类
E类
叠加条形图表
A类
6
6
3
5 1
21
数据集 1 数据集2 数据集 3
35
B类
10
10
5
7
3
数据集4 数据集 5
40
列1 列2
64
10
数据集 5
50
70 60 50 40 30 20 10 0 1 5 3 6 6 A类 3 7 5 10 10 B类 4 9 7 10 10 C类 15 D类 6 10 8 15
14 12
数据集 4
数据集 3
24
数据集 2
24
数据集 1
E类
E类
旋风状图(水平堆叠图)
类别 A 类别 B 类别 C 类别 D 类别 E 类别 F 类别 G 类别 H
偏度
•如果偏度=0，则表明此分布为对称分布； •如果偏度 <0 ，则表明此分布为左偏态，此时数据位于均值左边的比位于右边的多； •如果偏度 >0 ，则表明此分布为右偏态，此时数据位于均值右边的比位于左边的多； •非对称分布称为偏态
峰度
•峰度是表明一个次数分布陡峭或平缓的指标。
•一个总体分布的峰度越大，分布形态便越陡峭，总体的数值便越集中
不受总体中极值的影响
众数
用具有频数最多的值来表示变量的集中值。
适用于任何层次的变量，只要知道频次分布，就能找到众值。因此，它最易求出，也特别适用于单峰对称的情况。也是比较两个分布是否相近首先要考虑的参数。对于多峰的图形，由于众值不唯一，用此法就不适当了。
众数、中数和均数的比较
1.三值都是希望通过一个数值来描述整体特征，以便简化资料。都是反映了变量的集中趋势。 2.众值仅使用于了资料中最大频次数，因此，资料使用是不完全的；中位值只考虑了变量的顺序和居中位置，对不按序排序的数，不在中位的数值的大或小反映不出来；均值既考虑到频次，又考虑到变量值的大小，因此，反映最灵敏。 3.虽然均值对资料信息利用最充分，但对严重偏态的分布，会失去它应有的代表性。只对单峰和基本对称的图形，用均值作为集中趋势才是合理的。对偏态的分布，应使用中位值作为集中趋势。
简单线性回归分析
即：一元线性回归分析或直线回归分析
是回归分析中最简单最基本的一种。自变量只有一个，所拟合的回归方程实际上就是直线方程。在现象互为根据的情况下，可以有两个回归方程－－y倚x的方程和x倚y的方程。根本任务是设法在分散的具有线性关系的相关点之间配合一条最优的直线，以表明两变量之间具体的变动关系，并可以据以进行预测等。表现形式： y = a+bx
C类
10
10
7
9
4
D类
24
24
12
54
14
10 84
E类 0
15 10
15 20 30
8 40
10

e商务文档

数据分析方法简介

相关文档推荐：