当前位置:文档之家› 数据分析建模简介

数据分析建模简介

数据分析建模简介观察和实验是科学家探究自然的主要方法,但如果你有数据,那么如何让这些数据开口说话呢?数据用现代人的话说即信息,信息的挖掘与分析也是建模的一个重要方法。

1.科学史上最有名的数据分析例子开普勒三定律数据来源:第谷·布拉赫(1546-1601,丹麦人),观察力极强的天文学家,一辈子(20年)观察记录了750颗行星资料,位置误差不超过0.67°。

观测数据可以视为实验模型。

数据处理:开普勒(1571-1630,德国人),身体瘦弱、近视又散光,不适合观天,但有一个非常聪明的数学头脑、坚韧的性格(甚至有些固执)和坚强的信念(宇宙是一个和谐的整体),花了16年(1596-1612)研究第谷的观测数据,得到了开普勒三定律。

开普勒三定律则为唯象模型。

2.数据分析法2.1 思想采用数理统计方法(如回归分析、聚类分析等)或插值方法或曲线拟合方法,对已知离散数据建模。

适用范围:系统的结构性质不大清楚,无法从理论分析中得到系统的规律,也不便于类比,但有若干能表征系统规律、描述系统状态的数据可利用。

2.2 数据分析法2.2.1 基础知识(1)数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出;(2)数据分析(data analysis)是指分析数据的技术和理论;(3)数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律;(4)作用:在实用中,它可帮助人们作判断,以采取适当行动。

(5)实际问题所涉及的数据分为:①受到随机性影响(随机现象)的数据;②不受随机性影响(确定现象)的数据;③难以确定性质的数据(如灰色数据)。

(6)数理统计学是一门以收集和分析随机数据为内容的学科,目的是对数据所来自的总体作出判断,总体有一定的概率模型,推断的结论也往往一概率的形式表达(如产品检验合格率)。

(7)探索性数据分析是在尽量少的先验假定下处理数据,以表格、摘要、图示等直观的手段,探索数据的结构及检测对于某种指定模型是否有重大偏离。

它可以作为进一步分析的基础,也可以对数据作出非正式的解释。

实验者常常据此扩充或修改其实验方案(作图法也该法的重要方法,如饼图、直方图、条形图、走势图或插值法、曲线(面)拟合法等)。

2.2.2 典型的数据分析工作步骤第一步:探索性数据分析目的:通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。

第二步:模型选定分析目的:在探索性分析的基础上,提出一类或几类可能的模型(如进一步确定拟合多项式(方程)的次数和各项的系数)。

第三步:推断分析目的:通常用数理统计或其它方法对所选定的模型或估计的可靠程度或精确程度作出推断(如统计学中的假设检验、参数估计、统计推断)。

3.建模中的概率统计方法现实世界存在确定性现象和随机现象,研究随机现象主要由随机数学来承担,随机数学包括十几个分支,但主要有概率论、数理统计、试验设计、贝叶斯统计、随机过程、时间序列分析、马尔可夫决策、可靠性理论等。

3.1 概率统计建模基本思想面对实际的随机现象,有两类定量方法:(1)方法一:概率统计方法。

其思想是从对随机现象的大量观察中提出相应的数学模型(即概率空间),用随机变量来描述随机现象,然后再研究这一数学模型的性质、特点(如随机变量及其分布、随机变量的数字特征等),由此来阐述随机现象的统计规律性。

(2)方法二:数理统计方法。

其思想是从对随机现象的观测所得到的资料出发(在概率论的指导下)研究怎样去有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议。

(3)概率统计分析方法建模的步骤:【Step1】:模型的选择与建立即确定总体的分布类型(分布函数或密度函数如二项分布、泊松分布、正态分布、2 、t、F分布等)、回归函数等,其方法为绘制频数直方图。

【Step2】:描述性统计⏹数据的收集(全面观测、抽样观测和安排特定的实验(实验设计法、正交实验设计、回归设计、抽样检验))⏹数据的整理(数字特征和统计量,如均值、方差等)【Step3】:统计推断据总体模型和由样本描述分析,作出有关总体分布的某种论断,如残次品率为正态分布,常用参数估计和假设检验,或用统计软件做概率值检验。

【Step4】:统计预测预测随机变量在未来某个时刻的值,如预测一种产品在未来三年内市场的销售量,常用回归。

【Step5】:统计决策就是依据所做的统计推断或预测,并考虑到行动的后果(一经济损失的形式表示),而指定的一种行动方案。

【注意】:Step4和Step5涉及内容包含:非参数统计、多元统计分析(相关、方差、聚类、判别、因子、主成分、多维标度法、多变量的图表示法、对应分析(列联表对应分析))、序贯分析、时间序列分析和随机过程统计等。

(4)熟悉几个重要的分布:二项分布、泊松分布、正态分布、2χ分布、t 分布、F分布。

在数学软件中包含很多概率分布,例如在Matlab的统计工具箱(toolbox\stats)中的概率分布共有20多种,有norm--正态分布、chi2--2χ分布、t--t分布、f—F分布等。

工具箱对每一种分布都提供5类函数,其命令字为:pdf-概率密度,cdf-概率分布,inv-逆概率分布,stat-均值与方差,rnd-随机数生成(可以通过help pdf 等查询命令格式)3.2 建模中的实用概率统计方法简单地讲,统计的任务就是从样本推断总体。

样本是统计研究的主要对象,对于一次具体的试验,样本是一组数据,但它的取值是随机的,从概率论的观点可以把样本当作随机变量,而且当每个个体都是从总体中独立抽取(即个体被抽取的结果互不影响)时,样本就是一组相互独立、同分布的随机变量,当然总体也可以被视为随机变量,与样本同分布。

例如,学校全体学生的身高为总体,其中100名学生的身高数据为样本,100为样本容量。

在实际问题的数学建模中,常用的统计方法有数据的统计描述和分析、统计推断、相关性分析、方差分析、回归分析、因子分析、主成分分析、聚类分析和判别分析等。

3.2.1 数据的描述性统计针对一组杂乱无章的数据(即样本),描述性统计的步骤为:⏹初步整理和直观描述----作出频数表和直方图⏹进一步加工,提取有用信息----计算统计量统计量:用来进一步反映数据特征,它是加工出来的,反映样本数据特征的函数,它不含任何未知量,大致可以分三类:⏹ 表示位置的统计量----样本均值、中位数、上下1、4分位点 ⏹ 表示变异程度的统计量----标准差、方差、极差⏹ 表示分布形状的统计量----偏度、峰度3.2.2 统计推断统计推断主要有参数估计和假设检验。

⏹ 参数估计:点估计、均值的区间估计和方差的区间估计⏹ 假设检验:均值检验、方差检验【例】:学校学生的身高构成一个总体,通常认为身高是服从正态分布2(,)N μσ的(这就是问题的基本假定),从这群人中随机抽出n 人,量得身高为12,,,n x x x (这就是观测数据),它受到随机性的影响。

若要估计这群人的平均身高,即上述正态分布的均值μ(这种估计就是一种推断形式,此处估计的对象是总体分布中的未知参数μ,故又称为参数估计)。

若感兴趣的问题是“平均身高是否超过1.7米”就需要通过样本检验关于总体分布的命题“ 1.7μ≤”是否成立?(这便是假设检验)3.2.3 相关性分析在现实问题中,常会遇到没有因果关系的变量x 与y (地位对称),比如:(1)一个家庭的月收入x 与这个家庭的孩子数量y ;(2)一个人的身高x 与他的体重y 等。

这里x 与y 无因果关系,但它们之间却存在着一定的关系,如(2)中,一般来说个子高的人体重也大一些。

因此,人们希望了解这些x 、y 之间关系究竟密切到了什么程度?这变需要统计意义下的相关。

相关分析的步骤:⏹ 建立样本相关系数xy ρ,这是衡量x 、y 之间关系密切程度的指标。

()()cov(,)ni ixy x x y y x y ρ--==∑主要任务:由x 、y 的一些观测值如(,)i i x y 估计xy ρ及检验有关xy ρ的假设,如0:0xy H ρ=(一般地,当0xy ρ=时,x 、y 不相关;0(0)xy ρ><时,x 、y 有正(负)相关)。

【例】:从某大学中随机选择10名男生,的观测值如表3。

表3 身高与体重观测值计算相关系数:0.91xy ρ=;设(x,y )服从正态分布,考虑假设检验问题:H 0:x 与y 线性不相关,取显著水平0.01α=,查表得 2282()()(0.005) 3.355,0.7650.91n t t c αα-====<所以拒绝H 0,即x 与y 的线性相关性高度显著,即格子高的人一般体重也要大些。

3.2.4 方差分析在试验和实践中,影响试验或生产的因素往往很多,我们通常需要分析哪种因素对事情有显著影响,并希望知道起决定影响的因素在什么时候有着最有利的影响。

可以分为:单因素多水平方差分析和多因素方差分析。

【参见文件】:方差分析.doc3.2.5 回归分析回归分析是研究一个或多个随机变量12,,,m y y y 与另一些变量12,,,n x x x 之间的关系的统计方法。

“回归”一词首先被英国生物统计学家高尔顿(Galton )使用。

应用回归模型可以进行因果关系分析、预测、优化与控制等多种目的。

回归分析分类:⏹ 一元回归分析:m=n=1;模型:2(),(0,)y f x N εεσ=+⏹ 多元回归分析:m=1,n=k>1;模型:21212(,,,,,,,),(0,)k p y f x x x N βββεεσ=+⏹ 多重回归分析:m>1,n>1;模型:111(,,,,,)m k p Y F x x ββε⨯=+回归分析的方法与步骤:⏹ 选定回归函数;⏹ 对回归函数中的位置参数12,,,p βββ 进行估计(最小二乘方法);⏹ 检验有关参数的假设(假设检验);⏹ 对ε的影响估计;⏹ 建立回归方程进行预测和控制。

3.2.6 主成分分析在实际问题中,经常需要对多个变量同时进行统计分析。

变量个数多了,就不易看清变量之间的相互关系,会给统计分析带来困难。

主成分分析的基本思想是:对原来多个变量进行适当的组合,组合成一些综合指标,用较少的综合指标来近似代替原来的多个变量。

这种由原来多个变量组合而成的综合指标,成为主成分。

主要目的:降维。

主成分选取的原则:⏹ 主成分是原变量的线性组合;⏹ 各个主成分之间互不相关;⏹ 如果原来有m 个变量,则最多可以取到m 个主成分,这m 个主成分的变化可以完全反映原来全部m 个变量的变化;如果选取的主成分少于m 个,那么这些主成分的变化应该尽可能多地反映原来全部m 个变量的变化。

相关主题