当前位置:文档之家› 基础统计学笔记统计学基础笔记整理

基础统计学笔记统计学基础笔记整理

基础统计学笔记统计学基础笔记整理
一、统计学概论:
分理论统计和应用统计:
应用统计分为描述统计学和推断统计学。

描述统计为一组数据的中(位置:均值、中位数)、散(极差、方差、标准差)、形|(偏度)描述。

推断统计分为参数估计和假设检验。

技能:
1、经验——数据收集加工——画成图形——数理(规律) (数据不等于数字)
PPT 原则:用图不用表、用表不用栏、用栏不用字实际问题:
5M1E ——组成过程——产品(结果)——属性(包括:几何(形位方尺)、物理、生化、人文)——集合统计问题:
——(构成)总体——样本——数据——类型:分计数型(离散性)和计量型(连续性),即概率分布为计量型分布和技术型分布)——规律分描述和推断。

1、总体与样本中间有一种学问:抽样:验收抽样、统计抽样样本量
2、样本和数据中间有一门测量技术:MSA
3、分布规律
总体参数:平均值() 标准差() 总位数() 比例(p )
样本统计量的特点:随机变化,不要轻易用样本下结论。

拉丁字母在数学上用于总体参数阿拉伯字母表示样本统计量希腊字母表
示计算
总体参数统计分参数统计和非参数统计。

推断统计分
估计:总体总体某参数,用对应的样本统计量去猜测。

检验:假设总体某参数已知,用对应的样本统计量去验证。

二:统计数据收集与: 1、数据不等于数字
2、数据的两种类型:
描述性分类——响应变量(因变量)和预报因子(独立变量)如性别叫因子,男女叫水平。

四种尺度:定类、定序、定距、定比
3.数据管理的7个层次:无假不乱浅深系 4.软件每一列表示一个变量,每一行表示一个样本鱼骨图只适用于一个为什么,
变量程序图IPO 适用于多个为什么。

I (变量) P O 水质烧开水色香味器皿材质火燃料风压强
目的要抓住关键的变量。

2、统计数据的表现形式:绝对数——时期数和时点数相对数——比例:部分比总体比率:部分比部分
统计的数据:直接和间接。

1、数据收集:分被动收集(利用历史和现场)和主动收集(DOE 试验设计)现场收集数据是被动收集,分临时数据和常态数据。

试验是临时数据。

数据好的特征:。

数据不好的7个陷阱:缺少假混窄异病
缺:缺失(数据表中类型有N (计数型)\T(文本类型)\D(时间类型)少:样本量少假:不真实
混:混杂(没有可比性)
窄:x 的水平设计过窄。

因子的范围过窄,没有相关性。

异:夹杂异常数据。

病:病态(变异系数太小),变异系数:λ=σ/υ(
注意:
连续数据:非偶尔发生的问题的计数最好当作连续数据
离散数据:包括百分数,技术,数据分析的前提条件:
1、判测:MSA
2、判异常
3、判独(效果独立性:标识该变量还受到其它原因的干扰)
4、判量:求样本量。

统计抽样(非验收抽样)。

5、判形:分布的识别——正态性验证
6、判散:
黑带工具:
MSA CPK SPC 假设检验试验设计(DOE ) (主动研究) (静态被动研究)(动态被动研究)(被动研究)(主动研究)
MSA ——过程现状水平评估——统计分析——改善后的效果验证。

QC 老7大工具:直排散分鱼查图 QC 新7大工具:P 箭双阵关系亲 P :PDPC 过程决策程序图、箭:箭条图(统筹法):计算关键
路劲。

阵:矩阵图:数字矩阵图、一半矩阵图关:关联图
系:系统图(树图)亲:亲和图:归纳、
统计描述:
1、图示化:用图形(表)描述数据的分布规律。

2、求统计量(数值量度:中(位置):均值:算数平均。

缺点:对偏态分布没有代表性。

中位数:具有稳健性、抗干扰性。

众数:数量最多的一个数,一般用于计数型数据的平均值。

但不一定唯一,不
一定在中心。

散:极差(R )=max-min,适合于两本量不多的情况下,一般NC10 方差:
标准差
形偏度:分右偏分布(正偏)和左偏(负偏)
峰度:尖峰>0、正态=0、平峰<0
求统计量路径:
1、一次求一个:计算——列统计量
2、一次求多个:统计——基本统计量——显示描述性统计
工具一、直方图
1、用途、目的:用来揭示一组数据的分布状态,并识别异常。

2、条件:长用于计量型数据
也可用于大概率计数型数据。

3、统计路径:图形——直方图
4、结构:图形由点、线、柱、框、轴组成。

直方图为两轴多柱结构。

5、解读:中散形异比(比:和规格比,和两两比。


6、拓展(注意事项):统计——基本统计——显示描述性统计。

两图比较——选择右键选平铺和
工具二:点图
用途、目的:用来揭示一组数据的分布状态,并识别异常。

条件:长用于计量型数据
也可用于大概率计数型数据。

适合于小样本。

统计路径:图形——点图结构:两轴多点
解读:中散形异比(比:和规格比,和两两比。

)能够抓捕异常点——点右键——笔刷——框异常点。

拓展(注意事项):统计——基本统计——显示描述性统计。

两图比较——选择两个列
三、箱线图:
用途、目的:用来揭示一组数据的分布状态,并识别异常。

条件:长用于计量型数据
也可用于大概率计数型数据。

统计路径:图形——箱线图结构:两轴一筐三线若干点
解读:中散形异比(比:和规格比,和两两比。

)中位线、上4分:Q3、下4分位Q1 Max (minQ1-1.5(Q3-Q1))
点:可等于最大点或小于做大点,如大于最大点则能够抓捕异常点——点右键——笔刷——框异常点。

拓展(注意事项):
了解变化的工具:——时序图——控制图
——频率:以上三种均属于——排列图
工具四、柏拉图:
1、用途:用来识别关键少数,28原则。

2、条件:XY 都是计数型数据,常常用于分类的。

偶尔Y 可以用于计量型
3、路径:统计——质量工具——pareto
4、结构:三轴多柱一线
5、解读:看高低,判主次。

原始数据格式:汇总格式列联表指示变量
6、注意事项:
——每一个柱子不能太相近,近乎等概率——其它不能太高,没有分解完。

——排列图一定要有时效性——确保相对高度如果等概率:解决方法 1、换一种分类方法 2、调整Y 轴分类方法 3、把Y 的同规格放大。

(数据规范化)
工具五:条形图(柱状图) 1、用途:用来比较各自的权重 2、条件:XY 都是计数型数据 3、路径:图形——条形图 4、结构:两轴多柱
5、解读:看到底看轻重
知识——学来的,搜索能力(术:工具技能——练来的(法:观念——解放,靠修悟(道:
工具六:散点图
1、用途:揭示两个变量相互关系用的
2、条件:XY 两个计量
3、路径:图形——散点图
4、解读:看分布,判相关:强正、强负、弱正、弱负、不相关、完全相关
5、结构:
6、扩展:两个X 一个是计数、一个是计量
截止上面的图均为静态图。

以下静态图:
工具七:时间序列图(时序图) 1、用途:按时间的顺序的数据图形 2、条件:要求时间,时效型数据 3、结购:两轴多点线
4、解读:看趋势判异常(聚类、混合等)或判独力性
5、拓展:
工具八:运行图(链条图)
1、用途:按时间的顺序的数据图形
2、条件:要求时间,时效型数据
3、路径:统计——质量工具——运行图 3、结购:两轴多点一线
4、解读:看趋势判异常(聚类、混合等)或判独力性中位数的游程个数, 如果少很多,为少聚多混。

期望游程个数
检验聚类性的近似P 值<0.5 混合近似P 值<0.5,
向上或向下的游程个数:期望游程个数
检验趋势性的近似P 值<0.5 检验振动性的近似P 值<0.5, 5、拓展:
总结:
二、推断统计:
概率与概率分布:当无限量由频率成概率。

计量型数据没有点概率,有概率密度(即PDF )计数型数据有点概率
随机变量及其分布:离散:
——二项分布——超几何分布——泊松分布连续
1、正态分布:
用途:1、自然界中大部分现象服从正态分布,
2、多次抽样的样本均值所构成的分布往往近似正态分布(即中心极限定理)
3、其它分布在某种条件下可转化为正态分布。

条件:1、计量型
2、大概率计数型
3、决定参数:μσ
4、学会模拟仿真:数据和图形学图纸:形位方尺
学分布:形状位置阈值尺度路径:图形——概率分布图
1、会求概率P (计数型)
2、会概率密度PDF (计量型)
3、会累计概率密度CDF (计数和计量)
4、分位数Z 或P (计数和计量)已知XZ 求Y (PDF )已知XZ 求CDF (左面积)已知左面积求X 或Z
内容仅供参考。

相关主题