概率与测度学习
样本空间就是{死亡,存活}。
要写四个字,很罗嗦。会占掉每日写字份额的。
可以说这个情况相当严重了,那么怎么办?把“死亡”,"存活"给数值化。
比如说{0,1}。只占2个字节,好开森~
总之呢,引入随机变量,就是为了将试验结果数值化
数值化之后又能干嘛呢?函数啊~~~会用excel不?别人一个一个改可能要改一天。你函数一用,瞬间秒杀。不仅如此,老板还特别高兴,因为你做得又快又好。
这个现象成功引起了注意,于是人们就会进行试验。(就比如说重复扔硬币的试验)
具有这种特性的试验,我们称之为随机试验。在概率论中,我们要研究随机现象,是通过大量的随机试,都有两个结果:‘正面’‘反面’
预先知道了所有结果,而且结果数量有两个
对,没错,这个人扔了两万四千次
简单起见,把sigma(X)理解成随机变量X所包含的所有信息就好。
随机变量生成的 代数,指的是一组特殊事件组成的集合:这些事件是否发生,可以通过随机变量的取值明确判断出来。举个例子吧。比如今天可能下雨也可能不下,下雨时随机变量X=1,反之X=0。然而,下不下雨只是“今天”的一个属性,其它属性,比如我早饭吃的是火腿还是培根,也是全世界所包含的信息的一部分。假设整个概率空间由下面这些元素组成:
感觉上和什么松下,井上,差不多...想想还是中文名有讲究。
degenerate(退化)分布
那么开头举的那个鱼塘例子,里面鱼的存活情况满足什么分布呢?
二项分布很常用:比如说抛硬币
4的超几何分布是不是特别眼熟?就是概率论基础1中提到的“古典概型离不开排列组合”中提到的例子。
泊松分布适合于描述单位时间内随机事件发生的次数。(由二项式推导而来)
如果回忆起随机变量自身就是一个函数,以ω表示随机变量x(t)的定义域中的一点,并以x(t,ω)表示随机变量在ω的值,则随机过程就由刚才定义的点偶(t,ω)的函数以及概率的分配完全确定。
如何理解 由随机变量X生成的σ代数?
概率空间就是所有像素的集合,X就是每个像素点的颜色。
如果你能精确地定位每个点,那么你就能知道它的颜色。
[火腿,下雨]:概率0.25,X = 1
[火腿,不下雨]:概率0.25,X = 0
[培根,下雨]:概率0.25,X = 1
[培根,不下雨]:概率0.25,X = 0
这时,X生成的 代数包括下面三个非空集合:
{X = 1} = {[火腿,下雨],[培根,下雨]}
{X = 0} = {[火腿,不下雨],[培根,不下雨]}
概率与测度学习
要学习概率论,首先先得了解各个基础的概念才行。
其实概率论,尤其是古典概型,并不难。
难度提升是在引入微积分之后。需要会解定积分双重积分。如果明白积分的意义,可以更好地理解概率论的研究。
之后还会分成不同的研究方向,比如说数理统计,又或者说随机过程。这都是一些专业课程的基础。
进入正题
一般来讲,一个学科都是从现象入手的。
贝叶斯公式就是乘法公式/全概率公式
有点矩阵相乘的那种感觉。
重复独立试验:
研究“在同样条件下重复试验”的数学模型
例如: 投n个硬币或进行n次有放回摸球。
特别的,当每次试验只有两个可能结果时,称为n重伯努利试验
概率论-随机变量
当样本空间中,元素不是一个数的时候,研究起来很不方便。
就比如说想研究鱼塘里鱼存活的概率。
具体地说,概率的公理化定义指定了一个三元组(Ω,F,P),称为一个概率空间。其中Ω是样本空间,F是事件域,P是定义域为F、值域为[0,1]的一个集合函数,满足非负性、规范性、可列可加性三个条件。
直观理解,样本空间Ω是试验前已经预知的一切可能结果的取值范围,事件域F规定了哪些Ω的子集能够称作“事件”(从而避免产生不可测集导致的悖论,实际应用中经常采用的事件域是Borel点集),满足三条概率公理的集合函数P指定了每个事件对应的概率。
有试验就有试验结果。
我们把每种结果放在一个集合里面,称之为样本空间Ω【不是每个!是种!
每个结果放在一个集合里面,那个集合叫做统计总体】
样本空间中的每一个元素称为样本点ω(也就是每种结果)
Ω里的子集称为随机事件,简称事件,由ω组成
Ω全集称为必然事件
Ø空集称为不可能事件
设A为事件。
可测空间(Ω,F)的定义。
ξ念作阔c。至少知道人家叫什么才能更进一步了解人家嘛!(狂收好人卡的人装作很懂的样子)
正如概率论-基础概念1中所提到的,这是个映射的想法。把集合中的结果一一对应到实数集里面。
这个概念很重要,学算法的时候是躲不开的。而且也不难理解,一般都是自己设的。
比如说扔骰子。1点就设成ξ(1点)=1,以此类推。有些疯狂的同学可能觉得,这体现不出自己的水平,要设成ξ(1点)=4821812。emmmm.......
【σ代数F是Ω的所有子集的集合(也就是幂集)的一个子集。】
F里面其实就放着Ω里的各个ω的各种组合,这么讲应该好理解一些。数学嘛!要严谨一点!
这边注意一下:A1,A2...是互不相容,而不是互相独立(之后会碰到的)
因为F是个集合,定义在集合上的函数也叫做集函数。其实就是映射。
概率空间的定义(引自360百科)
离散变量的分布函数比较简单(可以自行列一张表格出来,比画图的可读性要高一些)
至于这些性质的证明,那是数学系的事情了。
下面是各种分布。
其中2,3,6之前在概率论基础2中提到过。
4在概率论基础1中提到过。
重点看新的Poisson分布(泊松)
Poisson在法语里面其实是鱼的意思。在巴黎的7号线就有一站叫做Poissonier(卖鱼的)
无法定义概率的事件(其本质是“不可测集”)。在定义概率时,我们很自然地希望概率满足“可加性”。也就是说,如果一些事件是互斥的,那么“它们之中有一个发生”的概率应该等于其中每个事件发生的概率的和。然而,对于不可数的样本空间,如果选全部的子集作为事件的话,我们总会遇到一些子集,无论怎样为他们定义概率,都不满足“可加性”
因此,“事件”也不能随意指定。对于不可数的样本空间来说,如果把它的一切子集都作为事件,我们会在定义概率时遇到很大的困难(主要由“不可测集”导致)。
但另一方面,我们又必须把实际问题中感兴趣的事件都包括进来。至少,我们应该保证能在这些事件中作基本的交、并、逆等运算。设F是样本空间Ω的一些子集构成的集族,如果它包含全集和空集,且对子集的可数交、可数并和取补运算都封闭,我们就称F为一个事件域。F中的元素称为事件,Ω称为必然事件,空集称为不可能事件。
{X = 0或1} = {[火腿,不下雨],[培根,不下雨],[火腿,下雨],[培根,下雨]}
可见不管X=1还是0,我都既有可能吃火腿,也有可能吃培根;从X的取值里,你得不到任何关于我早饭吃了什么的信息。因此“早饭吃培根”这一事件,就被排除在X生成的 代数之外了。
早饭吃培根 = {{培根,下雨},{培根,不下雨}},不属于X生成的 代数。
然后再是事件概率关系运算的一些基础性质。
一共分成两个部分,关系和运算。
先说关系:
相等、相交、包含、互不相容、互斥
运算有:
和事件、差事件、积事件、对立事件
运算律有:
交换律、结合律、分配率、对偶律
全概率公式:其实就是和事件与乘法公式的结合。Bc就是B的互逆事件。
P(A)=P(AB1)+P(AB2)+....+P(AB6)
当试验的次数趋于无穷大,而乘积np固定时,二项分布收敛于泊松分布
不理解没关系,看浙大的那本概率论书。有个例子挺好。
次品率0.1%或者说X服从 =0.1%*1000的泊松分布,求1000产品至少2只次品的概率。
自己算一下就明白了
挡n>20,p<0.05时效果更好。
念作(埃塔)
用在xxx首次发生。
根据情况选用不同的模型。
这里可以构成多个随机变量,比如随机变量X(获得的两个骰子的点数和)或者随机变量Y(获得的两个骰子的点数差),随机变量X可以有11个整数值,而随机变量Y只有6个。
然而这些模型还不足以研究一个系统,于是就有了随机过程
随机过程是概率空间(Ω, F, P)上的一族随机变量{ X ( t) , t∈ T} ,其中t是参数,它属于某个指标集T , T称为参数集.
分布函数被定义为F(x)=P(X<x)
很多人会在这里感觉奇怪,明明说随机变量是一个函数为什么,这里写X<x,这不是不合逻辑吗,而且P(A)表示的是集合A发生的概率,可X<x分明不是集合
当初我也在这里懵逼了好久,看到知乎上一个大佬的回复才恍然大悟,原来P(X<x)是P({ω:X(ω)≤x})的一种简写,而{ω:X(ω)≤x}又是F中的一个元素(其中ω∈Ω),这下才把所有矛盾说通了
连续性随机变量
这里就要牵涉到定积分计算的问题了。
以上这几个式子很重要。尤其是P转成F形式的含义。以后要用到的。如果理解积分表示面积,画图更好理解。F(b)就是负无穷到b点的面积。
显然,在这里我们需要利用到定积分计算。
有一点要提醒一下 (不难理解吧?概率最大就是1嘛)
以下是常用分布:
描述只与子长度有关,而与位置无关的情况。比如电阻的分布
第一项Ω是一个非空集合,有时称作"样本空间"。Ω的集合元素称作"样本输出",可写作ω。
第二项F是样本空间Ω的幂集的一个非空子集。F的集合元素称为事件Σ。事件Σ是样本空间Ω的子集。集合F必须是一个σ-代数:
(Ω,F)合起来称为可测空间。事件就是样本输出的集合,在此集合上可定义其概率。
第三项P称为概率,或者概率测度。这是一个从集合F到实数域R的函数,P : F → R。每个事件都被此函数赋予一个0和1之间的概率值。P必须是一个测度,且P(Ω)=1。
简而言之,概率空间(Ω, F, P)Ω是全体样本点的集合,样本点是一个随机事件E可能的结果,F是Ω的幂集的一个非空子集且是一个σ-代数,P是一个函数,定义域是F,值域是R(R是全体实数构成的集合)