当前位置:文档之家› 基于人口统计的大数据融合算法

基于人口统计的大数据融合算法

基于人口统计多源数据融合算法的提出
目录
一、算法需求背景 (1)
二、D-S算法简介 (2)
三、算法过程简述 (2)
(一) 先确定证据框架 (2)
(二) 基本概率分配 (3)
(三) 计算信任函数 (3)
(四) 似然函数 (4)
(五) 证据合成 (4)
(六) 计算扩样系数 (5)
(七) 计算扩样结果 (6)
一、算法需求背景
目前公司在人口统计算法上已逐步形成系列,但算法在地理区域适应性上易体现出精度不高的现象。

目前的做法是按照统计区域,做出不同的扩样策略。

这将导致在每个区域需要大量专业人力去做扩样策略,为了提高算法的精确度以及减少算法人员的重复人力消耗,从而提出人口统计的多源融合算法。

如果该算法经过验证,该算法是公司将要开发的SaaS平台中动态模型引擎里重要的一环。

人口统计多源数据融合算法可以融合包括影响精度的所有因素,如:地理环境、城市类型、城市等级、城市周边、面积、年鉴、人口结构等等。

传统的算法是将影响精度的因素或因素所含的因子,按照策略赋以权值,然后在利用组合规则进行n-1 次的上层统计学算法得出结果。

该方法在因素的可信度上难以有一个较精确的权值,并且对因素的“环境”变化无法动态分析。

人口统计应该是用一个概率区间而不是单一概率数值去建模不确定性。

所以有了下面的构思。

二、D-S算法简介
1、D-S证据理论源于20世纪60年代Dempster在多值映射方面的工作,从本质上讲,属于人工智能的范畴,它由于具有处理不确定性的能力以及在工程上表现出来的实用性能,近年来在不确定推理多传感器信息融合、模式识别、不确定信息决策等领域得到了广泛的应用。


2、基于D-S证据理论算法,与概率推理等理论相比,D-S证据理论在不确定性的度量上更灵活,推理机制更简洁,尤其对于未知的处理更接近于人的自然思维习惯。

该理论的核心超越了概率统计推断的理论框架,可以适应于专家系统、人工智能、模式识别和系统决策等领域的实际问题,而且此理论很快发展成了智能学习和多源信息融合的重要组成部分。

该算法理论经过多年的发展,在智能交通、医学、航空、人工智能科学等应用广泛。

3、D-S合成规则的标准化过程中,因为证据因素过多,证据之间容易产生大量冲突,比如有些低可信度的证据往往却是真命题。

这也是该算法相比于其它算法不同的地方,冲突证据合成一直是D-S证据理论所关注的重要问题之一。

距离(每多个证据之间的距离)法解决证据之间的冲突是多年来国内外研究的结果,经过多年的演变,也有多个不同的版本。

三、算法过程简述
(一) 先确定证据框架
算法假定有一个影响模型数据精度的证据框架,该证据框架可以是用字母Θ表示的因素集合,该集合是一个具有互斥和可穷举元素的集合:
Θ= { θ1 , θ2 , …, θn }
其中:θ1 可以表示城市等级因子的子集合,θ2可以表示城市类型因子的子集合,θn 可以表示城市地理划分因子的子集合:
θ1 = { 一线, 新一线 , 二线,三线,四线,五线 };
θ2 = { 超大, 特大 , 大 , 中 , 小,建制区县,建制镇 };
θ3 = { 工业,商业,港口,文化,旅游,政治,经济,宗教,综合 };
θ3 = { 长江三角洲,珠江三角洲,闽南金三角洲 };
……
θ n = { 沿海, 内陆 , 边陲 }。

注意,上述集合中的因子都是互斥的,假定 θn 是一个有限集合,且其因子在集合内是连续变量。

(二) 基本概率分配
在贝叶斯理论中,后验概率随着证据而改变是所需要的。

同样地,在D-S 理论中,关于证据的信任也可以改变。

在D-S 理论中,习惯上把证据的信任度类似于物理对象的质量去考虑,即证据的质量(Mass )支持了一个信任。

关于质量这一术语也被称为基本概率分配。

基本概率分配,简称BPA 。

在证据框架Θ上的BPA 是一个2 Θ→[0, 1]的函数m ,称为mass 函数。

并且满足
m(∅) = 0 且 (1)
这里的m(A ) 就称为A 的基本概率分配函数,其中m(A) ≥ 0,它表示对命题A 的精确信任度。

(三) 计算信任函数
在证据框架Θ内,m 为Θ的基本概率分配函数,定义函数: ()1
A m A ⊆Θ=∑
� bel ∶2Θ →�0,1�bel (AA )= ∑m (B )(∀A ∈2Θ)
B ∈ AA (2)
为Θ的信任函数。

A 的信任函数可以表示为其自己成员的BPA 之和。

其中bel(A ) 称为事件A 的信任值,表示了证据对A 为真的信任度。

(四) 似然函数
仅仅依靠一个事件A 的信任函数来描述证据因素的信任程度是不够的,因为bel(A)还不能反映出客观事实对A 的怀疑度。

为了描述对A 的信任度, 从而引入似然函数,通过似然函数来描述对集合为非假的信任度。

(3)
在证据理论中,对于识别框架Θ 中的某个假设A ,根据基本概率分配BPA 分别计算出关于该假设的信任函数Bel(A)和似然函数Pl(A)组成信任区间[Bel(A), Pl(A)],用以表示对某个假设的确认程度。

(五) 证据合成
对于∀A ∈Θ,Θ上的有限个mass 函数m1, m2, … , m n 的合成规则:
(n )(AA )=1KK ∑m 1(A 1)∙m 2(A 2)∙∙∙m n (A n )A 1∩A 2∩…∩A n
其中K 为归一常数:
…………………………(4) 1111221122()()()1()()()n n n n A A n n A A K m A m A m A m A m A m A ≠∅=∅
=⋅=−⋅∑∑ ()()
B A Pl A m B ≠∅=∑
设m 1,m 2,…,m n 。

是同一识别框架Θ下的n 个证据,|Θ|=N ,2Θ= {A i | i=1,2,…,2N }
定义m1,m2的距离:
dd (mm 1,mm 2)= �(M 1− M 2)T ∙D (M 1− M 2)2⁄ (5)
式(5)中,M i = [ m i (A 1) . m i (A 2) … m i (A 2N )] T , i = 1, 2, … D = (D ij ) 是一个2N x 2N
阶的矩阵, D ij = | A i ∩ A j | / | A i ∪ A j | , i, j = 1,2, … , 2N
D = ………………………………………………………………(6) 其中式(6)就是计算各个证据之间距离,矩阵原始d ij 就是证据i 和 证据 j 之间的距离。

m 1, m 2 的距离计算方法为:
dd (mm 1,mm 2)= �(<MM 1,M 2>)+ <MM 1,MM 2>−2<M 1,M 2>)2⁄ (7)
式(7)中<M 1, M 2> = ∑∑m 1(A i )m 2 (A j )D ij 2N j=12N i=1
证据合成一个主要的步骤是证据之间的距离计算,距离算法可以处理证据之间的冲突,且收敛速度较明显。

其实关于距离的算法还衍生出多种版本,
(六) 计算扩样系数
距离与相似度是一对互反的概念,两个证据体之间的距离越小,它们之间的相似度就越大。

证据冲突将依据证据的相对可信度进行分配,所以新的合成公式定义为:
�m (∅)=0m (A )= ∑∏m j ′1 ≤ j ≤n (A i )∩A i = A 1 + K ′∙ δ(A,m ),A ∈∅, A ≠ ∅ (8)
0 d 12 … d 1n
d 21 0 ... d 2n ⋮ ⋮ 0 ⋮ d n1 d n2 0
其中,式(8)中,
K’ =��m j′
1 ≤ j ≤n (A i)
∩A i= A1 表示修正后证据模型的总冲突。

(七) 计算扩样结果
R = r ∙1KK
其中:R为扩样后的值,r原始为计算值。

相关主题