当前位置:文档之家› 【CN110046665A】基于孤立森林二分类异常点检测方法、信息数据处理终端【专利】

【CN110046665A】基于孤立森林二分类异常点检测方法、信息数据处理终端【专利】

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910309830.5
(22)申请日 2019.04.17
(71)申请人 成都信息工程大学
地址 610225 四川省成都市西南航空港经
济开发区学府路一段24号
(72)发明人 李孝杰 李俊良 史沧红 吕建成 
吴锡 周激流 刘书樵 张宪 
(74)专利代理机构 北京元本知识产权代理事务
所 11308
代理人 王红霞
(51)Int.Cl.
G06K 9/62(2006.01)
(54)发明名称基于孤立森林二分类异常点检测方法、信息数据处理终端(57)摘要本发明属于通信控制及通信处理技术领域,公开了一种基于孤立森林二分类异常点检测方法、信息数据处理终端;将原始数据集进行初始的静态平均分块,计算块内密度和均值密度;计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;利用节点的递归方法构建孤立森林;对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加与相对应的阈值进行比较。

本发明有效提高异常点检测算法的准确率,能大幅度减少异常检测过程中的实际数据量,节省计算资源,并且提高了异常检测效率;增强了异常检测算法的鲁棒
性。

权利要求书2页 说明书8页 附图4页CN 110046665 A 2019.07.23
C N 110046665
A
1.一种基于孤立森林二分类异常点检测方法,其特征在于,所述基于孤立森林二分类异常点检测方法包括以下步骤:
第一步,将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度;
第二步,计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;
第三步,利用节点的递归方法构建孤立森林;
(1)从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点;
(2)随机指定一个维度,在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
第四步,对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;
第五步,将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较。

2.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第一步将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度具体包括:步骤一,将原始数据集进行初始的静态分块;
(1)根据原始数据集Φ={x1,x2,……,x n},将数据集Φ以一定规模划分成k个子数据
集,将子数据集的下标按顺序标记
为构成子数据集集
合称为基础子数据集,;
(2)将这k个基础子数据集按照分别计算其块内密度,其中密度计算函
数为d c为自定义的距离称为截断距离;再计算出原始数据集Φ的均值密度
将计算出来的块内密度和均值密度结果进行比较
(3)如果则设置对应的子数据集的标签为1,反之亦反。

3.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第二步的计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简具体包括;
(1)对计算出来的所有块内密度数据进行排序,从小到大进行整理;
权 利 要 求 书1/2页
2
CN 110046665 A。

相关主题