电力行业数据挖掘
特点:事先并不知所研究对象有多少个类别, 根据对象的特征,由算法确定其数目。聚类属 于无监督学习。
作用:对所研究对象更准确的地分类。
规则: 类与类之间的差别应尽可能大,类内的差 别应尽可能小。即“最小化类间的相似性, 最 大化类内的相似性”。
有利可图和无利可图的客户具有哪些特征? 盗电用户具有哪些共同属性? 具有哪些属性的设备生命周期更长? 哪些人群汽车保险中索赔率较高的? 在卫星图片中发现哪些土地具有相同属性的? 那些区域地震可能性较高?
效果说明
87%
85.99%
受小水电负荷影响,由于其随机
性较强,采用单一的方法进行网
供预测往往达不到预期的效果,
因此,进行预测时需要充分考虑
83.64%
80%
数据的完备性及预测方法的适用 性,进行综合预测,以期达到好 的预测效果。
22
陕西省电力公司PMS文本挖掘
智慧数据 财富未来
陕西省电力公司生产管理系统一期 (简称PMS 1.0)已投入使用多年,系统积累了 大量的数据,其中关于设备故障与缺陷信息均是由基层工程师记录的非结构化数据(文 本),公司希望能够从这些海量的文本数据中获取到一些关于设备故障与缺陷的规律, 但却不知如何分析。原因在于文本数据的内容以描述性的非结构化数据,再加上数据 量巨大,传统的统计分析方法难以实现。
数据挖掘
训
算法建模
通过数据挖掘找到函数f(x)
练 数
线性回归
Y=f(x1, x2, x3, xn)
据
集
神经网络
……
测
试
数
据
集通过测试数ຫໍສະໝຸດ 集验证f(x)5数据挖掘算法
智慧数据 财富未来
数据挖掘算法分类 Aprior
ARMA
时序
MA AR
分类
集成学习 机器学习 Logistic回归
贝叶斯网络
决策树
关联
●顾客购买商品时那些经常同时购买? ●用户习惯于同时使用移动公司哪些增值服务? ●哪些故障经常会一起发生? ●哪几种疾病常会相继发生?
●美国麦当劳公司用关联分析方法研究顾客喜好,将
多数顾客喜欢的品种配成套餐,大大增进了销售 额。
●移动公司利用关联规则分析手机用户的习惯,进行
有针对性的业务推荐
● 优惠券的设计,利用关联规则将关联性强的商品
PMS1.0系统
缺陷数据
(输、变、 配)
实验数据
(输、变、 配)
家族缺陷数 据
(输、变、 配)
不良工况数
据
(输、变、
2020/3/16 配)
23
解决方法
智慧数据 财富未来
通过与业务人员的讨论沟通和对PMS的调研,并对数据库进行了认真分 析,确定“家族缺陷识别分析”,“变电运行记录词云图分析”,“厂家可 视化评估”为此次项目实施的三个重点方向。
=0 0
=1 1
=1 1
18
水电负荷预测
智慧数据 财富未来
➢ 六安小水电众多,给电力公司电力负荷预测带来了较大的偏差,并由此造成了电能 大量浪费、电网稳定性降低等问题。因此,选取有效的预测方法,对电网负荷进行精 确预测,减少由此造成的电能浪费、提高电网稳定性就成为了六安电力公司关注的一 个重要问题。
的建模,模型描述因变量与自变量间相互作用 机理与变化规律 (如变压器故障与油中气体成 分的关系)。
障碍:建模中,近似是必须的(不准确性);太
复杂,无从下手(建不了模)。
●数据建模
x1
y1
y 是离散的,如{-1,1},{0,1,2}为分类问题
x2
黑箱
y2
…
…
y 是连续值如温度,速度等为回归问题
xN
yN
采用文本挖掘技术。首先将非结构化的文本数据转化成结构化的可分
析的数据,进而在采用数据挖掘算法对文本数据进行分析。
24
成果—— 变电运行记录词云图分析
故 障
1000
记
录 400
条
数0
智慧数据 财富未来
结果验证
(1)2009、2010年接地故 障最为突出,2011年接地故 障大幅减低。
接地刀闸类缺陷数量
说明:不同情况 下负荷曲线形状 与发电出力之间 的差别相当明显
说明:小降雨量 对小水电发电负 荷影响不明显, 且延迟效应明
降雨对小水电发电负荷显的。影响
总体解决思路 网供负荷
小水电发电负荷
全社会用电负荷
小水电专用预测 方法
小水电通用预测 方法
小水电通用预测 方法
说明:
需历史数据
网供负荷预测方 法
各阶段预测 结果
智慧数据 财富未来
机理模型 基于物理定律、化学公式等基本理 论建立工程问题的数学模型—— 如:万有引力定律,卡门-钱定律 等。
数据挖掘模型 从数据中发现变量之间的函数关 系、规则、模式等。基本原理:把 研究对象作为黑箱,仅研究输入输出关系(反映系统论的观点)。
机理不明确 无法建立数学公式
环境因素 地域因素 …
多远线性回归预测方法
修正预测
最大 聚标类幺分析方法
两次筛选相似日
负荷 曲线
相似日加权平均
降雨量 偏差
预测结果调整
单一方法网供 负荷预测
加权平均方法
组合优化预测
21
预测效果
智慧数据 财富未来
➢ 采用该方法对浙江某地区2008年8月份的网供负荷数据进行了预测,预测精度由原 来的83.4%提升到85.99%。
12
目录
智慧数据 财富未来
第一章 数据挖掘基础知识 第二章 电力行业应用案例 第三章 数据挖掘咨询过程
13
变压器故障诊断
计划检修存在的不足
• 巨大的人力物力消耗 • 频繁的拆卸造成的新隐患 • 频繁的停送电操作 • 库存大量设备造成先期老化 • 造成一定时间段工作量剧增
对设备状态的准确判断是关键
H2
=0
=1
Then 放电故障; (3)If C2H6=0 && H2=0 && C2H4=1
Then 过热故障;
C2H4
1
=0
=1
(4)If C2H6=0 && H2=0 && C2H4=0
&& 总烃=1 Then 放电故障;
总烃
2
(5)If C2H6=0 && H2=0 && C2H4=0&& 总烃=0 Then 放电故障
解决过程
智慧数据 财富未来
➢ 该方法的实施过程包括“全社会用电负荷预测小水电负荷预测网供负荷预测” 三个环节,整体实现过程如下:
全社会用电 负荷预测
小水电负荷 预测
网供负荷 预测
用电负荷 历史数据
回归预测模型
预测全社会 用电负荷
负荷曲线 分解
最大负荷 预测
标幺曲线 预测
指数平滑法一预次测预方测 法 一次筛选相似日
数据挖掘定义
智慧数据 财富未来
数据挖掘( Data Mining,简称:DM ):是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。是知识发现(Knowledge-Discovery in Databases,简称:KDD)中的一个重要步骤。
从时 而间 对序 地列
11
交大美林数据据挖掘平台
智慧数据 财富未来
Pluto是由西安交大美林数据挖掘研究中心推出的一款通用数据挖掘平台,分析企业各类业 务数据,提取有价值的信息,解决企业最迫切需要解决的业务难题。
产品特色:协作、通用、高效、灵活、可视化
产品特色
团队协同,让成员时刻分享研究成果 广泛的数据源支持,实现无缝对接 领先的核心算法,让分析如虎添翼 海量数据高效处理 丰富的图形组件,使分析高度可视化 强大的模型应用集成与算法二次开发
搭配在一起,从而对特定商品促销
典型算法: Aprior算法
• 市场组合分析 • 套装产品分析 • 广告投放组合 •…
7
数据挖掘算法——聚类分析
智慧数据 财富未来
1. 聚类分析(Cluster analysis)
“物以类聚,人以群分”,聚类分析法 (Cluster analysis)是研究如何将考察对象按 照一定的规则分成若干类别的方法,它对具有 共同趋势或结构的数据进行分组。
400
347
361
200
163
0 2009
2010
2011
(2)接地刀闸类大修技改投 资。2009较少、2010年大幅 增加2011年持续保持。
含刀闸的大修技改项目投资额
100000 50000 0
15
业务分析
智慧数据 财富未来
1.监测数据都有哪些?质量如 何? 2.数据都是什么含义? 3.数据值的变化趋势意味着什 么?
16
数据理解
智慧数据 财富未来
变压器
检修记录
油中溶解气体
电气试验
绝缘油特性
其他情况
氮气含量
乙炔含量
甲烷含量 氢气产生 速率
乙烯产生 速率
甲烷产生 速率
绝缘电阻
油中微水
吸收比
六安市小水电众多
对电力负荷预测产生较大的影响
二者表现出 较大的偏差
预测值 实际值
六安市
2020/3/16
19
问题分析
智慧数据 财富未来
➢ 影响电力负荷预测精度的因素较多,如地理、气象以及小水电等,其中小水电发电 负荷的强不确定性对多小水电地区的负荷预测的准确率的影响尤其明显。因此在对网 供负荷预测中,对小水电的发电负荷预测就极为重要。我们采用两阶段还原预测方法 精度得到明显提高。