当前位置:文档之家› “华为杯”竞赛论文模板

“华为杯”竞赛论文模板

竞赛论文模板Realthought题目降低汽油精制过程中的辛烷值损失模型摘要:本文主要针对汽油辛烷值进行量化分析,依据从催化裂化汽油精制装置采集的325个数据样本(每个数据样本都有354个操作变量),通过降维分析法找到主要变量,并且借助数据挖掘技术来建立汽油辛烷值(RON)损失的预测模型,找出每个样本的优化操作条件,在汽油产品脱硫效果得到有效保证,并且满足产品硫含量不大于5μg/g的前提要求下,尽量降低汽油辛烷值损失在30% 以上。

针对问题1,原始数据采集来自于中石化高桥石化实时数据库(霍尼韦尔PHD)及LIMS 实验数据库,其中操作变量数据来自于实时数据库,特点是变量较多且数据采集时间长,导致数据精确处理难大,特别地会有空值或者是部分为空值,所以首先要对原始数据做一些处理后方可使用。

针对问题2,由于催化裂化汽油精制过程是连续的,虽然操作变量每3 分钟就采样一次,但辛烷值(因变量)的测量比较麻烦,一周仅2次无法对应。

但根据实际情况可以认为辛烷值的测量值是测量时刻前两小时内操作变量的综合效果,因此预处理中取操作变量两小时内的平均值与辛烷值的测量值对应,从367个操作变量中通过降维的方法筛选出建模主要变量,使之尽可能具有独立性、代表性,特别地将原料辛烷值纳入变量,从而找到建模地主变量。

针对问题3,采用上述样本和建模主要变量,将数据分为训练集和测试集,通过深度学习技术进行建模,进而构建深层神经网络并进行模型验证。

针对问题4,为寻找最优操作变量,我们通过构建粒子群算法,找到可接受的最优辛烷值的操作变量参数。

针对问题5,将问题4的过程进行可视化即可。

_关键词:汽油辛烷值;操作变量;分析降维法;深层神经网络;预测模型;操作变量优化;模型可视化展示;粒子群算法。

目录一,问题重述 (2)1、背景叙述 (2)2、数据采集 (3)3、问题解析 (3)3、1问题1,处理数据 (3)3、2问题2,寻找建模主变量 (6)3、3 问题3,建立辛烷值(RON)损失预测模型 (8)3、4 问题4,主要操作变量方案的优化 (9)3、5问题五,模型的可视化展示 (13)二、问题结论 (13)1、问题1、2:数据处理结果 (13)2、问题3,建立辛烷值(RON)损失预测模型 (13)3、问题4、5,操作方案的优化及模型可视化 (13)三、参考文献 (14)一,问题重述1、背景叙述在世界的各个角落,小型车辆的主要燃料是汽油,然而汽油燃烧产生的尾气排放大气中,对大气环境有不可忽略的重要影响。

因此,在各个国家切合本国国情并且日益严格的汽油质量标准相继被拟定出来。

汽油清洁化重点是尽量保持其辛烷值的同时,降低汽油中的硫、烯烃含量。

图1中国作为全球主要石油消费大国之一,其中超过70%原油要依赖进口,且从中东地区进口的大部分原油都不同程度含有较高的硫。

原油中的重油通常占比40-60%,这部分重油(以硫为代表的杂质含量也高)很难充分直接利用。

为了加大重油资源的利用效率,我国大力发展了以催化裂化为核心的重油轻质化工艺技术,以此将重油转化为相对环保的汽油、柴油和低碳烯烃等可使用油。

在我国,由催化裂化生产得到超过70% 的汽油,因此催化裂化汽油提供了成品汽油中95% 以上的硫和烯烃。

因而有必要对催化裂化汽油进行进一步的精制化处理,从而达到对汽油辛烷值达到国家标准或者更优。

辛烷值(以RON表示)是对于汽油燃烧性能最重要的指标,并且汽油的商品牌号(例如89#、92#、95#)以辛烷值作为标准。

然而,现有以催化裂化汽油的方法进行脱硫和降烯烃过程中,汽油辛烷值普遍偏低。

根据目前市场价来计算,每降低1个单位的辛烷值,相当于约150 元/吨的损失。

以一个100 万吨/年催化裂化汽油精制装置为例,若能降低RON损失0.3个单位,其经济效益损失将达到四千五百万元。

一般通过数据关联或机理建模的方法来实现化工过程的建模,虽然已经取得了不错的成果,但是出于炼油工艺过程的复杂性以及设备的多样性的原因,使得它们的操作变量(控制变量)之间有高度非线性和相互强耦联的关系存在,然而传统的数据关联模型中存在变量相对较少存在,使得机理建模对原料的分析要求较高,同时过程优化的响应并不及时,因而并未达到理想的效果。

某石化企业运行了4年催化裂化汽油精制脱硫装置,积累了大量可用的原始数据,有平均为1.37个单位的汽油产品辛烷值损失,然而同类装置的最小损失值仅仅只有0.6个单位,因而优化空间比较大。

本文将探索利用数据挖掘技术来解决化工过程建模问题,通过模型可视化方法,从而达到找出优化汽油辛烷值的目的。

2、数据采集从LIMS实验数据库及中石化高桥石化实时数据库(霍尼韦尔PHD),我们得到大量的原始数据,其中实时数据库为我们提供了大量的操作变量数据,采集时间从2017年4月至2020年5月,时间跨度大约为3年,采集操作位点数共354 个。

从2017 年4月到2019年9月,数据采集频次为3 分钟/次;自2019 年10 月至2020 年5 月,数据采集频次为6 分钟/次。

原料、催化剂和产品数据来源于LIMS的实验数据库,数据时间范围为3年,即从2017 年4 月至2020年5 月。

我们以每周2/次的采集频次,采集到重要的建模变量为原料及产品的辛烷值这两样数据。

3、问题解析3、1问题1,处理数据在原始数据中,大部分变量数据是正常的,但每套装置的数据难免都有部分位点会存在问题,部分变量只含有某时间段的数据,部分变量的数据部分为空值或全部数据为空值。

因此,处理后的原始数据方可以使用,我们对数据进行剔除或者补全两种办法进行预处理。

数据处理方法如下:步骤一:假如325个样本中数据全部为空值的位点,则表明对该问题毫无帮助,古我们只能选择删除。

步骤二:如果某个点位的缺失个数占总数据量的比值达到给定阈值,则将此点位删除。

在此假设下,情况(2)当归属于情况(1)。

根据数据取值范围信息,绝大部分操作变量取值范围不包含0 值,但亦有个别操作变量可取0值。

有鉴于此,我们假定,如果某个操作变量随时间的变化量取0值的个数占总量的比值也超过给定阈值,就把该操作变量当作不可置信的数据;另外,如果某个点位超出范围的数据个数占总数据量的比值达到给定阈值,则认为该点位置信度较差,将其删除。

此外,对于缺失值,我们也可以用缺失值比率的方法进行量化。

该方法基本的思想就是基于包含太多缺失值的数据列,则该数列包含有用信息的可能性也就应当越低。

所以,我们可以去掉数据缺失值大于某个阈值的列。

阈值越大,降维方法效果更佳。

一般地,数据缺失值大于90%的时候,我们可以考虑把这列去掉。

在某些特定的行业如信用评分建模时,我们可以考虑把缺失值大于90%的变量设置成特殊规则,这里我们考虑使用pandas 包的dropna 方法。

步骤三:对于部分数据为空值的位点,这里我们可以利用前后面的数值,然后用拉格朗日插值法,给空值位点赋值。

这里我们介绍一下拉格朗日值法在处理操作变量上的应用:命题1:假设有函数 是互不相等的一系列点这里的为有限个数列我们将称为关于的一阶差商(也称均差),可以记为即j i j i j i x x x f x f x x f --=)()(],[。

下面的式子,我们称为一阶差商的差商,即为)(x f 关于k j i x x x ,,的二阶差商,记为],,[k j i x x x f 。

一般地,称是)(x f 关于k x x x ,...,,10的k 阶差商。

定义了差商之后,我们发现了如下性质,有点像对称矩阵:此时我们要开始对公式进行预测,发现一阶是线性插值,然后可以逐次往高阶迭代。

线性插值表示为:称为一次Newton公式。

一般地,由各阶差商的定义,我们可的把以上式子从下往上依次带入,我们就得到一下多项式,。

这样我们就可以得到插值多项式和误差函数,及插值多项式为误差函数为步骤四:根据质量要求与操制经验,原始数据变量的操作范围需要被提取出来,然后采用最大最小的限幅方法找出一部分不在此范围的样本,然后予以剔除,具体操作就是如果某个点位超出范围的数据个数占总数据量的比值达到给定阈值,则认为该点位置信度较差,将其删除。

步骤五;去除异常值,我们用拉依达准则(3σ准则)。

具体操作如下:首先对被测量的数据进行处理,这里我们用精准测量的方法。

得到n x x x ,...,,21,把它们的算术平均值算出来,将i x x -=i v 作为剩余误差,并且σ由贝塞尔公式算出。

如果某个位点的剩余误差b v 与其测量值b x 达到σ3||||≥-=b b x x v 的条件,则认为b x 是含有较大误差,视为不好的值,应将其删除,或者用平均值代替。

贝塞尔公式如下:。

3、2问题2,寻找建模主变量由于催化裂化汽油精制过程是连续的,虽然操作变量每3 分钟就采样一次,但辛烷值(因变量)的测量比较麻烦,一周仅能完成至多完成两次测量。

但根据实际情况可以认为辛烷值的测量值是测量时刻前两小时内操作变量的综合效果,因此预处理中取操作变量两小时内的平均值与辛烷值的测量值对应这样产生了325个样本。

建立降低辛烷值损失模型涉及包括7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等变量以及另外354个操作变量(共计367个变量),工程技术应用中经常使用先降维后建模的方法,这有利于忽略次要因素,发现并分析影响模型的主要变量与因素。

因此,根据提供的325个样本数据,通过降维的方法从367个操作变量中筛选出建模主要变量,使之尽可能具有 独立性 、代表性,为了工程应用方便,建议降维后的主要变量会控制在在30 个以下,并且将原料的辛烷值作为建模变量之一。

PCA 主成分分析方法可以实现把数据降维到30个维度以内,然后用回归分析的方法,进行曲线拟合,虽然能实现降维处理,但有可能拟合效果较差。

因此我们用数据挖掘技术,采用最小冗余最大相关(mRMR ) 这种滤波特征选择方法使之能够达到选择30 个以内的特征的目的。

这里我们将介绍mRMR 的基本原理。

有一种常用的特征选择方法就是分类变量与最大化特征之间的相关度,就是选择与分类变量拥有最高相关度的前k 个变量,然而,在特征选择中,单个好的特征的组合不能达到增加分类器的性能的目的,原因是有可能特征之间是高度相关的,这就导致了特征变量的冗余。

这就是Peng et.al 说的“the m best features are not the best m features ”。

因而找到一种实现最小化特征与特征之间的相关性或者最大化特征与分类变量之间的相关性的方法显得尤为重要,诞生mRMR 的背景就是如此。

互信息:假设y x ,为随机变量,然后给出他们的概率密度因变量为),(),(),(y x p y p x P ,则互信息为mRMR 的目的就是找出含有m 个特征子集的S 。

相关主题