公司业务数据分析问题摘要本文是对公司一季度业务数据分析问题,根据题中所给出的数据,利用SPSS 软件进行相关性统计分析,分别对各业务中指标进行分析,得到各业务之间的关系。
同时通过现有的数据和所建立的模型,给出今后发展提出建议。
针对问题一,在对业务量接近饱和问题,首先采用变异系数法求出各项指标的权重,利用灰色变权聚类法,建立白化权函数,确定聚类权、求出聚类系数,再通过比较聚类系数,得出各个业务属于哪个灰类。
最后得到业务二和业务三的业务量接近饱和。
针对问题二,根据题中所给的数据,通过SPSS软件得到各指标与收入的相关性系数,其中指标5与收入的相关系数为1,知指标五为收入。
在这基础上通过SPSS软件进行相关性统计分析得收入主要和业务一和业务四相关。
针对问题三,考虑各业务之间的相关性及业务相互促进要使得收入增加。
首先利用变异系数法计算出各业务中各指标的权重,综合业务中各指标,再通过SPSS得到各业务之间的相关系数,知业务一与业务二、业务三、业务四相关性强,与业务五相关性弱;业务二与业务三、业务四、业务五相关性弱;业务三与业务四、业务五相关性弱;业务四与业务五呈负相关。
相互促进情况见表六七。
针对问题四,根据现有的数据,先利用BP神经网络预测出了下一个月各业务的发展情况。
为扩大公司的盈利空间以及服务规模,并分析当前的状态给出以后发展的建议:1、推陈出新,使客户选择开通更多业务。
2、加强对各业务的宣传。
季度分析报告见模型的求解。
关键词:业务指标灰色变权聚类法变异系数法 BP神经网络预测一问题重述某互联网公司推出一项服务,此项服务包括5个主要的业务,这5项业务共包含8个指标,某项业务可以含有1个或多个指标,在这8个指标中其中有一个指标是收入。
客户可以根据自己的需要选择开通某些业务,各个业务之间没有强制绑定关系,但是某些业务之间通过相互宣传有一定的促进作用。
附件中是本公司2012年第一季度的数据,包括各个业务的各个指标的数据:指标数据为0,说明该业务还没有这个指标;从0变为正数说明此项业务开始包含新的功能,新功能具有新的指标。
附件中还包括此项服务带来的收入数据。
请你根据各个服务的指标数据和收入数据,完成如下问题:1、其中某些业务的使用量接近饱和,请你建立模型计算哪些业务量接近饱和,饱和的指标估计值是多少;2、根据财务数据,你能判断出哪个指标是收入吗,请你说明收入主要和哪些业务相关;3、请你分析出各个业务之间的相关性,哪几个业务相互促进可以使得收入增加;4、假如你是本服务的项目经理,根据现有的数据和你所建立的模型,给公司总经理写一份季度分析报告,分析当前的状态以及以后发展的建议,如何扩大公司的盈利空间以及服务规模。
二问题分析问题一:因某些业务的使用量接近饱和,要建立模型计算哪些业务量接近饱和,及饱和的指标估计值。
对于饱和度的理解可认为,当业务中的指标趋于一个平缓的趋势时接近饱和,因为若该业务已接近饱和则对该业务的指标控制上不会有太大的变化,反之则应还会有一个较大的波动趋势。
因此可先用变异系数法确定出每个业务中相应指标的权重。
再采用灰色变权聚类分析求解,以饱和及不饱和作为两个灰类,聚类对象为五个业务,而影响业务的指标共有八个可作为聚类指标。
建立白化权函数和彻度函数,再通过聚类权,即可得出各业务是否饱和,及其饱和的估计值。
问题二:根据题中所给的财务数据,为判断哪个指标是收入,从各指标之间的相关性出发,考虑各业务中相同指标与收入的相关性,及各业务中不同指标与收入的相关性,利用SPSS软件分别计算出各指标与收入的相关系数,若指标与收入的相关系数为1,则该指标为收入。
为说明收入主要和哪些业务相关,考虑各业务与收入相关性,同时考虑收入指标、各业务中指标与总收入的相关性,从而确定收入与哪些业务相关。
问题三:要分析出各个业务之间的相关性,对各业务中有1个或多个指标,我们采用变异系数法求出各指标的权重,将业务中多个指标的权重综合成总指标来考虑,通过各业务中总指标之间的相关性来衡量各业务之间的相关性。
要知道哪几个业务相互促进可以使得收入增加,通过Excel对收入进行分析,根据收入在某段时间的波动大小,对收入增加的时间段进行分析,考虑此阶段收入与各业务之间的相关性,从而确定哪些业务相互促进可以使得收入增加。
问题四:根据现有的数据和所建立的模型,分析当前的状态以及以后发展的建议,对如何扩大公司的盈利空间以及服务规模。
首先采用BP神经网络系统法建立模型,预测出下一个月各业务中各指标的发展趋势,及其收入的发展情况,结合当前的状态,为以后发展提出了相关建议。
三符号说明i V :第i 项指标的变异系数;i σ:第i 项指标的标准差; i X :第i 项指标的平均数;i W :各指标的权重;四 模型假设1、假设题中所给的数据是真实的、可靠的;2、假设该公司在今后的发展中不会有特殊情况导致公司倒闭。
五 建模前的准备5.1 BP 神经网络的介绍:BP 神经网络是一种多层前馈神经网络,主要特点是信号前向传递,误差反向传递。
在前想传递中,输入信号从输入层京隐含层逐层处理,直至输出层。
每一层的神经元状态只影响下一层神经元状态。
如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP 神经网络预测输出不断逼近期望输出。
BP 神经网络的拓扑结构如图1所示。
图1 BP 神经网络层次图图1中,12,,,nx x x BP 神经网络的输入值,12,,,ny y y 是BP 神经网络的预测值,固定权ijω和可调权jkω为BP 神经网络权值。
从图可以看出,BP 神经网络可以看成一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量。
当输入节点数为n ,输出节点数为m 时,BP 神经网络就表达了从n 个自变量到m 个因变量的函数映射关系。
BP 神经网络预测钱首先要训练网络,通过训练师网络具有联想记忆和预测能力。
BP 神经网络的训练过程包括以下几个步骤。
步骤1:网络初始化。
根据系统输入输出序列(,)x y 去顶网络输入层节点数n 、隐含层节点数l ,输出层节点数m ,初始化输入层、隐含层和输出层神经元之间的连接权值,初始化隐含层阈值a ,输出层阈值b ,给定学习速率和神经元激励函数。
步骤2:隐含层输出计算。
根据输入向量,输入层和隐含层见链接权值ij ω以及隐含层阈值a ,计算隐含层输出H 。
1()nj ij i j i H f x a ω==-∑ 1,2,,j l =公式中,为隐含层节点数;为隐含层激励函数,该函数有多种形式,我们取:1()1xf x e -=+ 步骤3:输出层输出计算。
根据隐含层输出H ,链接权值jk ω和阈值b ,计算BP 神经网络预测输出O1lk j jk k j O H b ω==-∑ 1,2,,k m =步骤4:误差计算。
根据网络预测输出O 和期望输出Y ,计算网络预测误差e 。
k k k O Y e -= m k ,,2,1 =步骤5:权值更新。
根据网络预测误差e 更新网络连接权值ij ω,jk ω。
∑=-+=mk k jk j j jk jk e i x H H 1)()1(ωηωω l j n i ,,2,1;,,2,1 ==k j jk jk e H ηωω+= m k l j ,,2,1;,,2,1 ==式中,为η学习速率。
步骤6:阈值更新。
根据网络预测误差更新网络节点阈值b a ,。
∑=-+=mk k jk j j j j e H H a a 1)1(ωη l j ,,2,1 =k k k e b b += m k ,,2,1 =步骤7:判断算法迭代是否结束,若没有,返回步骤2。
1.输入层的确定神经网络的输入层起缓冲存储器的作用,其向量的数目相当于所研究问题的独立变量数目。
根据影响收入的几个因素,选定了五个业务的共十三个指标作为输入层。
2.隐含层的确定隐含层神经元代表网络输入与输出之间的非线性程度,对模型的训练速度和预报能力有着重要影响,节点数太少,网络不能很好的学习,精度也受影响。
但神经元个数太多网络容易过拟合。
所以没有统一的理论依据,本文中我们根据Kolmogorov 定理,节点数参考如下公式,确定隐含层神经元个数为5个1l n <-l a2log l n =其中n 为输入层节点数;l 为隐含层节点数,m 为输出层节点数,a 输出层节点数为010之间的常数。
3.输出层的确定输出层神经元的个数取决于系统对网络功能的要求,本模型要实现对收入的预测,故输出变量为收入,即输出层神经元的个数为1。
4. 样本集的确定为完成对机器对数据的学习,首先要为网络提供一组适当数量的可靠样本。
影响收入的因素为五个业务,而业务由于指标有关,因此样本集即为指标数据及收入数据,详细见附表。
5. 数据处理数据处理的目的是为神经网络的推理提供较为准确的参数。
本文我们对数据做归一化处理。
为避免由于输入变量单位不同、绝对值相差很大对神经网络模型的影响,需要对输入输出参数进行归一化处理。
本模型的BP 网络采用premnmx 函数对其进行归一化,使得各节点的值在[-1,1]之间。
6.网络学习BP 网络学习的目的就是要获得最终的权值矩阵。
归一化后的数据即可作为可靠性样本进行训练,本文中使用train 函数进行训练,经过数次训练后得出训练图2(见附表)六 模型的建立与求解6.1问题一的建立和求解: 6.1.1模型一的建立:首先,该问要求业务使用量的饱和度,对于饱和度的理解可认为,当业务中的指标趋于一个平缓的趋势时接近饱和,因为若该业务已接近饱和则对该业务的指标控制上不会有太大的变化,反之没饱和则应还会有一个较大的波动趋势。
因此可采用灰色聚类分析,以饱和及不饱和作为两个灰类,聚类对象为五个业务,而影响每个业务有八个指标。
假设ij x 为第i 个对象的第j 类指标的权重。
对于权重的确定,因饱和度用波动程度来衡量,则可采用变异系数法来确定。
各项指标的变异系数公式如下:(1,2)jj V x n xσ==式中:j V 是第j 项指标的变异系数、也称为标准差系数;j σ是第j 项指标的标准差;j x 是第j 项指标的平均数。
各项指标的权重为:1jj njj V W V==∑设有n 个聚类对象,m 个聚类指标,s 个不同灰类,根据第,(1,2)i i n =对象关于,(1,2)j j n =指标的样本值(1,2,1,2)ij x i n j n ==将第i 个对象归入第(1,2)k k s =个灰类之中,称为灰色聚类。
若白化权函数()k j f ⊗无第一转折点)1(k j x 和第二个转折点)2(kj x ,即如图2所示,则称()k j f ⊗为下限测度白化权函数,记为)]4(),3(,,[kj k j k j x x f --。