《概率论与数理统计》大作业题目:对图书馆晚间人员离馆时间的调查研究学院:理学院******柳铄刘振鹏学号:**********16040102101604010614专业班级:理科实验班1603任课教师:***2016年5月12日关键词人员流量、相关关系、回归分析、与时间对应关系、计算机辅助分析。
摘要图书馆是大学内重要的功能性场所,很多人都选择在这里做工作,每天进、出馆人员流量巨大。
这对图书馆的管理工作构成了挑战,能否合理安排工作,使得工作时间内所有人都能方便的进出馆成为一个随之产生的问题,而解决离馆人员流量和时间的相关关系则是解决该问题的关键。
一、问题背景中国石油大学图书馆始建于1953年,当时是北京石油学院图书馆,在清华大学石油工程系图书资料室的基础上建立。
迁校山东后,先后于1980年和1997年两次在东营建馆,2004年在青岛建成本馆,馆舍总面积5万平方米,其中本馆2.9万平方米。
馆藏纸质图书文献244万余册,中外文纸质期刊2000种,电子文献资源总量35TB(截至2011年),年进纸质图书9万册。
作为一个重要的功能性公共场所,很多人都有且有不尽相同的入馆需求,因此就会产生非常大的,且随机性很强的进出馆人数。
在一天中的其他时间,馆内人员都可以自行决定是否需要离馆,而馆内人员的时间安排不尽相同,因此人员流量都不是很大,一般来说不会出现大量人流。
而闭馆则要求馆内人员必须在闭馆时间之前尽快离馆,这样很多人就都会具有离馆需求,离馆走向可能出现大量人流。
因此我们研究的重点就基于此。
二、问题调查考虑到每个人都必须离馆,且离馆时间均是自己决定的,基本上不会互相影响,因此我们推测晚间同学们离馆的时间分布与泊松分布类似。
因此我们将从晚间九点到十点三十分成若干个小区间,而且我们安排了三位同学同时进行统计,将每次结果取平均值,并且连续统计十五天(含周末)。
但我们在先前的两天发现了这样的情况:可以看出在21:40~22:05间出现了趋势的变化,出现了峰值,且远远超过之前所取得的极值。
绘制饼图结果更加明显:因此我们决定将研究的重点放在人员流量发生激增的21:50~22:00这一时段。
并划定每分钟为一个计数点,经过剩余几天的调查得到了以下的数据:如果取得平均数,我们发现趋势会更加明显,可以得图:从图像上可以看出这个分布确实和泊松分布很相像;但仅仅根据视觉上的相像是绝不能就此下结论说这就是泊松分布,这是非常不严谨的做法。
但我们不妨利用这个模型进行一次拟合:(将上面图例的50、51简化为0、1)很明显,这个模型是失败的:除了2~4部分比较接近,其他部分的残差是非常大的,甚至在5以后的部分残差居然变号了,显然需要进行调整。
我们可以发现,2~4部分拟合的效果还是很不错的,表明这个模型可能具有范围内的适用性。
之前我们知道对于光子轨道的能级问题,也不是一个模型就能做到普适性极强。
那么我们不妨利用分段函数对数据进行进一步研究,对于不同的区段利用不同的模型去拟合。
这并不是说数据本身存在问题,因为这些数据毕竟是实地考察的结果,应该具有一定的参考意义。
基于这种情况,我们决定利用尽可能少的几个模型来得出一个尽可能普适的结果:分析元数据图像可知,前半部分图线对应的函数的二次导数是单调递减的,而后半部分则相反,那么我们可以利用两个λ不同的泊松分布模型来完成,利用残差平方和最小的原则来控制是否采用的问题:经计算,当λ=4.90时,e2 =62.19328663取得最小值(在0处的孤立点暂不考虑),作为0~4部分的模型;如图:同理,当λ=4.46时,e2 = 6.540435取得最小值,作为6~10部分的模型;如图:发现5处一直都残差较大,故以5~10为研究区间独立建模。
进行简单拟合后出现以下情况:很明显,这个模型显然没有先前的好。
但这个模型在5附近是很接近原数据的,因此不妨只采用它在4~6的拟合情况。
当λ=1.75时,e2 = 3.874265714取得最小值,作为4~6部分的模型;如图:综合以上的模型,可以得到以下的综合效果图:(实心部分是原数据)滤去不采用的部分可以看出:这个分段拟合的模型还是比较成功的。
因此初步得到一个回归函数:F(X)= 428.8667*4.9x /(x!*e4.9 ) 0≤x<4;290*1.75x /(x!*e1.75 ) 4≤x<6;428.8667*4.46x /(x!*e 4.46 ) 6≤x ≤10;从均值进行一次验证。
基本上可以说,样本方差2S 是2σ的无偏估计,所以可以用样本函数2X T=S n μ-÷求μ的区间估计。
我们知道样本函数T~t (n-1)分布(为方便计算,此处n 为100)。
对于给定的α=0.05,那么置信区间为(n S -X 2÷λ,n S X 2÷+λ)。
查表得λ=1.984,可以算出各个区段μ的置信区间:0≤x<4(43.32,43.74),4≤x<6(69.09144,71.23144),6≤x ≤10(31.60565,31.92565)。
所以我们有95%的把握说这个组合模型基本上是成功的。
为了验证这一模型的真正可靠性,决定进行一次调查验证。
选取非常正常的一个工作日进行预报值检验,可得知结果如下:如果剔除某些离群值(1),求得残差平方和为31.38852466,考虑到随机性事件发生的情况,这个模型运行还是比较成功的。
另外,这里补充说明一下λ的算法:(以0~4区段为例)在计算机上编写程序,利用二分法,计算λ取中点时模型的残差平方和和λ取两个端点时的该值进行比较,取较小的两个取值点作为新的端点,在新区间中再重复以上的过程,为避免陷入死循环,设定当区间长小于0.01时停止取中点,取两端点中该值较小的点的对应λ作为结果使用。
核心部分的代码如下:(输出的p 即为所求λ)#include<stdio.h>#include<math.h>int f1(int x){int i=0,j=1;for(i=0;i<=x;i++)j*=i;return j;}//**阶乘算法**//double f2(double x,int i){double j=1.0;int k;for(k=0;k<=i;k++)j*=x;return j;}//**乘方算法**//main(){double a[5],lp=0.0, rp=0.0;int i,j,k,e,r,l,m,p;a[0]= 18.13333333;a[1]=21.2;a[2]=39;a[3]=61.06666667;a[4]=78;l=0;r=4;m=(l+r)/2;while(abs(l-r)>0.01){for(i=0;i<5;i++)lp+= f2(428.8667*f2(l,i)/(f1(i)*exp(l))-a[i],2);for(i=0;i<5;i++)rp+= f2(428.8667*f2(r,i)/(f1(i)*exp(r))-a[i],2);//**计算残差平方和**// if(rp>lp)//**二分法比较**//{r=m;m=(l+r)/2;p=l;}else{l=m;m=(l+r)/2;p=r;}lp=0.0, rp=0.0;}for(i=0;i<5;i++)lp+= f2(428.8667*f2(l,i)/(f1(i)*exp(l))-a[i],2);for(i=0;i<5;i++)rp+= f2(428.8667*f2(r,i)/(f1(i)*exp(r))-a[i],2);if(rp>lp){p=l;}else{p=r;}printf(“%lf”,p);}三、问题总结各个图表的峰值时间之晚足以体现出石大学子学习的忙碌、刻苦。
然而,猛增的人流量存在安全隐患。
建议同学们合理安排学习时间,尽量不要集中在临近闭馆时离开;建议图书馆将各书库闭馆时间分离,从十点到十点半自下而上逐步关闭各层书库;此外,建议学校修缮南教、南堂等教室的桌椅,安装空调,吸引一部分自习的同学,加快小图书馆修建进程,以减轻图书馆的压力;对于在临近闭馆前不可避免的流量上升,馆方应做好预案,如有拥堵及时疏导,防止发生人员滞留甚至更加严重的安全问题。
在本次数据调查与分析的过程中,我组采取边收集数据边统计分析的方式,深刻体会到样本长度的增加会使模型逐渐趋近契合于总体的现象;及时针对现实情况作出了相应调整,避免了产生大量无研究价值数据的问题。
试想如果未对调查方向及时调整,模型建立将难以进行,后续的工作将无法开展,直至研究失败;求得的回归函数亦表明,现实中数据的规律是可能分段体现的。
能否灵活的调整模型构想,将决定模型是否能最佳性的契合原始数据,甚至决定该模型是否有意义,是否普遍适用。
参考文献王清河,随机数据处理方法,东营:中国石油大学出版社,2011.马知恩,工科数学分析基础,北京:高等教育出版社,2006.何书元,概率论与数理统计,北京:高等教育出版社,2006.。