当前位置:文档之家› 全国大学生数学建模竞赛公共自行车服务系统

全国大学生数学建模竞赛公共自行车服务系统

D题公共自行车服务系统公共自行车作为一种低碳、环保、节能、健康的出行方式,正在全国许多城市迅速推广与普及。

在公共自行车服务系统中,自行车租赁的站点位置及各站点自行车锁桩和自行车数量的配置,对系统的运行效率与用户的满意度有重要的影响。

附件1为浙江省温州市鹿城区公共自行车管理中心提供的某20天借车和还车的原始数据,所给站点的地理位置参见附件2(详细信息可以参考温州市鹿城区公共自行车管理中心网站:)。

请你们在搞清楚公共自行车服务模式和使用规则的基础上,根据附件提供的数据,建立数学模型,讨论以下问题:1. 分别统计各站点20天中每天及累计的借车频次和还车频次,并对所有站点按累计的借车频次和还车频次分别给出它们的排序。

另外,试统计分析每次用车时长的分布情况。

2. 试统计20天中各天使用公共自行车的不同借车卡(即借车人)数量,并统计数据中出现过的每张借车卡累计借车次数的分布情况。

3. 找出所有已给站点合计使用公共自行车次数最大的一天,并讨论以下问题:(1)请定义两站点之间的距离,并找出自行车用车的借还车站点之间(非零)最短距离与最长距离。

对借还车是同一站点且使用时间在1分钟以上的借还车情况进行统计。

(2)选择借车频次最高和还车频次最高的站点,分别统计分析其借、还车时刻的分布及用车时长的分布。

(3)找出各站点的借车高峰时段和还车高峰时段,在地图上标注或列表给出高峰时段各站点的借车频次和还车频次,并对具有共同借车高峰时段和还车高峰时段的站点分别进行归类。

4. 请说明上述统计结果携带了哪些有用的信息,由此对目前公共自行车服务系统站点设置和锁桩数量的配置做出评价。

5. 找出公共自行车服务系统的其他运行规律,提出改进建议。

附件1:公共自行车数据(内含20个Excel文件)附件2:公共自行车站点分布图1 问题分析1. 分别统计各站点20天中每天及累计的借车频次和还车频次,并对所有站点按累计的借车频次和还车频次分别给出它们的排序。

另外,试统计分析每次用车时长的分布情况。

分析:把问题1分为3个步骤进行:(1)统计各站点20天中每天及累计的借车频次和还车频次;(2)所有站点按累计的借车频次和还车频次分别给出它们的排序;(3)统计分析每次用车时长的分布情况。

(直方图表示)2. 试统计20天中各天使用公共自行车的不同借车卡(即借车人)数量,并统计数据中出现过的每张借车卡累计借车次数的分布情况。

分析:将问题2分为2个步骤进行:(1)统计20天中各天使用公共自行车的不同借车卡(即借车人)数量;(2)统计数据中出现过的每张借车卡累计借车次数的分布情况(直方图表示)3. 找出所有已给站点合计使用公共自行车次数最大的一天,并讨论以下问题:(1)请定义两站点之间的距离,并找出自行车用车的借还车站点之间(非零)最短距离与最长距离。

对借还车是同一站点且使用时间在1分钟以上的借还车情况进行统计。

(2)选择借车频次最高和还车频次最高的站点,分别统计分析其借、还车时刻的分布及用车时长的分布。

(3)找出各站点的借车高峰时段和还车高峰时段,在地图上标注或列表给出高峰时段各站点的借车频次和还车频次,并对具有共同借车高峰时段和还车高峰时段的站点分别进行归类。

分析:首先通过数据分析找出合计使用公共自行车次数最大的一天。

将问题3分为6个步骤:(1)请定义两站点之间的距离,并找出自行车用车的借还车站点之间(非零)最短距离与最长距离;(2)对借还车是同一站点且使用时间在1分钟以上的借还车情况进行统计;(28min)(3)选择借车频次最高和还车频次最高的站点,分别统计分析其借、还车时刻的分布及用车时长的分布;(4)找出各站点的借车高峰时段和还车高峰时段;在地图上标注或列表给出高峰时段各站点的借车频次和还车频次;对具有共同借车高峰时段和还车高峰时段的站点分别进行归类。

4. 请说明上述统计结果携带了哪些有用的信息,由此对目前公共自行车服务系统站点设置和锁桩数量的配置做出评价。

5. 找出公共自行车服务系统的其他运行规律,提出改进建议。

分析:第4,5小问是根据分析结果提出建议,故不用再进行步骤的详细划分。

通过将原问题细分为每个步骤,有利于加强我们对于问题的理解和模型的构建。

2 基本思路通过对于问题的拆解理解,该问题的解决应该主要分为以下几个模块:(1)数据整理:题目给定的附件的数据多达63多万份,其中不乏有很多无效数据,例如:只有借出时间,没有归还时间;借车时间小于1分钟等。

需要对数据进行预处理,获得对我们有用的数据。

(2)数据分析:问题1,问题2,问题3中有较多的数据分析步骤。

我们对预处理过后的数据针对不同的问题需求进行特定分析获得结果。

(3)针对两站点之间的距离定义,我们根据借还车高峰期不同于普通用车时期。

在高峰时期添加了修正因子对模型进行再处理。

(4)在问题3中,需要我们针对合计使用公共自行车次数最大的一天进行特定分析。

要求找出各个站点借还车高峰时段,对具有共同借车高峰时段和还车高峰时段的站点分别进行归类。

(5)针对问题1,2,3的分析结果提出建议。

3 模型假设1.假设每个时间区间内频数最大的即为高峰时期;2.假设自行车不出现丢失,损坏,不归还等情况;3.假设由于通过数据无法准确获知自行车的行车时间,我们假设自行车一直在行驶;4.假设数据没有出现人为的修改;5.假设除了没有归还时间的系统数据的错误外,没有借车卡错误的情况存在。

6.假设自行车在使用时没有发生故障。

4 数据预处理处理思路:有关数据处理的方法有很多,主要有SPSS,Excel,MATLAB等。

我们借鉴了《城市公共自行车服务系统运行状况和效率分析》中提到的MATLAB 数据导入分析方法,能够得到有效的结果,但是时耗较大,63万的数据量要40分钟左右才能预处理完毕。

基于以上原因,我们采用了SPSS来进行数据分析,能够较为快速有效的得到所需结果。

处理工具:SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件,IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。

SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。

SPSS也有专门的绘图系统,可以根据数据绘制各种图形。

处理方式:先将20天的数据依次导入SPSS文档,将其中跟数字有关的变量数据类型从字符串类型修改为数值类型,便于比较计算。

经过处理过后的数据一共有600291个(附件1)预处理条件:(1)用车时间过短(1分钟以下),删除用车时间在0-1分钟之间的数据;(2)删除只有借车时间,没有还车时间的数据5 模型建立与求解5.1问题1把问题1分为3个步骤进行:1.统计各站点20天中每天及累计的借车频次和还车频次;2.所有站点按累计的借车频次和还车频次分别给出它们的排序;3.统计分析每次用车时长的分布情况。

(直方图表示)5.1.1 每天每站点借还车统计我们将每天预处理过后所得到的数据导入SPSS中,通过分别将借出车站号和还车车站号设置为“频率统计”变量,得到下图,并进行排列:分别统计得到20天中的每天的累计借车频次和还车频次。

结果如下图。

5.1.2 各站点借还车排序我们先将预处理过后的表格合并为一个表。

其后的处理方式与第一步的处理方式相同,统计得到每个站点20天借出的自行车总量。

累计还车频数的处理方式与累计借车频数的处理方法类似。

分别得到20天每个站点的还车,借车的总频次后,导出至Excel。

通过Excel 的排序功能,我们可以自由地设置降序或者是升序排列。

(结果如下图)累计借车数导出至Excel未排序(原始数据图):累计借车数排序(数据处理图):累计还车数导出至Excel未排序(原始数据图):累计还车数排序(数据处理图):5.1.3 用车时长分布通过将预处理数据中的还车时间与用车时间作差得到用车时长(精确到秒)。

统计处理前将用车时长“四舍五入”,便于SPSS进行统计。

将用车时长设置为“频率统计”变量,获得每个时长的用车频次数,导入Excel,按照用车时长进行升序排列。

同时处理数据得到平均值,中位数以及众数(单位:min)。

(结果如下图)通过表格可以得知,低于20分钟的自行车使用数占到了总数的76.9%,而根据中位数,众数,以及平均数的分析,其值也落在这个区间范围内。

可以分析出,该区域的人们出行选择自行车的方式大多为短途。

这样既可以提升出行效率,避开交通堵塞,更能够强身健体,提高生活质量。

5.2问题2将问题2分为2个步骤进行:1.统计20天中各天使用公共自行车的不同借车卡(即借车人)数量;2.统计数据中出现过的每张借车卡累计借车次数的分布情况(直方图表示):5.2.1每天借车卡累计借车数量将预处理过后的20天数据导入SPSS中,依次将“第一天,第二天……”设置为“频率统计”变量,统计每天的不同借车卡出现频次,导入Excel。

(如图所示)。

通过分析表格数据可以得出,20天的平均值大约为15300。

第3,9,10,16天的借车卡数量与平均值相差较远,可能是改天的天气状况较差,不宜骑自行车出行。

第19,20天借车卡数量较多,特别是第20天为数量最多的一天,分析为周末假期出游。

向前推算,第13,14,6,7天也为周末,数据显示的结果与推论结果相符。

5.2.2 每张借车卡累计借车次数分布我们构造一个新的SPSS数据库,将20天所有借车号导入到同一列中,将借车号设置为“频率统计”变量,统计每一个借车号出现的次数。

再导出到Excel 中分析处理。

(如下图)获得的每个借车卡借车次数:将借车次数设置为“频率统计”变量:(统计每个借车次数的频次)由统计结果分析,可以看到,大多数使用次数趋近于20次以内,也就是每天1次。

存在小部分使用次数过多,可能存在使用时长越长,平均时长费用越高等问题。

但这种情况占小部分,属于可控范围内。

我们将每张借车卡使用次数作函数拟合(左端为指数分布的拟合图,右端为正态分布拟合图)通过变量和函数的拟合程度,以及拟合过后的函数偏离程度(指数分布:0.05;正态分布:0.3)可以得出指数分布的置信度为95% 。

可以发现所求变量具有较好的指数分布特性,随着使用次数的增多,出现的概率逐渐降低。

我们再次使用点估计中的最大似然估计来进行分析。

相关主题