当前位置：文档之家› 基于基站定位数据的商圈分析上机报告

基于基站定位数据的商圈分析上机报告

基于基站定位数据的商圈分析上机报告————————————————————————————————作者：————————————————————————————————日期：基于基站定位数据的商圈分析上机报告1数据读取及其标准化ｓｅtｗd("E:/数据处理＂)Data=reａd.csｖ（＂.／buｓｉnesｓ＿circｌe.csv",headｅr=Ｔ,encoding=＇uｔf-8') colnａmeｓ(Ｄaｔa)=c("numｂeｒ","ｘ1","x2＂,"x3","x４")attach(Daｔa）y1=(x1-miｎ(ｘ1）)/（ｍax(x1)-mｉn(ｘ１)）y2＝(ｘ2－min（x2）)/(ｍａx（x2)－min(x2)）y３=（x3－mｉn（x３)）／（max(ｘ３)-ｍｉn(x３）)y4＝（ｘ４－mｉｎ(x4))／(mａx(x４)-min(x４))ｓtandａrdiｚｅd=ｄata.frａme（Data[,１]，y1,y2,ｙ３，y４）wrｉｔe.ｃsv(stａnｄarｄized,"./ｓtａndardｉzedData．csv",row．nａmes＝TＲUE）2 模型构建２.1层次聚类library(gｇpｌｏt２）Data=read.cｓｖ(＂./standardｉzeｄDaｔａ.csv＂,hｅaｄer=F)Data1=daｔａ.fｒame(ｙ1，y2，y3,ｙ4)ａttach（Ｄaｔa1）dist=dist(Data1，method＝'ｅｕclidｅａn'）hc1<-hcｌust(diｓt,"warｄ．D2")ploｔ（hc1)pｌｏｔ（hc1,haｎg=－１)＃分成三类re1＜-reｃt.hclｕsｔ(hc１，k=3, ｂorder="purplｅ") #＃对构建好的谱系聚类图进行分类，这里分三类a=ｒe1[[2]]##列表名[[下标]]b=re1[[3]]ｃ=re1[[１］]#商圈类别1maｔriｘ＝Daｔa1［ａ,] ＃# 137个观测值、４个变量d＜-ｄｉm(matrix）##１37 4ｙ<-as.ｎumｅｒｉc(t(mａtrix）) # t(）：矩阵转置,这里转换成数字向量roｗ<-ｆacｔｏr（rep(1:d［1],ｅach=ｄ[2]）)x＜-rep(１：d[2］，ｔimｅｓ＝d[1])data＜-data.frame(y=y,ｘ=ｘ,ｒow＝row)View(dａta)ｇｇplot(daｔa=data,ａes(x=x，y=y,grouｐ=ｒoｗ)）+ｇeｏm_ｌｉne(）+ｓcale_x_continuous(breａｋs=c（1,２，3,4), lａbｅlｓ=c(＂工作日人均停留时间＂，＂凌晨人均停留时间", "周末人均停留时间"，＂日均人流量"))+ｌabs(title="商圈类别１",x="",y="")#商圈类别2matrｉx=Ｄaｔa1[b,]d<-diｍ(maｔｒix)y<－as．nｕmeriｃ(t（mａｔrix))row<-ｆａctoｒ(reｐ（1:ｄ[1］,ｅaｃh=d［2]))x<-rep(１:d[2］，tiｍes＝d[1])data<-data.frame(y=y，ｘ＝ｘ,ｒoｗ=row)ggｐｌot(data=daｔa，aes(x=x，y=ｙ,group=row)）+ｇeom＿ｌｉne()+sｃalｅ_ｘ＿continuｏus(bｒｅａｋs＝c(1,2,３,4), labelｓ＝ｃ("工作日人均停留时间", "凌晨人均停留时间", "周末人均停留时间","日均人流量"))＋labs(tｉtle="商圈类别２＂,x="＂,ｙ=""）#商圈类别3matrｉx=Ｄａta1［c,]d<-dim(ｍatrｉx）＃#148 4ｙ＜-as.nｕmerｉｃ(t(ｍaｔriｘ）)row＜-factor（ｒep（１：ｄ［1],ｅaｃh＝d[2］))ｘ<－rep(1：d[2],ｔimes=d[1]）data＜-data.fｒame(y=y,ｘ=x,row=row)gｇplot(ｄata=ｄａta,ａes(x=ｘ,y＝y,groｕp=ｒow））+geom＿lｉne（)＋scale_x_ｃonｔiｎｕｏus(ｂreakｓ=c(1,2，３,4)，ｌabels=ｃ("工作日人均停留时间＂, "凌晨人均停留时间"，"周末人均停留时间＂,"日均人流量"）)+ｌａbs(tｉｔle＝"商圈类别3",x="＂,ｙ＝"＂)2.2 K-meaｎｓ聚类setwｄ("Ｅ:/数据处理"）Data＝read．csｖ(＂．／business＿circｌｅ.ｃsｖ",hｅaｄeｒ=Ｔ,ｅｎcｏding='ｕtf-8')km=kmｅans(Ｄata,ceｎｔeｒ=3)ｐrｉnt(km)#数据分组aaa＝data.framｅ(Data，km＄cluster)Dａta１=Data［wｈich(aａa＄ｋm.cluｓteｒ==1）,］Data2=Data[whiｃh(aaａ$ｋm．cluｓter==２）,]Daｔa3=Daｔａ[whiｃh(aaa$ｋm.clustｅr=＝3),]＃商圈1的概率密度函数图ｐar(mfroｗ＝c(2,2))##公共参数列表ｐar#设置布局ｐｌoｔ(ｄensiｔy（Ｄatａ1［，1]),ｃｏl="rｅｄ",maｉn＝"工作日人均停留时间"）ｐlｏｔ（ｄensity(Dａｔa1[,2]),ｃｏｌ="ｒｅｄ",main="凌晨人均停留时间＂) pｌot(ｄensｉty(Ｄａta１[,３]),coｌ="rｅd",mａin=＂周末人均停留时间")plot(density(Data1[,4]),col="rｅd",main="日均人流量")#商圈２的概率密度函数图paｒ（ｍfrow=ｃ（２,2））plｏt(ｄｅｎｓiｔy(Data２[,1]),cｏl="purple",maｉn=＂工作日人均停留时间＂) plot（dｅnｓiｔｙ(Data2[，2])，ｃol="purpｌe",maｉn=＂凌晨人均停留时间") plot(densiｔｙ（Ｄata2［,3］）,ｃol＝"ｐｕrple",main="周末人均停留时间")plot(ｄｅnｓｉｔy（Dａtａ2［,4]),cｏl="ｐurｐｌe"，main＝"日均人流量")#商圈3的概率密度函数图pａr(mfrow=c(2,2))ｐlｏt（density(Data3[,1]）,ｃol="blue"，main=＂工作日人均停留时间＂)pｌot(deｎsｉtｙ（Datａ3［,2］）,cｏl=＂ｂlue",main="凌晨人均停留时间＂) pｌoｔ(deｎsity(Dａta3［,３])，coｌ="ｂlue＂,ｍaｉn＝"周末人均停留时间") ploｔ(densitｙ(Dａta3[，4]),coｌ="ｂluｅ",main＝＂日均人流量")３总结３.1数据标准化的方法及使用离差标准化原因1.数据标准化方法数据的标准化（normalizatｉｏn）是将数据按比例缩放，使之落入一个小的特定区间。

在某些比较和评价的指标处理中经常会用到,去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

其中最典型的就是数据的归一化处理，即将数据统一映射到[０，1］区间上，常见的数据归一化的方法有：1)ｍｉn-maｘ标准化(Min-maｘnｏrmaｌizａtｉoｎ）也叫离差标准化，是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。

这种方法有一个缺陷就是当有新数据加入时,可能导致max和mｉn的变化，需要重新定义。

2)log函数转换通过以10为底的loｇ函数转换的方法同样可以实现归一下，具体方法如下:3)aｔaｎ函数转换用反正切函数也可以实现数据的归一化:使用这个方法需要注意的是如果想映射的区间为[０,1],则数据都应该大于等于０,小于0的数据将被映射到[－1，0]区间上。

而并非所有数据标准化的结果都映射到[0，1]区间上,也有一些非归一化的方法，如下：4)z－ｓｃｏre 标准化（zerｏ－meaｎnormａlizａｔion）也叫标准差标准化，是SＰSS中最为常用的标准化方法:经过处理的数据符合标准正态分布，即均值为0，标准差为１，其转化函数为：其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

5)Decimal scalｉnｇ小数定标标准化这种方法通过移动数据的小数点位置来进行标准化。

小数点移动多少位取决于属性A的取值中的最大绝对值。

将属性A的原始值ｘ使用decimaｌｓcaling 标准化到x'的计算方法是:x'＝ｘ/（1０*ｊ)其中,j是满足条件的最小整数。

例如:假定A的值由-９86到９1７，A的最大绝对值为9８6,为使用小数定标标准化,我们用1０0０(即,j=3)除以每个值，这样，-986被规范化为-0.98６。

2.使用离差标准化原因数据标准化处理后，原始数据均可以转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析,但是离差标准化是最常用最简单的一种方式3．２构建层次聚类模型时,可以调节哪些参数，对模型有何影响１.层次聚类1)计算变量之间的距离代码为：ｄist.r = dist(ｄata, method=”“)其中mｅtｈod包括6种方法，表示不同的距离测度:”ｅucｌiｄeａｎ”，“ｍaxｉmum”, “maｎhａttaｎ”,“cａnberra”，“binary” or “minkowｓki”，分别表示欧几里德距离,切比雪夫距离,绝对值距离,Laｎce 距离，明科夫斯基距离，定性变量距离。

e商务文档

基于基站定位数据的商圈分析上机报告

相关文档推荐：