当前位置:文档之家› 数据挖掘r语言总结报告

数据挖掘r语言总结报告

总结报告课程名称:数据挖掘R语言任课教师:姓名:专业:计算机科学与技术班级:学号:计算机科学与技术学院2018 年 6 月19 日一、数据预处理针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。

必要时还需对原数据集进行统计变换后形成易于分析的形式。

为每条数据添加字段:所属地区。

根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。

首先导入数据:gundata<-read.csv("d:/gun.csv",sep = ",",stringsAsFactors = FALSE,header = TRUE,quote=””)然后将需要的字段取出来,在这里取出了一下几个字段:gundata[,c("incident_id","date","state","city_or_county","n_killed","n_injured"," congressional_district","latitude","longitude","state_house_district","state_sen ate_district")]gd <- subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed, n_injured,congressional_district,latitude,longitude,state_house_district,state_s enate_district))然后根据州字段将所有数据划分为四个地区阿拉巴马州Alabama阿拉斯加州Alaska亚利桑那州Arizona阿肯色州Arkansas加利福尼亚州California科罗拉多州Colorado哥伦比亚特区Columbia康涅狄格州Connecticut特拉华州Delaware佛罗里达州Florida佐治亚州Georgia夏威夷州Hawaii爱达荷州Idaho伊利诺州Illinois印弟安纳州Indiana爱荷华州Iowa堪萨斯州Kansas肯塔基州Kentucky路易斯安那州Louisiana缅因州Maine马里兰州Maryland麻塞诸塞州Massachusetts密歇根州Michigan明尼苏达州Minnesota密西西比州Mississippi密苏里州Missour蒙大拿州Montana内布拉斯加州Nebraska内华达州Nevada新罕布希尔州New Hampshire 新泽西州New Jersey新墨西哥州New Mexico纽约州New York北卡罗来纳州North Carolina 北达科他州North Dakota俄亥俄州Ohio奥克拉荷马州Oklahoma俄勒冈州Oregon宾西法尼亚州Pennsyivania罗德岛州Rhode Island南卡罗来纳州South Carolina南达科他州South Dakota田纳西州Tennessee德克萨斯州Texas犹他州Utah佛蒙特州Vermont弗吉尼亚州Virgina华盛顿州Washington西佛吉尼亚州West Virginia威斯康辛州Wisconsin怀俄明州Wyoming东北部Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey中西部Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South Dakota,Nebraska,Kansas,Minnesota,Iowa南部Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,SouthCarolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,T exas,Arkansas,Louisiana西部Iowa,Montana,Wyoming,Nevada,Utah,Colorado,NewMexico,Arizona,Alaska,Washington,Oregon,California,Hawaiifor (i in 1:length(gd[,1])){if (gd[i,3]=="Maine"|gd[i,3]=="New Hampshire"|gd[i,3]=="Vermont"|gd[i,3]=="Massachusetts"|gd[i,3]=="Rhode Island"|gd[i,3]=="Connecticut"|gd[i,3]=="NewYork"|gd[i,3]=="Pennsylvania"|gd[i,3]=="New Jersey"){gd[i,9]="东北部"}else if(gd[i,3]=="Wisconsin"|gd[i,3]=="Michigan"|gd[i,3]=="Illinois"|gd[i,3]=="Ohio "|gd[i,3]=="Indiana"|gd[i,3]=="Missouri"|gd[i,3]=="NorthDakota"|gd[i,3]=="SouthDakota"|gd[i,3]=="Nebraska"|gd[i,3]=="Kansas"|gd[i,3]=="Minnesota"|gd[i,3]=="Iowa"){gd[i,9]="中西部"}else if(gd[i,3]=="Delaware"|gd[i,3]=="Maryland"|gd[i,3]=="District of Columbia"|gd[i,3]=="Virginia"|gd[i,3]=="West Virginia"|gd[i,3]=="North Carolina"|gd[i,3]=="SouthCarolina"|gd[i,3]=="Georgia"|gd[i,3]=="Florida"|gd[i,3]=="Kentucky"|gd[i,3]= ="Tennessee"|gd[i,3]=="Mississippi"|gd[i,3]=="Alabama"|gd[i,3]=="Oklahom a"|gd[i,3]=="Texas"|gd[i,3]=="Arkansas"|gd[i,3]=="Louisiana"){gd[i,9]="南部"}elseif(gd[i,3]=="Iowa"|gd[i,3]=="Montana"|gd[i,3]=="Wyoming"|gd[i,3]=="Neva da"|gd[i,3]=="Utah"|gd[i,3]=="Colorado"|gd[i,3]=="NewMexico"|gd[i,3]=="Arizona"|gd[i,3]=="Alaska"|gd[i,3]=="Washington"|gd[i,3] =="Oregon"|gd[i,3]=="California"|gd[i,3]=="Hawaii"){gd[i,9]="西部"}}然后用fix(gd)将第九列的字段修改为part:最后处理完的数据为以下格式:最后将数据存储下来,备用:write.csv(gd,"f://GunData.csv",s = FALSE) .保存的数据格式如下:共有23w多条数据,其中部分数据有字段为空值,将在后续分析中删除。

二、基本统计分析1)统计各州发生枪支案件的总数。

2)统计各地区发生枪支案件的总数。

3)分析各地区枪支案件的分布特征。

4)按年度统计各州发生枪支案件的数目。

5)分析四大地区的经纬度范围2)推断性统计:选择合适的R函数进行如下假设检验,并得出结论。

1)分析死亡人数与受伤人数间是否具有相关性。

2)分析南部地区的案件数和其他地区的案件数是否具有显著差异。

3)分析死亡人数与案件数是否相关;受伤人数与案件数是否相关。

1、统计各州发生枪支案件的总数。

建立一个table,可以显示出各州的案件数然后绘制一个直方图,显示出各个州的案件数就可以直观的看出各个州的案件数量。

2、统计各地区发生枪支案件的总数:绘制一个条形图,可以直观的看出各个地区的案件总数。

首先建立一个table,counts<-table(gd$part),然后利用画图函数,绘制条形图barplot(counts,main="gunvolience",xlab="part",ylab="num",col=c("red","yellow","green","blue"),ylim = c(0,120000))结果如下图:可以看出南部人数最多,10w+,其次是中西部,东北部和西部的数量差不多。

相关主题