当前位置:文档之家› 第一章_R__基础_01_(非参数统计_2015)

第一章_R__基础_01_(非参数统计_2015)


初识R软件(续)
例1.2绘出例1.1中12名学生体重与胸围的散点图和体重的 直方图。 解: Plot(X1,X2) hist(X1) # 绘出体重的直方图 hist(X1, probability = TRUE,main = paste("Histogram of" , "weight"), xlab = "weight") lines(density(X1))
A.2 向量的生成和基本操作
A.2.1 向量的生成
A.2.2 向量的基本操作 A.2.3 向量的运算 A.2.4 向量的逻辑运算
A.2.1 向量的生成/赋值
R软件中最简单的运算是向量赋值,有三种形式:
1 c() 若向量(序列)没有什么规律
> c(10.4,5.6,3.1,6.4,21.7)

尤其是最近20年来,随着信息技术和网络技术的 快速发展, 基于大量数据计算探索数据分布特点的数据分析 方法层出不穷, 成为非参数统计发展的新主题,代表着统计学未 来的方向。 非参数统计自然成为连接统计学、信息学和计算 机科学等交叉研究的桥梁, 共同推动数据分析和信息利用整体地向前发展。
非参数统计
郭广报
序言
统计是一个面向问题解决的、系统收集数据和基于数据 做出回答的过程, 其本质是通过在随机现象中寻找分布规律回答现实问题 的科学过程。 实际问题的复杂性和人类认知的局限性, 造成反映实际问题的数据在问题表示的充分性、代表性 和分布的单一性等方面, 与传统的统计应用要求不相匹配, 于是催生了对数据分布假定宽松的非参数统计的兴起与 发展。
16
R的特点
多领域的统计资源 目前在R网站上约有2400个程序包,涵盖了基础统计学、社会学、经济学、 生态学、空间分析、系统发育分析、生物信息学等诸多方面。 跨平台 R可在多种操作系统下运行,如Windows、MacOS、多种Linux和UNIX等。 命令行驱动
R即时解释,输入命令,即可获得相应的结果。
SPSS:
复杂的用户图形界面,简单易学,但编程十分困难。
Splus:
运行S语言,具有复杂的界面,与R完全兼容,昂贵。
……
19
R的缺点
占用内存
用户需要对命令熟悉
与代码打交道,需要记住常用命令。
运行速度稍慢
20
A.1 R基本概念和操作
A.1.1 R环境
A.1.2 常量 A.1.3 算术运算 A.1.4 赋值
建议安排10课时左右用于学生上机实践。
本书备有丰富的习题,兼有理论推导、方法应用和上
机实践题目。
第1章 R基础 (P297)
R是一种专业统计分析软件, 最早于1995年由Auckland大学统计系的RobertGentleman和
Ross lhaka等研制开发, l997年开始免费公开发布1.0版本。 在短短的10几年时问里,R发展迅速,现己发展到R3.1.3系列 版本。
在这个过程中,用户不仅可能延伸R的基本功能,
而且还可能自创一些特殊问题的统计过程。 R是一种解释性语言,语法与英文的正常语法和其 他程序设计语言的语法表述相似,容易学习,编 写的程序简练,费时较短。
简 史
R语言是从S统计绘图语言演变而来,可看作S的“方言”。 S语言上世纪70年代诞生于贝尔实验室,由Rick Becker, John Chambers, Allan Wilks开发。

而R却克服了这些弱点。
(3)R的语言与S语言非常相似
虽实现方法不同,但兼容性很强。 作为面向对象的语言,R集数据的定义、插入、修改和
函数计算等功能于一体,语言风格统一,可以独立完成 数据分析生命周期的全部活动。 作为标准的统计语言,R几乎集中了所有程序编辑语言 的优秀特点。
用户可以在R中自由地定义各种函数,设计实验, 采集数据,分析得出结论。
矩阵(matrix) 二维的数据表,是数组的一个特例
x <- 1:12 ; dim(x) <- c(3,4)
[,1] [,2] [,3] [,4]
[1,]
[2,] [3,]
1
2 3
4
5 6
7
8 9
10
11 12
31
class
初识R软件
例1.1某学校在体检时测得12名女中学生体重X1(kg)
和胸围X2(cm)资料如下表所示,试计算体重与胸围 的均值与标准差。 表 学生体检资料
求助符


? help()
例子: >3+5 >3-5 >3/5 >3^5 >x=5 >?plot >help(plot)
x<-c(-1,0,2);y<-c(3,8,2)
v<-2*x+y+1;v x*y
x/y
x^2 y^x 5%/%3#(整数除法) 5%%3#(求余数)
y<-factor(x) y
c(3,2)
c(2, “Zibo”)
class
向量(vector) 一系列元素的组合。 如 c(1,2,3); c("a","a","b","b","c") 因子(factor) 因子是一个分类变量,如性别,学号。无法运算。 c(“a”,“a”,“b”,“b”,“c”) c("er","sdf","dim","haha","good")
包含非参数密度估计、 非参数回归 和数据挖掘与机器学习技术等内容。
本书的主要特色是结合R软件讲解非参数统计方法的原 理和应用, 我们的宗旨是塑造有独立专业思考能力, 对所学知识有比较地选择, 并能够使用恰当方法解决实际问题的统计专业人才。 据此,我们在课程设计中, 专门设计了学生在接受知识的过程中对知识的运用和鉴 别能力的训练。
本书可作为统计、经济、管理、生物等
方法的教材, 也可以用作统计研究或从事数据分析的方法的参考书。 本书的先修课程只需具备初等统计学基础。
对统计基础略感陌生的读者,
可以阅读第2章相关内容作为补充。 本书的内容可以安排在一学期54课时内完成,
A.1.1 R环境(Windows下载和安装R)
CRAN: Binaries>Windows>base
R2.11.0下载页面
下载完成后,双击R-2.11.0-win32.exe 开始安装。 一直点击下一步,各选项默认,语言建议选英/中文。
22
R软件主窗口与快捷方式
菜单栏 快捷按钮
控制台 光标:等待输入
R登陆界面(Windows版)
路径: 开始>所有程序>R 2.11.0
24
图 1 R Gui 的File菜单
25
图 2 R Gui 的Edit菜单
26
图 3 R Gui 的Packages菜单
27
图 4 R Gui 的Help菜单
28
A.1.2 常量/元素(class)的类型
对象是由各元素组成的。每个元素,都有自己的数据类型
本书大部分例题都给出R源程序解法示例, 各种理论条件的检验、讨论、分析和比较, 鼓励学生针对数据的特点, 独立编写数据分析程序。 为加强与R的结合,书中图形大部分由R生成, 我们广泛收集了很多领域数据分析实例和应用编 写成本书的例题和习题, 以扩展学生的应用领域,提高学生解决实际问题 的能力。
3 rep() 生成循环序列,若向量(序列)具有较为复杂的规律
>rep(2:5,2) >rep(2:5,rep(2,4))
例1.1 1,生成,22222 2, 1,a,1,a,1,a 3 1*10, 3*20,2*5 解: rep(2,5) rep(c(1,“a”),3)#英文 rep(c(1,3,2),c(10,20,5)) length()#控制长度 rep(c(1,4,6),length=5)

据不完全统计,在欧美等发达国家的著名高等学府,
R不仅是专业学习统计的流行教学软件, 而且已成为从事统计研究的学生和统计研究人员必备
的统计计算工具。
R的主要特点归纳如下:
(1)R是自由免费的专业统计分析软件,拥有强大的面向对象的 开发环境, 可以在UNIX,Windows和MACINTOSH等多种操作系统中运行。
本书是一本专门讲授非参数统计理论和方法的教科书。 内容主要分为两个部分: 传统的非参数统计推断和现代非参数统计方法。 传统的非参数推断内容由单一样本、
两样本及多样本非参数统计估计和假设检验、
分类数据的关联分析方法、 定量数据的相关和回归等内容构成;

现代非参数统计方法部分
学生编号 1 2 3 4 5 6 体重X1 35 40 40 42 37 45 胸围X2 60 74 64 71 72 68 学生编号 7 8 9 10 11 12 体重X1 43 37 44 42 41 39 胸围X2 78 66 70 65 73 75
初识R软件(续)
解:# 输入体重 X1<-c(35, 40, 40, 42, 37, 45, 43, 37, 44, 42, 41, 39) # 计算体重的均值和标准差 mean(X1); sd(X1) # 输入胸围 X2<-c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75) # 计算胸围的均值和标准差 mean(X2); sd(X2); hist(X1) # 绘出体重的直方图 hist(X1, probability = TRUE,main = paste("Histogram of" , "weight"), xlab = "weight") lines(density(X1))
相关主题