第六章 基于核密度估计的上证A 股收益率分析一、模型的相关理论知识(一)问题的提出经济计量研究中常用的是参数估计,即假定经济变量之间具有一定的函数关系,且函数形式是可以确定的,可以写成带参数的形式进行估计,经典的线性回归和非线性回归就属于参数估计方法。
但经济变量之间的关系未必是线性关系或可线性化的非线性关系,而变量之间的真实关系到底是什么又很难确定。
因而当模型及参数的假定与实际背离时,就容易造成模型设定误差。
此时,基于经典假设模型所做出的预测,很难达到预期的效果。
针对该问题,非参数估计方法提供了最佳的解决办法,它使我们能寻找到最精确的非线性系统来描述变量之间的内在关系。
非参数估计的回归函数的形式可以任意,没有任何约束,解释变量和被解释变量的分布也很少限制,因而有较大的适应性,其目的在于放松回归函数形式的限制,为确定或建议回归函数的参数表达式提供有用的工具,从而能在广泛的基础上得出更加带有普遍性的结论。
核估计就是一种非参数估计方法,主要用于对随机变量密度函数进行估计。
(二)核密度估计方法的原理设12,,n x x x 是从具有未知密度函数()f x 的总体中抽出的独立同分布样本,要依据这些样本对每一x 去估计()f x 的值。
密度估计最基本的方法是直方图估计,我们可以从直方图估计导出密度核估计。
作直方图时,先用点{}1ki i a =把直线分成若干小的计数区间。
这样,计数区间的端点与宽度都是固定的。
记i N 为样本点12,,n x x x 落在第i 个计数区间[)1,i i a a +里的个数,则密度函数()f x 在[)1,i i a a +里的函数估计值就取为:ki a x a a a n N x fi i i i i,,1,,)()(ˆ11 =<≤-=++这样的直方图估计结果是阶梯函数,如果对每个x ,各作一个以x 为中点的小计数区间[),x h x h -+, 再对落在该计数区间的样本点计数,设为,N x h (),则密度估计为:(,)ˆ()2N x h fx nh=。
其与直方图不同在于它的计数区间端点划分不是固定的,而是随x 而变,可以自始至终保持x 点在计数区间中间。
不过此时计数区间宽度h 一般是固定的。
如果引进均匀核函数00.5 11()0 x K x -≤<⎧=⎨⎩当其他,则上述变端点计数区间的密度估计可写为: 011ˆ()n i i x x f x K nh h =-⎛⎫= ⎪⎝⎭∑。
后来Parzen(1962)提出,可以将这种核函数形式放宽限制,只须积分为1(最好还为恒正)即可。
这就导出了一般的密度核估计:11ˆ()n i i x x f x K nh h =-⎛⎫= ⎪⎝⎭∑ (6-1) 其中()K •为核函数,h 为窗宽。
另外也可以从经验分布函数导出密度核估计。
经验分布函数121()(,,,)n F x x x x x n=中小于的个数也是一种计数,不过从-∞一直计到x 为止。
利用它表示一个以x 为中心,窗宽为2h 计数区间里的样本点数,于是密度估计为:[]1111ˆ()()()2()()()()2x h ni i x h x x x t f x F x h F x h h dF t K dF t K h h h nh h ++∞=--∞--=+--===∑⎰⎰对核函数形式放宽了,一般来说,要求核函数满足以下条件: ⎪⎪⎩⎪⎪⎨⎧=⋅+∞<+∞<=≥∞→∞+∞-+∞∞-⎰⎰0)(lim )(,)(sup 1)(,0)(2x x K dx x K x K dx x K x K x 对于一般概率密度函数,这些条件是能满足的,所以可以选一个概率密度函数作核函数。
对窗宽h 的要求,显然样本数越多,窗宽应越小,但不能太小,即h 是n 的函数,且lim ()0,lim ()x n h n nh n n →∞→∞==→∞。
在上述要求的核函数及窗宽条件下,密度()f x 的核估计ˆ()fx 是()f x 的渐近无偏估计与一致估计。
(三)几种常用的和函数下面介绍几种常用的核函数:1,均匀核00.5 11()0 x K x -≤<⎧=⎨⎩当其他,2,高斯核)2ex p()2((x )K 2211x -=-π, 3,Epanechnikov 核22()0.75(1)K x x +=-, 4,三角形核3()(1)K x x +=-,5,四次方核22415()((1))16K x x +=-, 6,六次方核33570()((1))81K x x +=-。
通常在大样本的情况下,非参数估计对核函数的选择并不敏感,但是,窗宽h 的选择对估计的效果影响较大。
一般来说,窗宽取得越大,估计的密度函数就越平滑,但偏差可能会较大。
如果选的h 太小,估计的密度曲线和样本拟合得较好,但可能很不光滑,即方差过大。
所以,窗宽的变化不可能既使核估计的偏差减小,同时又使核估计的方差较小。
因此,最佳窗宽的选择标准必须在核估计的偏差和方差之间作一个权衡,即使积分均方误差))(ˆ(x fAMISE 达到最小。
选择h 的方法有许多,比如交错鉴定选择法,直接插入选择法,在各个局部取不同的窗宽,或者估计出一个光滑的窗宽函数)(ˆx h等等1。
⎰⎰+-=-=dx x f Var x f x f E dx x f x f E x fAMISE ))](ˆ())()(ˆ[())()(ˆ())(ˆ(221见于吴喜之.非参数统计[M].中国统计出版社,p188-p189.=⎰+dx x f Var x fBias ))](ˆ()))(ˆ([(2 (6-2) 可以证明,在很一般的正则条件下,使积分均方误差极小化的任何h 取值一51-2由此得到,一般的最佳窗宽选择为51-=cn h (其中c 为常数),通过不断地调整c ,使得所采用的窗宽51-=cn h 的核估计达到满意的估计结果。
h 的两个常见选择为:51059.1-=sn h (6-3)5125.075.0)ˆˆ(785.0--=n q qh (6-4) 其中,n 为样本单位数。
s 为i x 的标准差,25.075.0ˆˆq q-为数据的0.75分位数估计值和0.25分位数估计值之差。
因子1.059实际上就是5134)(,是通过最优性证明得出的,因子0.785是1.059除以1.349得出的,1.349是标准正态分布的四分位数中间跨度。
二、案例分析:基于核密度估计的上证A 股收益率分析(一)案例背景材料中国的股票市场经过二十多年的发展,已经取得了令人瞩目的成就。
在市场参与者各方的共同努力之下,市场日渐走向成熟和完善,对中国股票市场的研究也日渐深入和丰富多彩。
几乎所有的关于市场的学术研究中都会涉及到股票的收益率,而在股票市场,对收益率随机过程的充分认识是做出正确投资决定的基础,因为它提供了有关资产风险的基本信息。
在现代金融经济学中,线性范式一直占据着主导地位,许多经典理论都是以正态分布或对数正态分布为基础建立的。
股市收益率作为反映股票市场波动性的指标,在描述股价行为的经典计量模型中,通常被假定服从正态分布。
但是许多计量金融学家对这一经典假设做了大量的研究并发现,收益率的分布并不服从正态分布这一假设。
事实上,大多数收益率的变化存在很明显的尖峰现象,也就是说相对正态分布而言,在均值附近的数据点特别多。
许多学者认为这只不过是由一些“异常值”所引起,从而在统计分析中将这些“异常值”去掉。
例如,国内学者陶亚民认为,上海股市收益率分布是服从正态分布的,但这却是在剔除了“异常点”的基础上得到的结论。
然而Mandelbrot 认为将这些“异常值”值从数据中去掉是不可取的。
因为“异常值”的出现并不是一种偶然现象,尖峰和厚尾现象几乎是所有股票收益率数据所共有的。
这说明“异常值”本身反映了股票收益率并不服从正态分布这一假定。
陈启欢也通过实证研究的方法得到我国股市收益率分布曲线并不服从正态分布。
因此,在收益率分布非正态的情况下,本案例利用非参数估计中的核密度估计方法来对上证A 股指数收益率的密度进行估计。
(二)数据来源及说明本案例采用wind 资讯公司提供的2005年1月至2009年11月12日期间我国上证A 股日收盘指数,共计1180个观测值为样本,运用密度估计模型来研究股指数收益率波动。
2见于罗素.戴维森,詹姆斯.G .麦金农.计量经济理论和方法[M]上海财经大学出版社.p580-p581.(三)模型建立与估计结果本模型的建立,采用上证A 股指数日收益率1+t R 为变量。
ttt t P P P R -=++11,tP 是第t 日的收盘指数,1+t P 是第t+1日的收盘指数。
另外,本案例的模型估计是通过使用R 软件来实现的。
1、收益率分布的正态性检验本案例利用Shapiro-Wilk (夏皮罗-威尔克)W 统计量对样本作正态性检验。
在R 软件中,函数shapiro.test()提供W 统计量和相应的p 值,当p 值小于某个显著水平α(比如0.05)时,则认为样本不是来自正态分布的总体;否则认为样本是来自正态分布的总体。
在此,假设上证A 股指数收益率服从正态分布,得出的检验结果如下:Shapiro-Wilk normality test data: xW = 0.8, p-value < 2.2e-16从上述结果可以看出,上证A 股指数收益率不服从正态分布。
2、核函数与窗宽的选择由于核函数在核密度估计中不敏感,满足核函数条件的高斯核、均匀核、Ep-anch-nikov 核、Biweight 核的最优性几乎一致(Prakasa Rao,1983)。
因此,本文仅选取高斯核作为核函数进行估计。
对于窗宽的选择,本案例先由(3)式和(4)式分别计算得出1h =0.006376,2h =0.003952。
再在选用高斯核函数的条件下,根据使积分均方误差))(ˆ(x f AMISE 达到最小法则,得到高斯核估计的最优窗宽为1h =0.006376。
(四)非参数估计下的上证A 股指数收益率密度函数的实际应用在核估计的核函数与窗宽都确定后,就可以得到上证A 股指数收益率的核估计密度函数的确定形式:∑=⎥⎥⎦⎤⎢⎢⎣⎡⎪⎭⎫ ⎝⎛--**=n i i x x x f 12006376.021ex p 2006376.011811)(ˆπ (6-5) 在非参数核密度估计的情况下,收益率的期望和方差为:∑∑⎰∑⎰⎰==∞∞-=∞∞-∞∞-=⎪⎪⎭⎫ ⎝⎛-+=⎪⎪⎭⎫ ⎝⎛--==ni i n i i ni i x n dy y x hy n dx h x x x h n dx x f x EX 12112212exp )(2112)(exp 211)(ˆππ (6-6)∑∑⎰⎰==∞∞-∞∞-+=⎪⎪⎭⎫ ⎝⎛--==n i i ni i x n h dx h x x x h n dx x f x X E 12122222212)(exp 211)(ˆ)(π (6-7) []22)()()(X E X E X Var -= (6-8)通过公式(6-6),(6-7),(6-8),可以计算出核估计密度函数的期望与方差,见表1:表1 上证A 股指数收益率非参数估计与实际的收益率的统计特征比较从表1但是方差却不同,核估计的方差比实际数据的方差偏大。