广义线性模型与汽车保险费率厘定胡三明西南财经大学保险学院【摘要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。
【关键词】广义线性模型分类费率厘定一、导论对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。
对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。
最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。
广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。
如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。
广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。
二、广义线性模型(一)、线性模型一个传统的线性模型具有如下形式:'i iy xβε=+i其中iy是响应变量的第i次观测,ix是协变量,表示第i 次观测数据,未知系数向量β通过对数据iy的最小二乘拟合估计出来。
假定εi是均值为零,方差为常数的独立正态随机变量。
对于一般的线性回归模型(LM)'i iy xβε=+i可以分解为三个要素:LM1:随机要素,即Y服从正态分布,()iE yμ=;LM2:系统要素,'ixηβ=;LM3:连接要素,ημ=;(二)、广义线性模型尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题:(1) 将数据分布假设为正态分布并不合理;(2) 当数据的均值被限制在一定的范围内时,传统的线性模型就不适用了,因为线性预测值'ixβ可以取任意值;(3) 假定数据的方差对于所有观测都是一个常数并不现实。
广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。
一个广义线性模型包括以下组成部分:GLM1:随机要素,Y 服从比正态分布更一般的分布,即指数族分布;GLM2:系统要素同LM2,即保持线性结构; GLM3:连接要素,()g ημ=其中g 为严格单调可微的函数,称为连接函数。
GLM 的通常表述如下:()1i i ij j i j E Y g X μβξ-⎛⎫==+ ⎪⎝⎭∑()()i i iV Var Y φμω=其中:i Y :响应变量向量;()g x :连接函数;ij X :自变量矩阵;j β:待估计的参数向量;i ξ:干扰项向量;φ:方差函数()V x 的散布参数;()V x :方差函数;i ω:信度或权重;i Y 、ij X 、iω和i ξ依赖于对已知数据的处理,()g x 和()V x 则根据事先设定的模型得出,而φ或为已知,或为估计值。
1、指数族分布设Y 为随机变量,若其密度函数为:()()()();;exp ,y b f y c y a θθθφφφ⎧⎫⎛⎫-⎪⎪=+ ⎪⎨⎬ ⎪⎪⎪⎝⎭⎩⎭其中a( )、b( )、c( )为已知函数,θ称为典型参数,φ称为散度参数。
由Y 的对数似然可以计算得:()()'E y b μθ== ()()()''Var y a b φθ=Y 的方差是()b θ的二阶导数与()a φ的积,()b θ只依赖于典型参数,因而只依赖于μ,所以,一般记()b θ的二阶导数为()V μ,并称()V μ为方差函数。
此外,一般取() a φφω=,ω称为权数。
对于一个指数族分布,当()b θ确定后其分布形式即确定了,所以只要方差函数V 确定了,对应的指数族的形式(如果存在)也就确定了。
常见的几种分布都属于指数族,如下所示:表一、常见指数族分布参数表2、连接函数连接函数是用来描述系统要素与随机要素期望值之间关系的函数形式。
作为连接函数必须严格单调且充分光滑,即有足够阶数的导数。
()()()()exp ,i i i Y i y b f y c y a θθφφ⎧⎫-⎪⎪=+⎨⎬⎪⎪⎩⎭()()()()()()()()11'1'1exp ,i i i y b g b b g c y a ηηφφ----⎧⎫-⎪⎪=+⎨⎬⎪⎪⎩⎭(由于:()()()1'1bg θηη--==)当θη=时,上式可以简化为()()()exp ,i i i y b c y a ηηφφ⎧⎫-⎪⎪+⎨⎬⎪⎪⎩⎭我们称之为自然连接函数,其最重要的优点在于它使广义线性模型下统计推断的大样本理论变得更易于处理。
当然,实际处理过程中,连接函数的选取主要取决于问题本身。
3、参数估计设1y ,2y ,…,n y 独立同分布,服从指数族分布:()()()();;exp ,i i i i y b f y c y a θθθφφφ⎧⎫⎛⎫-⎪⎪=+ ⎪⎨⎬ ⎪⎪⎪⎝⎭⎩⎭则(1y ,2y ,…,n y )的对数似然函数为:()()()(),,i i i y b L c y a θθβφφφ⎧⎫⎛⎫-⎪⎪=+ ⎪⎨⎬ ⎪⎪⎪⎝⎭⎩⎭∑ ()()()0,i i i i ii i iii i y b l c y a θθθμηφβθφμηβ⎧⎫⎛⎫-∂∂∂∂∂⎪⎪==+ ⎪⎨⎬ ⎪∂∂∂∂∂⎪⎪⎝⎭⎩⎭∑由于:()()()()()()'''''''1111...i i i i i i i i i i i i i i i i i i i p ip ijib b b g g g x x x μθμθθθμθημημμμημηηβββ∂∂=⇒=⇒=∂∂∂∂=⇒=⇒=∂∂∂=++⇒=∂ 则:()()()()'''11i j ij j i i iy lx a b g μβφθμ-∂=∂∑ ()()()'11...jijijjj j p jp y x V g x x ωμμββ=-++∑4、假设检验同一般回归分析一样,广义线性模型的选择以及解释变量的显著性检验问题都可化为线性假设检验:原假设0:H 0C βα= 备择假设1:H0C βα≠,其中0β为P 维, C 为已知的r ×p 行满秩常数矩阵。
(1)、Wald 检验 检验统计量为:()()()1'1'n n n n C C C C ωβαβα-Λ-=-Λ-这里,n β为0β的极大似然估计,n Λ为()()0COV s β的估计。
当原假设成立时,即0C βα=,带入n ωΛ,得:()()()()1'1'00n n nn C C CC ωββββ-Λ-=-Λ-于是()2nr ωχΛ,因此,当n ωΛ>()2r αχ时,拒绝原假设。
(2)、约束检验以n β记为原假设0C βα=约束条件下的MLE(极大似然估计)。
构建统计量:()()()'1n n n n n u s s βββ-=Λ 当u 大于某个常数时,拒绝原假设。
此检验的直观背景如下:因为()0n s β=,若原假设成立,则n β和n β均为0β的估计,理应比较接近,因此,()()0n n s s ββ≈=,这时u 取很小的值。
反之,u 取较大的值。
可以证明,当原假设成立,且满足一定的条件时,有:()2nu r χ,n →∞因此,上文所提及的常数可取()2r αχ,()0,1α∈ 为给定的置信水平。
(3)、拟似然比检验以()n l β记为对数似然函数,则n β和n β分别为0β的不受任何约束的MLE 以及受到原假设约束的MLE 。
检验统计量为:()()()2n n n n n l λββ=-因为()n n l β为()n l β的最大值,总有n λ>0。
若原假设成立,则n β和n β均为0β的相合估计,理应比较接近,n λ倾向于小;反之,n λ倾向于大。
可以证明,当原假设成立,有:()2nu r χ因此,上文所提及的常数可取n λ>()2r αχ为检验的否定域。
()0,1α∈ 为给定的置信水平。
三、应用探讨1、数据情况说明下表是某保险公司汽车保险的历史理赔资料①,从表中我们不难看出,影响该公司汽车保险费用的因素主要有三类,分别是:被保险人的年龄、车型和车龄。
其中被保险人的年龄又细分为17-20、21-24、25-29、30-34、35-39、40-49、50-59和60+八类;车型具体可分为A、B、C和D四种;车龄同样也分为0-3、4-7、8-9和10+四个类别。
①数据来源于《广义线性模型于保费点数计价系统》,统计研究,2002年第6期,毛泽春、刘锦萼2、模型选择我们运用SAS 的Genmod 程序对上述数据构建广义线性模型,分别用正态(Normal )分布、伽码(Gamma )分布和逆高斯(Inverse Gaussian )分布,连接函数均为对数连接(LOG )。
不同分布下的拟合优度比较详见下表:从上表我们可以看出,正态分布的总离差最大(拟合优度较差),而逆高斯分布的总离差最小(拟合优度较好),伽码分布居中,但是伽码分布的对数似然值却最大(为-701.01),因此,仅仅从总离差的角度就可以拒绝正态分布。
对于各个参数的显著性检验,我们则通过SAS 软件的Genmod 程序的type1检验得出。
表四——表六分别列出了伽码分布、正态分布和逆高斯分布的tpye1分析结果,其中,伽码分布和正态分布中,所有的参数均能通过显著性检验,但是在逆高斯分布中参数车型未能通过显著性检验(2统计量为7.79,P 值为0.0507),因而,逆高斯分布也被拒绝。
综合上述的总离差分析,选择伽码分布作为最终的拟合分布。