收稿日期:2003205220基金项目:国家高技术研究发展计划项目(86329803205)·作者简介:崔海波(1977-),男,黑龙江庆安人,东北大学博士研究生;赵希男(1960-),男,上海人,东北大学教授,博士生导师·第24卷第11期2003年11月东北大学学报(自然科学版)Journal of Northeastern University (Natural Science )Vol 124,No.11Nov.2003文章编号:100523026(2003)1121100204基于连续时间马尔可夫过程的证券投资策略崔海波,赵希男,梁 好,潘德惠(东北大学工商管理学院,辽宁沈阳 110004)摘 要:在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计·关 键 词:证券投资策略;连续时间马尔可夫过程;转移系数矩阵;报酬;决策中图分类号:F 830.9 文献标识码:A在现实生活中投资者往往在证券市场上多期投资,即投资者在一系列相继的时刻点上作决策,在每个时刻点投资者根据观察到证券的状态,从可选的若干方案中选择一个,将决策付诸实施后,投资者将获得与证券所处状态和采取决策有关的报酬,并影响证券在下一个决策点所处的状态·证券在下一个决策点所处的状态是随机的·在这一新的决策点上,投资者根据所获取的信息,并采取新的决策,如此一步一步进行下去·对于此类问题学者们进行了不同程度的研究[1,2],这些研究都是假设股票价格所处状态间转移概率是时间离散的,在此基础上建立了投资策略模型·事实上在证券市场上,股票价格所处的各种状态是随机的,其在各个状态之间转移概率是时间连续的,因此,本文对连续时间马尔可夫过程证券投资策略问题进行了研究·关于连续时间马尔可夫决策过程国外学者作了大量的工作,如文献[3~5]对折扣准则进行了研究;文献[6~12]对平均准则进行了研究;连续时间马尔可夫过程证券投资策略模型的转移系数矩阵一般来说随时间变化而变化,本文给出了转移系数矩阵计算的一般表达式,并就状态时间间隔服从指数分布情况对转移系数矩阵进行了估计·1 模型假设条件①股票价格变化是随机的,下一时刻股价只与当前时刻股票价格和投资者的买卖决策有关,而与以前时刻的股票价格和投资者的买卖决策无关,即股票价格变化满足马尔可夫性·这样假设是因为时刻t +1的股票价格不仅与t 时刻的股票价格有关,同时也与时刻t 以前的股票价格有关,但可以认为时刻t 时的决策已经用到了时刻t 以前的信息,因此可以假定一步转移速率与以前的历史无关;②股票价格所处的状态有n 种;且各个状态之间转移概率是时间连续的;③投资股票收益是买卖股票差价的收益,不考虑股息收益·这样假设是因为目前上市公司很少或者不派股息,也可以理解将股息收入从新买入股票;④股票价格所处不同状态的时间间隔为随机变量·一般来说股票价格不可能总是保持不变,同一状态可以出现在一个时点,也可以出现在另一个时点,在一段时间间隔为一状态,在另一段时间间隔为另一状态,因此股票价格所处不同状态的时间间隔为随机变量·2 模型的建立因为在时刻t =t 0时,从状态i 转移到状态j 的概率为0,所以由前面假设和泰勒展开知,在时间间隔Δt 内从状态i 转移到状态j 的概率可表示为a ij Δt +o (Δt );a ij 与时间无关,只与状态有关·假设在某时刻t 股票处于状态i 的概率设为πi (t ),在t +Δt 股票处于状态j 的概率设为πj(t +Δt ),则由文献[11]有πj (t +Δt )=πj (t )1-6i ≠ja jiΔt+6i ≠jπi(t )a ijΔt(i ,j =1,2,…,n )·(1)令a jj =-6i ≠jaji,则式(1)可以化为πj (t +Δt )=πj (t )(1+a jj Δt )+6i ≠jπj(t )a ijΔt ·(2)可将式(2)整理为πj (t +Δt )-πj (t )Δt=6ni =1πi(t )aij,(3)令Δt →0,得微分方程组d πj (t )d t=6ni =1πi(t )aij(i ,j =1,2,…,n ),(4)将式(4)表示为矩阵的形式d π(t )d t=π(t )A ·(5)其中,π(t )=[π1(t ),π2(t ),…,πn (t )]表示股票处于各个状态的概率行向量,A =[a ij ]n ×n 表示股票状态的转移系数矩阵;r ii 表示股票处于状态转移到状态以前所有时间内,每单位时间所获得的报酬,r ij i 到状态j (i ≠j )所获得的报酬,连续时间系统要同时考虑两种报酬·V i (t )表示股票从状态i 出发在时间t 内所获得的总期望报酬,则在时间t +Δt 内所获得的总期望报酬表示为[11]V i (t +Δt )=(1-6i ≠ja jiΔt )(r iiΔt +V i (t ))+6i ≠ja ij Δt (r ij +V j (t ))·(6)令q i =r ii +6i ≠jaij r ij,则当Δt →0时,可以将式(6)整理为d V i (t )d t=q i +6nj =1a ij V j (t )(i ,j =1,2,…,n )·(7)以V (t )表示以总期望报酬V i (t )为分量的向量,以q 表示以q i 为分量的获得率向量,则式可用矩阵的形式表示为d V (t )d t=q +AV (t )·(8)投资者寻求的目标是采取一系列的决策,求解满足式(8)的V i (t )的最大值·3 问题的解法将式(8)两边对关于时间t 的函数进行拉氏变换,得到V (s )=1s(s I -A )-1q +(s I -A )-1V (0),(9)而(s I -A )-1=1sS +T (s )·(10)其中,大S 为t →∞极限状态的概率矩阵,T (s )由瞬时部分的拉氏变换组成,将式(10)带入式(9)得到V (s )=1s2Sq +1sT (s )q +1sSV (0)+T (s )V (0)·(11)在式(10)中,1s2Sq 表示大小为Sq 的一个单位升跃;1sT (s )q 是来自单位阶梯和指数衰减的瞬时部分与q 摺积·取式(11)的反拉氏变换,当t →∞时有V (t )=tsq +T (0)q +SV (0)·(12)令g =Sq ,V =T (0)q +SV (0),则式(12)化简为V i (t )=tg i +V i (i =1,2,…,n )·(13)这里,V i 是向量V 的第i 个分量,当t →∞,将式(13)的V i (t )代入方程,得到g i =q i +t6ni =1a ij g j +6nj =1a ij V j ·(14)由于式(14)对很大的t 均成立,可得两组方程6nj =1a ij g j =0,g i =q i +6nj =1a ij V j (i =1,2,…,n )·(15)通过以上的分析得到如下的算法·第一步:取每个状态的最大获利方式作为初始策略k ·第二步:定值运算·利用初始策略k 所确定的a ij 和q i 在每个循环链中,令一个V i 为0,解两组方程6nj =1a ij g j =0,g i =q i +6nj =1a ij V j (i =1,2,…,n )·第三步:策略改进·对每个状态i ,利用已有的策略获利,选择使6nj =1a kij g j 取值最大的k 作为1011第11期 崔海波等:基于连续时间马尔可夫过程的证券投资策略状态i的新决策·假如,6n j=1a k ij g j对于某些k都取最大值,可通过使q ki+6n j=1a k ij V j取值最大的方式来确定k,方式k可作为状态i的新决策·如果新决策与原决策完全相同,则计算停止,否则将q ki, a k ij写成q i,a ij带入定值运算·4 模型说明一般来说股票状态的系数转移矩阵A随时间变化而变化,本文假设股票状态转移的时间间隔为随机变量X,其概率密度函数为P(θ1,θ2,…,θm,x),其中,θ1,θ2,…,θm为参数,则在时间间隔Δt内股票状态转移概率为Y(Δt,θ1,θ2,…,θm)=∫ΔtP(θ1,θ2,…,θm,x)d x,(16)将Y(Δt,θ1,θ2,…,θm)在Δt=0处泰勒展开,有Y(Δt,θ1,θ2,…,θm)=Y(0,θ1,θ2,…,θm)+ Y′Δt(0,θ1,θ2,…,θm)Δt+o(Δt)·(17)由式(16)将式(17)化简为Y(Δt,θ1,θ2,…,θm)=P(θ1,θ2,…,θm,0)Δt+o(Δ)t·(18)用P(^θ1,^θ2,…,^θm,0)作为P(θ1,θ2,…,θm,0)的估计,因此转移概率Y(Δt,θ1,θ2,…,θm)近似表示为Y(Δt,θ1,θ2,…,θm)=P(^θ1,^θ2,…,^θm,0)Δt·(19)即可以得到股票状态转移系数矩阵A= [a ij]n×n,其中,a jj=-6i≠j a ji(i,j=1,2,…,n)·针对具体股票,本文转移系数矩阵确定方法如下:首先确定状态转移时间间隔的分布,比如为指数分布;设股票从状态i转移到状态j的时间间隔为随机变量X ij,它服从指数分布,概率密度为E(X ij),f(x ij)=b ij e-b ij x,x≥00,x<0,其中,b ij为正的常数,设随机变量X ij的数学期望为E(X ij),对指数分布有:E(X ij)=1b ij·x1,x2,…,x N表示股票处于第i,j两个状态的时间间隔的N个采样值,则由数理统计知识,可用 x N=x1+x2+…+x NN 作为总体数学期望E(Xij)的估计值,即^b ij=1 xN ,这样由式(19)知,从状态i在Δt时间内转移到状态j的转移概率可表示为b ijΔt,从而可得股票状态转移系数矩阵A=[a ij]n×n,其中a jj=-6i≠j a ji,a ij≈b ij(i,j=1,2,…,n)·5 结 论在现实中投资者往往进行多期投资,本文提出的基于连续时间马尔可夫过程的证券投资策略模型是以收益期望为准则的多期投资模型,在现实的投资决策过程中具有一定的指导意义·本文不足之处在于没有考虑投资决策过程中的不确定性,这也是需要进一步研究的问题·参考文献:[1]陈云贤·风险2收益决策分析[M]·北京:新华出版社,2001.106-113·(Chen Y X.Risk2benef it decision analysts[M].Beijing:Sinhua Press,2001.106-113.)[2]罗捍东·证券动态投资策略[J]·预测,1999,18(2):53-54·(Luo H D.Securities dynamic Investment strategy[J].Forecasti ng,1999,18(2):53-54.[3]Doshi B T.Continuous time control of Markov processes onan arbitrary state space:discounted rewards[J].A nnS tatist,1996,6(3):1219-1235.[4]Doshi B T.Continuous time control of Markov processes onan arbitrary state space:average return criterion[J].S tochastic Process A ppl,2000,4(1):55-77.[5]Doob J L.S tochastic process[M].New Y ork:John Wiley&Sons.1993.78-82.[6]Leve G D.Federgruen A,Tijms H C.A general Markovdecision method1:model and techniques adv[J].A pplProb,2000,99(8):296-335.[7]Leve G D,Federgrue A,Tijms H C.Ageneral Markovdecision method2:application,adv[J].A ppl Prob,1997,7(8):316-335.[8]Kakumanu P.Conti nuous ti me M arkov decision models withapplications to opti miz ation problem[M].New Y ork:TechRep,1999.57-62.[9]Serfozo R F.An equivalence between continuous and discretetime Markov decision processes[J].A ppl Prob,1999,3(11):616-620.[10]复旦大学编·概率论[M]·北京:人民教育出版社,1979.36-42·(Fudan University.S tatistic[M].Beijing:People EducationPress,1979.36-42.)[11]霍华特R A·动态规划与马尔可夫过程[M]·李为政等译·上海:科学技术出版社,1963.90-102·(Hovard R A.Dynamic plan and M arkov process[M].Translated by Li W Z.Shanghai:Science Technology Press,1963.90-102.)[12]李凯,潘德惠·具有破产概率的马尔可夫股利贴现模型[J]·东北大学学报(自然科学版),2000,21(6):665-668·(Li K,Pan D H.Model of Markov dividend discount withbankruptcy probability[J].Journal of NortheasternU niversity(N at ural Science),2000,21(6):665-668.)2011东北大学学报(自然科学版) 第24卷Policy of Stock Investment Based on the Continuous Markov ProcessCU I Hai 2bo ,ZHA O Xi 2nan ,L IA N G 2hao ,PA N De 2hui(School of Business Administration ,Northeastern University ,Shenyang 110004,China.Corres pondent :ZHAO Xi 2nan ,E 2mail :Masterdzxn @ )Abstract :On the assumption that the transfer 2probability of stock prices changes continuously ,differential equation groups are obtained correspondingly.Then ,taking account of the return on changed stock prices in different states and the stocks return gained in unit time period before state changing ,a gross expectation model of return on stock prices which changed in different states is derived.Further ,an algorithm is got for strategy betterment through a transformation of the model.Meanwhile ,a general expression of transfer 2coefficient matrix is derived with exponential distribution of time intervals given and estimated for specific stock price the changing.K ey w ords :strategy of securities investment ;the continuous Markov process ;transfer 2coefficient matrix ;return ;decision(Received J une 6,2003)待发表文章摘要预报在最优准则下的共轭梯度重建算法李 铮,李长军,邵新慧将最小二乘准则与平滑准则相结合,提出了一个关于SIRT 型CT 代数重建模型的实用的最优准则,根据这一准则推导出相应的代数重建方程·分别应用预优共轭梯度算法和另一种新兴的迭代格式SOR 2like 算法对该方程进行求解·在理论上证明:对任意的迭代初值,预优共轭梯度法的收敛速度至少不低于广义SOR 或SOR 2like 法·在数值实验中,验证了预优共轭梯度算法比SOR 2like 算法具有更好的CT 重建效果和消噪能力·由此导出的预优共轭梯度重建算法提高了CT 代数重建的效率·B 对Zr 2Ti 2Ni 2Cu 2Be 块状非晶合金热稳定性的影响武晓峰,张海峰,杨洪才,胡壮麒利用X 射线衍射(XRD )及差热分析(DSC )等方法研究了添加B 对Zr 2Ti 2Cu 2Ni 2Be 块状非晶合金的形成、结晶及热稳定性的影响·结果表明:在Zr 2Ti 2Cu 2Ni 2Be 合金系中添加B 可明显改变该合金的玻璃转变温度T g ,一次结晶温度T x 及过冷液相区ΔT 等参数·当y (B )≤3%时,B 的添加可使合金保持块状非晶,提高T g 、T x 并扩大过冷液相区,使非晶热稳定性增加;当y (B )≥6%时,B 的添加将诱导大量的粗大Zr 2Cu 及ZrB 2等晶体的析出·由于它们非纳米晶,尺寸较大,形状不规整,不能作为非晶复合材料的增强体·3011第11期 崔海波等:基于连续时间马尔可夫过程的证券投资策略。