数学建模案例乳腺癌问题模型
类别
B B B M B B B B B B B B B B B M B M
病例号
91979701 919812 921092 921362 921385 921386 921644 922296 922297 922576 922577 922840 923169 923465 923748 923780 924084 924342
本文构造的模型具有良好的稳定性,对于模式识别问题具有很强的实用价值,最后本文提出了神经网络 和模糊数学深层次结合的方向.
一. 问题的重述
乳房癌通过穿刺采样进行分析可以确定其为良性或恶性.医学研究发现乳房肿瘤病灶组织的细胞显 微图像的 10 个量化特征:细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对 称度,断裂度与该肿瘤的性质有密切关系.现有 500 个已确诊病例,每个病例的一组数据包括采样组织 中各细胞核的这十个特征量的平均值,标准差和“最坏值”(各特征的 3 个最大特征的平均值)共 30 个 数据.根据这 500 组数据建立诊断模型,并将其用于另外 69 名已做穿刺采样的患者.为节省费用发展 一种只用此 30 个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性的方法.
类别
B M B M B B B B B M B B M B B B M M
病例号
917062 917080 917092 91762702 91789 917896 917897 91805 91813701 91813702 918192 918465 91858 91903901 91903902 91930402 919537 919555
类别
B B B M B B B B B B B B B B B M B M
病例号
91979701 919812 921092 921362 921385 921386 921644 922296 922297 922576 922577 922840 923169 923465 923748 923780 924084 924342
五. 神经模糊系统模型
从映射角度看,模糊系统和神经网络都具有(非线性)函数近似的能力.它们有着以下的共同之处: (1)它们均可以从给定的系统输入/输出信号(数据)中,建立系统的(非线性)输入/输出关系.
(2) 从数据处理的形式上看,它们均采用并行处理的结构. 但是,模糊系统和神经网络有着明显的不同之处.神经网络虽然对环境的变化具有较强的自适应学 习能力,但是从系统建模的角度而言,它采用的是典型的黑箱型的学习模式.因此当学习完成后,神经 网络所获得的输入/输出关系无法用容易被人接受的方式表示出来.相反,模糊系统是建立在被人容易 接受的“如果-则”表达方法之上,但如何自动生成和调整隶属度函数和模糊规则,则是一个很棘手的 问题.因此,将模糊理论和神经网络有机结合起来,取长补短,提高整个系统的学习能力和表达能力, 是目前这一领域最受人注目的课题之一.
为了避免量纲的影响,在应用数据之前对数据经行了标准化.标准化方法:用每个数据与整体均值 的差除以整体标准差.
四. 模型的建立与求解
(一)神经网络模型 学习向量量化(LVQ)是在监督状态下对竞争层进行训练的一种学习算法.LVQ 网络由一个竞争层和
一个线性层组成.竞争层的神经元将输入向量分成组,由现行层组合到期望的类中.在任何给定的时刻,
Accept factor:
0.6
Reject ratio:
0.15
神经网络采用前向的 BP 网络,神经元的传递函数为 Sigmoid 函数,输出层采用线性函数.网络结
构如下图所示:
由于系统的结构比较复杂,用 30 维的数据进行训练十分缓慢,只用了前面已提取出的 6 个特征对 系统进行了训练,得到了神经模糊系统.用后 100 组数据进行检验,诊断正确率达 96%.
然后对这 500 个特征向量进行了回归分析,从 30 个特征中筛选出了 6 个特征,它们分别是:细胞核直径 均值、标准差和最坏值、紧密度的均值、面积的最坏值、周长的均值.并将以上 6 个特征用于 LVQ 网络,诊 断正确率达 95%.
进一步考虑到神经网络与模糊数学各自的特点,将二者有机结合构造了神经模糊系统,并用以上的 6 个 特征对系统进行训练,诊断正确率达 96%.
病例号
914862 91504 91505 915143 915186 9151276 91544001 91544002
二. 问题的假设
1.所给的 500 组病例具有广泛的代表性. 2.500 组病例所反映的良性与恶性的概率分布符合病例的自然分布.
三. 问题的分析
本问题是一个典型的模式识别问题,要求根据它的特征量来进行分类. 对于模式识别问题,现今有两类解决办法.一类是传统的线性模型.另一类是近年来发展起来的非 线性模型.本题是一个典型的非线性问题,用传统的线性模型解决有一定的困难,而且识别率不高.所 以非线性模型是解决此类问题的首选.现今常用的非线性模型有神经网络模型和模糊系统模型. 神经网络由许多并行运算的简单单元组成,单个神经元的结构及其简单,但大量神经元相互连接组 成人工神经元网络显示出人脑的某些特征: 1) 分布存储和容错性; 2) 大规模并行处理; 3) 自学习、自组织和自适应性; 4) 它并不是各单元行为的简单相加,而表现出一般复杂非线性动态系统的特性. 神经元可以处理一些环境信息十分复杂、知识背景不清楚和推理规则不明确的问题,如乳房癌诊断问题.
类别
B B B B B B B B B B B B B B B B B B
病例号
924632 924934 924964 925236 925277 925291 925292 925311 925622 926125 926424 926682 926954 927241 92751
类别
B B B B B B B B M M M M M M B
乳房癌的诊断模型
马 壮 于翠影 张宏硕
指导教师:王镁
(内蒙古大学,呼和浩特 010021)
摘要 本文对乳房癌的诊断问题,应用神经网络与模糊数学的理论,给出了几种乳房癌的量化诊断方案.
首先,建立了 LVQ 神经网络模型,使用 500 组数据的前 400 组作为训练样本,用后 100 组数据对网络性 能进行检测,诊断正确率达 98%.
� x
k
时,具有权向量W
T j
与
� x
k
最近的元将获得竞争的胜利.若元
N
j
竞争获胜,将
权值作如下调整
( ) ∆W
T j
=η
� x
k
−
W
T j
(1)
使获胜者的权向量向输入向量移近一小段距离,这使网络在遇到
� x
k
或与
� x
k
接近的模式时,元
N
j
可
以有更大的获胜可能性.若 N j 在竞争中失败,将权值作如下调整
[模糊系统的存在定理] 给定任意连续函数 f : U n → R 和任意 ε > 0 ,存在由(1)式定义的 g(x)
使
.
神经网络和模糊系统各自本身就是一个非线性的输入/输出映射,因此模糊系统可以用一等家的神经网
ቤተ መጻሕፍቲ ባይዱ
络来表示,同样,神经网络也可以用一等价的模糊系统来表示.
基于神经网络的模糊系统:
模糊系统采用高木-管野(Takagi-Sugeno Model)(简称 TS 模型):
类别
B B B M B B B B B M B B B B B B M M
病例号
917062 917080 917092 91762702 91789 917896 917897 91805 91813701 91813702 918192 918465 91858 91903901 91903902 91930402 919537 919555
� S j = xW j
若元 N j 获胜,就意味着
{ } �
�
xW j
= max k∈{1,2,⋯,m}
xWk
若连接到每个输出层神经元的权向量 WkT = (W1k ,W2k ,⋯,Wmk ) 都是规范化的,上式等价于
{ } x�
−
W
T j
= min k∈{1,2,⋯,m}
x� − WkT
网络输入模式为
( ) ∆W
T j
= −η
� x
k
−
W
T j
(2)
使权向离开样品的方向移动,这样就减小了错误分类的机会.在(1)、(2)式中,η 表示学习率.
2
在本模型中取η 为 0.01,取隐竞争层的神经元数为 60,取输出层神经元数为 2,并规定输出(0,1)
为良性,输出(1,0)为恶性.用前 400 组数据作训练样本,经过 15000 次迭代,两类样本的聚类情况 如下图:
用后 100 组数据对训练进行检测,诊断正确率达 98%.对 69 组待定病例的诊断结果如下表:
病例号
914862 91504 91505 915143 915186 9151276 91544001 91544002 915452 915460 91550 915664 915691 915940 91594602 916221 916799 916838
类别
B B B B B B B B B B B B B B B B B B
病例号
924632 924934 924964 925236 925277 925291 925292 925311 925622 926125 926424 926682 926954 927241 92751
类别
B B B B B B B B M M M M M M B
神经网络和模糊系统的等价性:
4
[Kolmogorov 定理] 给定任意连续函数 f : U n → R m , f (x) = y ,这里U 是单位闭区间[0,1], f