当前位置：文档之家› 数据挖掘建模——分类方法—方晓萍

数据挖掘建模——分类方法—方晓萍

数据挖掘的基本任务
分类—发现某个预测学习功能，将一个数据项分类到几个预定义类中的一个。
回归—发现某个预测学习功能，将一个数据项映射到一个真实值预测变量上。
阈值法的优点：
• 指标个数及指标的分布无要求； • （转换后的数据——单项评价值）相对数的性质很明显； • 数据转换需要的信息量不多。事实上阈值法只利用了极大值或极小值
等阈值。 • 但是这种方法丢失了大量的原始信息，因为评价值只参考了阈值。
2.平均数比率法（均值化）、比重法
➢ 特点：意义直观、明确；对比标准利用了所有的原始数据。
术），从数据中获得有用知识的整
个过程，就叫做数据挖掘。
通过数据挖掘分析代词的使用特色，来进行作者辨析
数据挖掘识别作者
表1 前八十回词项出现次数（频数）
词项
出Hale Waihona Puke 次数词项出现次数
词项
出现次数
词项
出现次数
词项
出现次数
词项
出现次数
我 5403 侬 10 尔 13 自家 12 谁 659 多少 105
我家 21 俺 4 他 4506 这 5204 孰 2 早晚 34
我们 807 你 4300 他们 615 此 1034 甚 30 怎么 643
吾 16 你们 687 他家 53 那 2929 什么 1166 怎样 13
咱 1 你家 15 伊 2 彼 78 何 564 怎 19
咱们 404 汝 8 渠 0 每 252 如何 214
模型应用
应用于实际问题解决实际问题
将数学语言表述的解答“翻译”回实际对象能拓展更佳！
数学建模的思路与步聚
模型准备
模型假设
模型构成
模型检验
模型分析
模型求解
模型应用
问题建模方法
建模
首要原则模型（first-principle models)
数据挖掘
首要原则模型
根据“首要原则模型”建立基本的科学模型，然后建立在各个方面的应用，再用实验数据验证基本的“首要原则模型”，并估计一些难以直接测量或者根本不可能直接测量的参数。
V’(i)=v（i）/10k
k是保证|v’(i)|的最大值小于1的最小比例。
3. 标准化法
（3）最小—最大标准化
v’(i)=(v(i)-min[v(i)])/(max[v(i)]-min[v(i)])
其中，特征v的最小值和最大值是通过一个集合自动计算的，或者是通过特定领域的专家估算出来的。
标准化
针对问题特点和建模目的
作出合理的、简化的假设
尽量使问题线性化、均匀化
在合理与简化之间作出折中
“假设”一定要对后面的建模有用，不作无用之假设！
模型构成
用数学的语言、符号描述问题
发挥想像力使用类比法
尽量采用简单的数学工具
最好有自己的创新性思路！！
建模的创造性
模型求解
各种数学方法软件
计算机技术
模型分析
数据挖掘过程
1、陈述问题 2、搜集数据 ……
数据挖掘过程
1、陈述问题 2、搜集数据
3、进行数据预处理
4、评估模型（挖掘数据） 5、解释模型和得出结论
数据预处理
１. 数据审核
检查数据中的错误
２. 数据筛选
找出符合条件的数据
３. 数据无量纲化、标准化
无量纲化方法
1．阈值法——阈值即临界值，是衡量事物发展变化的一些特殊指标值，如极大值、极小值（此时又称极值法）、满意值、不允许值、标准值（如平均数）等。
标准化对若干数据挖掘方法都很有用。且标准化并不是一次性或一个阶段的事件。如果一种方法需要标准化数据，就要为所选的数据挖掘技术对可用的数据进行转换和准备，还必须对数据挖掘的所有其他阶段、所有的新数据和未来数据进行同样的数据标准化。因此，必须把标准化的参数和方法一起保存。
数据挖掘过程
1、陈述问题 2、搜集数据 3、进行数据预处理 4、评估模型（挖掘数据） 5、解释模型和得出结论
余 7 奴 2 自己 503 各 397 何妨 17
表2 后四十回词项出现次数（频数）
词项
出现次数
词项
出现次数
词项
出现次数
词项
出现次数
词项
出现次数
词项
我 2380 侬
0 尔 36 自家 5 谁 220 多少
我家 15 俺 1 他 1980 这 2422 孰 2 早晚
我们 402 你 1707 他们 236 此 334 甚 14 怎么
吾 3 你们 336 他家 27 那 1985 什么 731 怎样
咱 0 你家 6 伊 7 彼 13 何 191 怎
咱们 216 汝 3 渠 0 每 29 如何 47
余 1 奴 1 自己 331 各 185 何妨 2
出现
次数 49
14 487 28
24
数据挖掘过程
1、陈述问题 2、搜集数据 3、进行数据预处理 4、评估模型（挖掘数据） 5、解释模型和得出结论
数据挖掘建模
—分类方法
Email:fxpmath@
2013-12-28
数学建模的思路与步聚
模型准备
模型假设
模型构成
模型检验
模型分析
模型求解
模型应用
美赛建模
开放性！
模型准备
了解实际背景明确建模目的搜集有关信息掌握对象特征
形成一个比较清晰的“问题”
从“题意”延伸。。。
模型假设
首要原则模型
但是，在许多领域，基本的“首要原则模型” 往往是未知的，或者所研究的系统太复杂，难以进行数学定型。
随着计算机的广泛应用，此类系统生成了大
量数据。可以利用这些易得的数据，估计系统变
量之间的有效关系，来导出模型。从而变成直接从数据中开发模型，并进行相应的分析。
数据挖掘
运用基于计算机的方法（包括新技
结果的误差分析统计分析
模型对数据的稳定性分析灵敏度分析等
档次
模型检验
与实际现象的信息、数据比较，检验模型的合理性、适用性
关于模型的检验，可以采用证明的方法，但更多的是对某些感兴趣的情形进行计算并分析结果、对重要参数的高中低水平进行计算并分析，考虑放松某些假设等。
确保模型结论“基本正确”，不悖常识！
3. 标准化法
（1）标准差标准化
➢ 标准化处理：将变量值转化为数学期望为0，方差为1 的标准化数值。 ➢ v(i)=(v[i]-mean[v])/sd(v)
经标准化处理后的数值围绕着0上下波动，数值大于0的说明高于平均水平，数值小于0的说明低于平均水平。
3. 标准化法
（2）小数缩放
小数缩放移动小数点，但仍然保留大多数原始数值。常见的缩放是使值在-1到1的范围内。小数缩放可以表示为等式：

e商务文档

数据挖掘建模——分类方法—方晓萍

相关文档推荐：