当前位置：文档之家› 关于文本分类的研究-资料

关于文本分类的研究-资料

• 文本的表示特征
经典的文本表示模型是向量空间模型
• 空间降维问题
• 基于评估函数的方法 :通常是通过在训练数据集上的统计来计算每一特征的某种指标值，根据指标值的高低决定是否保留相应的字或词，或者对相应特征加权，从而实现特征选择。主要有互信息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和文本证据权
基于模式聚合和改进 2 统计量的文本降维方法
➢仿真实验2
测试样本数量正确识别样本数量错误识别样本数量
分类准确率抽取规则数量抽取最大规则长度
2 统计量和分枝采用改进的统2 计
合并的模糊决策树量和分枝合并的模
方法
糊决策树方法
320
320
229
289
91
31
71.56%
90.31%
129
对样本集的属性求隶属度函数的个数k和中心点集C的算法步骤如下：
• 确定k的可能最小值kmin和最大值kmax; • for k= kmin to kmax do：
• 将属性a的值域根据基于类信息熵的离散化
方法划分成个不相交的区域，步骤如下：
• 初始化区间TE，TE为属性a的值域；j←1； • 寻找将区间TE划分成两部分TE1，TE2且划分后
C AijiH χim 2j/I(m χ ai2 1 ax ,χ m xi2 { 2,in..χ )i.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 基于模式聚合理论的特征降维
基于改进的 2统计量和模式聚合方法的特征降维步骤如下:
• 计算每个词条对每类的改进的 2统计量。 • 计算出各个词条的CHI值。然后把特征按CHI值由高到
48
29
72%
84%
90.33%
30分43秒 3分17秒 3 分2秒
187
52
51
107
24
25
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢仿真实验 1
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
当 n11 n22 n12 n2＞1 0，词条和类别正相关当 n11 n22 n12 n2＜1 0，词条和类别负相关
改进的 2统计量
χ i2 j s( i n 1 g 1 n 2 n 2 n 1 2 n 2 )( 1 n 1 1 n 1 ) 2 n ( n 2 ( n 1 1 n 2 1 n ) 2 2 ( 2 n n 1 1 1 n 2 n 2 2 ) ) 2 1 1 ( n 1 2 n 2 )2
Si
1 n n h1
ph0 phi ph0
基于神经网络的特Βιβλιοθήκη 选择基于神经网络的特征选择算法的具体步骤为：
• ⑴设定允许误差为e；
• ⑵将所有特征按照灵敏度由大到小进行排序，
形成队列，此时特征数量为m；
• ⑶i←1；j←m；R ← m；
基于神经网络的特征选择
• ⑷mid←[(i+j)/2] //[ ]表示取整数 • ⑸取队列前mid的特征作为训练样本的新的特征向量空
测试属性可以选择，则该结点为叶子；
• II．若不为叶子结点，计算此结点祖先中未曾使用过的属性
的分割模糊熵，选择分割模糊熵最小的属性作为此结点测试属性，根据此测试属性在此结点上产生分枝；每个分枝再分别递归调用createtree过程构造各个分枝。
• 对模糊决策树进行分枝合并
• 条件一：每个分枝具有完全相同的树型结构； • 条件二：相同位置的内部结点的测试属性相同； • 条件三：相同位置的叶结点的代表的类别相同。
• ⑶将矩阵A中的特征词条按行排成一列。
若有相同特征词条，则将后面的特征词条删除，得到一个特征词条有序表S，假设S含有R个特征词条。
基于CHI值原理和粗集理论的特征抽取
• ⑷根据特征词条有序表S中的每个特征词条是否出现，
得到决策表。
• ⑸对决策表的属性进行约简，进一步抽取特征。
若共含有R个特征词条，约简步骤为：
91
110
31
A ij
基于CHI值原理和粗集理论的特征抽取
特征抽取的具体步骤为：
• ⑴计算出每个特征词条和类别的 2统计量； • ⑵指定正整数L，选择对每个类别贡献最大的L个词
条，并按照 2 统计量由大到小设置成一列。J个类别就有J列，最终得到一个L×J矩阵A，A ij 是对类别 j按 2统计量由大到小排列在第i位的词条。
• 潜在语义索引 :利用概念标引代替关键词标引，从语义相关的角度为文本选择标引词，而不考虑标引词是否在文本中出现，其通过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵，用转换后的文本向量进行文本挖掘处理。
• 主成分分析法:通过搜索最能代表原数据的正交向量，创立一个替换的、较小的变量集来组合属性的精华，原数据可以投影到这个较小的集合。
间，去掉其余的特征，形成新的样本库C。
• ⑹按照新的样本库C建立新的神经网络分类器，分类器对样本库C中所有样本分类的误差之和为ce。
• ⑺如果ce≤e 则i←mid-1，R← mid；否则 j←mid+1。 • ⑻如果i＜j，转向第⑷步执行。 • ⑼将队列中后面的特征从样本的特征向量空间中删除，
得到新的特征向量空间。
基于模糊决策树的文本分类规则抽取方法二仿真实验
基于特征权重修正的改进KNN方法一
DKNN算法的距离公式：
计算每个特征对第个类的 2统计量和每个特征的CHI值，
求出特征j对第i类的分类作用影响因子
Aij χij2 /CHjI
根据灵敏度方法求得各个特征的权重法
m
wi Si / Sj j 1
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
一般特征的CHI值为该特征对所有类别的 2 统计量的平均值或最大值。在改进的 2 统计量上，规定词条的CHI值为：
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
• ①令REDUCT为空， i ←1; • ②REDUCT←REDUCT∪ t i • ③如果REDUCT为决策表的属性约简，约简结束；否
则，如果i<R，令i←i+1,转步骤②，如果i=R，属性约简失败。
• ⑹若不能得到属性约简，则将正整数L适当增大，
转步骤⑵，否则特征抽取结束。
基于CHI值原理和粗集理论的特征抽取 • 仿真实验
文本特征的降维方法
➢ 基于模式聚合和改进 2 统计量的文本降维方法
➢ 基于CHI值原理和粗糙集理论的属性约减的文本降维方法
➢ 基于神经网络的文本特征抽取方法
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
CHI的主要思想是认为词条与类别之间符合 2 分布，词条的 2统计量表示词条对某个类别的贡献大小。 2 统计量越高，词条和类别之间的独立性越小、相关性越强，即词条对此类别的贡献越大。 2 统计量的计算公式
最大的点作为区间的隶属度函数的中心点。
• 求出F-统计量
• 选择令F-统计量最大的k和C为属性隶属度函数
的k和C。
基于模糊决策树的文本分类规则抽取方法一
• 所有样本的集合作为根结点，给定叶子判定标准δ； • createtree过程主要分两步：
• I．计算结点所有类别的相对频率，若有超过给定标准δ或无
关于文本分类的研究-资料
文本挖掘概述
文本数据的特点：
• 半结构化或者无结构化 • 高维数据 • 大数据量 • 时变数据 • 语义性 • 无标签 • 分布式
文本挖掘的功能主要包括：
• 文本总结 • 文本分类 • 文本聚类 • 关联分析 • 分布分析 • 趋势预测
文本挖掘概述
• 本挖掘面临的研究课题
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
测试样本数量正确识别样本数量错误识别样本数量
分类正确率决策树建树时间抽取规则数量抽取最大规则长度
仿真实验1 仿真实验2 仿真实验3
300
300
300
216
252
271
84
的类信息熵E(TE1, TE2)最小的划分点；j←2 ；
基于模糊决策树的文本分类规则抽取方法
• ③用②的方式分别求出每个区间TE1, TE2, …, TEj的
最小化分点，并计算出其类信息熵，选择满足信息熵最小的区域进行划分；j←j+1
• ④重复第③步直到满足j等于k
• 求出k个区间中心集合，方法为：求出密度分布函数
• 还有一些常见的文本降维算法，主要包括基于文档频率方法、基于分类频率和文档频率方法、IDF×TF方法，模拟退火算法等，
文本分类方法概述
文本分类方法主要包括基于传统技术的决策树、K最近邻（KNN）、关联规则、支持向量机（SVM）、基于数据库的算法、贝叶斯等分类算法和基于软计算的神经网络、粗糙集、模糊逻辑和遗传算法。其中，基于软计算的方法通过协同工作提供一种灵活的数据处理能力，其目标是实现对不精确、不确定、部分信息的处理能力和近似推理能力，以求能方便、稳健、低代价地逼近人类的分析判断能力。模糊逻辑提供处理由于模糊而不是随机产生的不精确、不确定性的算法，粗糙集则处理由于不可分辨关系导致的不确定性，神经网络用于模式分类与聚类，而遗传算法则用于优化和搜索。
χ i2 j (n 1 1n 1)2 n ( n 2 (n 1 1n 1 2 n 2 )2 2 (n n 1 1 1 2 n n 2 2) )1 1 2(n 1 2n 2)2

e商务文档

关于文本分类的研究-资料

相关文档推荐：