当前位置:文档之家› 关于文本分类的研究-资料

关于文本分类的研究-资料

• 文本的表示特征
经典的文本表示模型是向量空间模型
• 空间降维问题
• 基于评估函数的方法 :通常是通过在训练数据集上的统计来计算 每一特征的某种指标值,根据指标值的高低决定是否保留相应的 字或词,或者对相应特征加权,从而实现特征选择。主要有互信 息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和 文本证据权
基于模式聚合和改进 2 统计量的文本降维方法
➢仿真实验2
测试样本数量 正确识别样本数量 错误识别样本数量
分类准确率 抽取规则数量 抽取最大规则长度
2 统计量和分枝 采用改进的 统2 计
合并的模糊决策树 量和分枝合并的模
方法
糊决策树方法
320
320
229
289
91
31
71.56%
90.31%
129
对样本集的属性求隶属度函数的个数k和 中心点集C的算法步骤如下:
• 确定k的可能最小值kmin和最大值kmax; • for k= kmin to kmax do:
• 将属性a的值域根据基于类信息熵的离散化
方法划分成个不相交的区域,步骤如下:
• 初始化区间TE,TE为属性a的值域;j←1; • 寻找将区间TE划分成两部分TE1,TE2且划分后
C AijiH χim 2j/I(m χ ai2 1 ax ,χ m xi2 { 2,in..χ )i.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 基于模式聚合理论的特征降维
基于改进的 2统计量和模式聚合方法的特征降维步骤如下:
• 计算每个词条对每类的改进的 2统计量。 • 计算出各个词条的CHI值。然后把特征按CHI值由高到
48
29
72%
84%
90.33%
30分43秒 3分17秒 3 分2秒
187
52
51
107
24
25
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢仿真实验 1
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
当 n11 n22 n12 n2>1 0,词条和类别正相关 当 n11 n22 n12 n2<1 0,词条和类别负相关
改进的 2统计量
χ i2 j s( i n 1 g 1 n 2 n 2 n 1 2 n 2 )( 1 n 1 1 n 1 ) 2 n ( n 2 ( n 1 1 n 2 1 n ) 2 2 ( 2 n n 1 1 1 n 2 n 2 2 ) ) 2 1 1 ( n 1 2 n 2 )2
Si
1 n n h1
ph0 phi ph0
基于神经网络的特Βιβλιοθήκη 选择基于神经网络的特征选择算法的具体步骤为:
• ⑴设定允许误差为e;
• ⑵将所有特征按照灵敏度由大到小进行排序,
形成队列,此时特征数量为m;
• ⑶i←1;j←m;R ← m;
基于神经网络的特征选择
• ⑷mid←[(i+j)/2] //[ ]表示取整数 • ⑸取队列前mid的特征作为训练样本的新的特征向量空
测试属性可以选择,则该结点为叶子;
• II.若不为叶子结点,计算此结点祖先中未曾使用过的属性
的分割模糊熵,选择分割模糊熵最小的属性作为此结点测试 属性,根据此测试属性在此结点上产生分枝;每个分枝再分 别递归调用createtree过程构造各个分枝。
• 对模糊决策树进行分枝合并
• 条件一:每个分枝具有完全相同的树型结构; • 条件二:相同位置的内部结点的测试属性相同; • 条件三:相同位置的叶结点的代表的类别相同。
• ⑶将矩阵A中的特征词条按行排成一列。
若有相同特征词条,则将后面的特征词条删除,得 到一个特征词条有序表S,假设S含有R个特征词条。
基于CHI值原理和粗集理论的特征抽取
• ⑷根据特征词条有序表S中的每个特征词条是否出现,
得到决策表。
• ⑸对决策表的属性进行约简,进一步抽取特征。
若共含有R个特征词条,约简步骤为:
91
110
31
A ij
基于CHI值原理和粗集理论的特征抽取
特征抽取的具体步骤为:
• ⑴计算出每个特征词条和类别的 2统计量; • ⑵指定正整数L,选择对每个类别贡献最大的L个词
条,并按照 2 统计量由大到小设置成一列。J个类 别就有J列,最终得到一个L×J矩阵A,A ij 是对类别 j按 2统计量由大到小排列在第i位的词条。
• 潜在语义索引 :利用概念标引代替关键词标引,从语义相关的角 度为文本选择标引词,而不考虑标引词是否在文本中出现,其通 过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵,用转 换后的文本向量进行文本挖掘处理。
• 主成分分析法:通过搜索最能代表原数据的正交向量,创立一个替 换的、较小的变量集来组合属性的精华,原数据可以投影到这个 较小的集合。
间,去掉其余的特征,形成新的样本库C。
• ⑹按照新的样本库C建立新的神经网络分类器,分类器 对样本库C中所有样本分类的误差之和为ce。
• ⑺如果ce≤e 则i←mid-1,R← mid;否则 j←mid+1。 • ⑻如果i<j,转向第⑷步执行。 • ⑼将队列中后面的特征从样本的特征向量空间中删除,
得到新的特征向量空间。
基于模糊决策树的文本分类规则抽取方法二 仿真实验
基于特征权重修正的改进KNN方法一
DKNN算法的距离公式 :
计算每个特征对第个类的 2统计量和每个特征的CHI值,
求出特征j对第i类的分类作用影响因子
Aij χij2 /CHjI
根据灵敏度方法求得各个特征的权重法
m
wi Si / Sj j 1
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
一般特征的CHI值为该特征对所有类别的 2 统计 量的平均值或最大值。在改进的 2 统计量上, 规定词条的CHI值为:
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
• ①令REDUCT为空, i ←1; • ②REDUCT←REDUCT∪ t i • ③如果REDUCT为决策表的属性约简,约简结束;否
则,如果i<R,令i←i+1,转步骤②,如果i=R,属性约 简失败。
• ⑹若不能得到属性约简,则将正整数L适当增大,
转步骤⑵,否则特征抽取结束。
基于CHI值原理和粗集理论的特征抽取 • 仿真实验
文本特征的降维方法
➢ 基于模式聚合和改进 2 统计量的文 本降维方法
➢ 基于CHI值原理和粗糙集理论的属性 约减的文本降维方法
➢ 基于神经网络的文本特征抽取方法
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
CHI的主要思想是认为词条与类别之间符合 2 分布,词条的 2统计量表示词条对某个类别的 贡献大小。 2 统计量越高,词条和类别之间的 独立性越小、相关性越强,即词条对此类别的 贡献越大。 2 统计量的计算公式
最大的点作为区间的隶属度函数的中心点。
• 求出F-统计量
• 选择令F-统计量最大的k和C为属性隶属度函数
的k和C。
基于模糊决策树的文本分类规则抽取方法一
• 所有样本的集合作为根结点,给定叶子判定标准δ; • createtree过程主要分两步:
• I.计算结点所有类别的相对频率 ,若有超过给定标准δ或无
关于文本分类的研究-资料
文本挖掘概述
文本数据的特点:
• 半结构化或者无结构化 • 高维数据 • 大数据量 • 时变数据 • 语义性 • 无标签 • 分布式
文本挖掘的功能主要包括:
• 文本总结 • 文本分类 • 文本聚类 • 关联分析 • 分布分析 • 趋势预测
文本挖掘概述
• 本挖掘面临的研究课题
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
测试样本数量 正确识别样本数量 错误识别样本数量
分类正确率 决策树建树时间 抽取规则数量 抽取最大规则长度
仿真实验1 仿真实验2 仿真实验3
300
300
300
216
252
271
84
的类信息熵E(TE1, TE2)最小的划分点;j←2 ;
基于模糊决策树的文本分类规则抽取方法
• ③用②的方式分别求出每个区间TE1, TE2, …, TEj的
最小化分点,并计算出其类信息熵,选择满足信息熵 最小的区域进行划分;j←j+1
• ④重复第③步直到满足j等于k
• 求出k个区间中心集合,方法为:求出密度分布函数
• 还有一些常见的文本降维算法,主要包括基于文档频率方法、基 于分类频率和文档频率方法、IDF×TF方法,模拟退火算法等,
文本分类方法概述
文本分类方法主要包括基于传统技术的决策树、K最近邻 (KNN)、关联规则、支持向量机(SVM)、基于数据库 的算法、贝叶斯等分类算法和基于软计算的神经网络、粗 糙集、模糊逻辑和遗传算法。其中,基于软计算的方法通 过协同工作提供一种灵活的数据处理能力,其目标是实现 对不精确、不确定、部分信息的处理能力和近似推理能力, 以求能方便、稳健、低代价地逼近人类的分析判断能力。 模糊逻辑提供处理由于模糊而不是随机产生的不精确、不 确定性的算法,粗糙集则处理由于不可分辨关系导致的不 确定性,神经网络用于模式分类与聚类,而遗传算法则用 于优化和搜索。
χ i2 j (n 1 1n 1)2 n ( n 2 (n 1 1n 1 2 n 2 )2 2 (n n 1 1 1 2 n n 2 2) )1 1 2(n 1 2n 2)2
相关主题