当前位置：文档之家› 利用SVM进行文本分类并研究特征选择对文本分类的影响

利用SVM进行文本分类并研究特征选择对文本分类的影响

一般来说，支持向量机是一个线性的学习系统，可以用于两类的分类问题。令训练集合 D 为{(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)}，其中 xi=(xi1,xi2,…,xin)是一个 r 维输入向量，如遇实数空间 X∈�� ,yi 是它的类别标记（输出值），并且 yi∈{1， -1}1 表示正类，-1 表示负类。为了构造一个分类器，支持向量机寻找一个线性函数， f (x) =< w • x > +b 。如果 f(xi)>0 那么 xi 被赋予正类，否则赋予负类。即
线性支持向量机：可分的情况............................................................................................... 4 第三部分：实验 .............................................................................................................................. 6
刘禹中科院自动化所 2009M8014629010 2010-8-14
[键入公司名称]
SVM 在文本分类中的应用
[键入文档副标题]
目录
第一部分：统计学习基本框架....................................................................................................... 3 第二部分：SVM 原理与对数回归原理...........................................................................................3
第二部分：SVM 原理与对数回归原理
支持向量机（SVM）属于判别式学习系统，其众多优点使得它成为了最流行的算法之一。它不仅有扎实的理论基础，而且在许多应用领域比大多数其他算法更准确，尤其在处理高维数据时。一些研究人员认为支持向量机可能是解决温饱分类问题的最准确的算法。它也被广泛用于分类和生物信息领域。
考察最接近超平面 < w • x > +b =0 的一个正例点（ x+，1 ）和一个负例点
（x−, −1）。定义两个平行的超平面H+和H−，分别经过 x+和 x− 点，并且与 < w • x > +b =0 平行。将 w,b 放缩可以得到：
H+ :< w • x+ > +b =1 H− :< w • x− > +b = −1 使得 < w • x > +b ≥ 1 当yi =1 < w • x > +b ≤ 1 当yi = −1
f (x) 是一个实值函数 w={w1,w2,…,wr}被称为权向量。b 被称为偏置。< w • x > 表
示点积。本质上支持向量机是寻找一个超平面 < w • x > +b =0 这个超平面能够区分正类和负类，被称为决策边界。
线性支持向量机：可分的情况
通过线性代数中的知识，我们知道在 < w • x > +b =0 中，w 定义了垂直与超平面的方向。w 被称为超平面的法向量。不改变法向量 w，我们可以通过变化 b 来平移超平面。注意到 < w • x > +b =0 含有内在的自由度。通过加入参数，
∑ Lp=
1 2
(<
ww
>) −
n i=1
αi
yi
(<
wxi
>
+b) −1
其中就αi 是> 0拉格朗日乘子
优化理论中，上式的最优解需要满足 Kuhn-Tucker 条件。下面简要介绍一下凸优化理论中对类似于上述问题的建模。
最小化：f (x)
满足 : gi (x) ≤ bi ,i = 1, 2,..., n 其中是f 目标函数，是g约i 束函数，拉格朗日算符为是
(<
wxi
>
+b) −1
其中就αi 是> 0拉格朗日乘子
得到对偶的目标函数：
∑ ∑ n
LD=
=i 1
= ai − 12 i, nj
yi y jaia j
1
<
xi
• xj
>
这样原来的问题转化成对偶问题
∑ ∑ n
最大化：LD=
=i 1
= ai − 12 i, nj
1
yi y jaia j
<
xi
• xj
这些条件称为 Kuhn-Tucker 条件。其中（2）是原始约束，（4）被称为称为互补条件，它说明在解中，
如果a那i >么0 gi (x) = b,
如果那g么i (x) > bi
ai = 0
这些条件意味着，对有效的约束 ai > 0 ，反之对无效的约束 ai = 0 。
回到本问题，本问题符合 Kuhn-Tucker 条件，因此可以用哪个拉格朗日算法法。又：对凸优化问题的拉格朗日处理导致了一个对偶问题，相对容易求解。对主问题：
实验设计框架................................................................................................................... 7 文本预处理一体化模块框架图....................................................................................... 8 该模块运行情况截图....................................................................................................... 8 三种特征词选择算法介绍............................................................................................... 9 实验进展......................................................................................................................... 10 实验结果......................................................................................................................... 11 小结： ....................................................................................................................................17
实验目的 .................................................................................................................................. 6 实验设计 .................................................................................................................................. 7
这样，H+和H−之间不存在样本。现在让我们来计算两个边缘超平面之间的距离，即
��+ + ��−。在线性代数的向量空间中，两个平行超平面之间的距离为
d1− d 2 w
w 代表 W 的欧式范数
由此
边距
d1− d 2
margin=
=
2
ww
2
w 最大边距问题可归结于最优化问题，等价于求解最小化。由此学习问题转
概率分布 F（y|x）产生一个输出向量 y. （3） Learning Machine,图中用 LM 表示。它能够实现一系列函数 f(x,a) a∈Λ的
集合，Λ为一系列参数。
所谓学习问题就是从函数集——f(x,a) a∈Λ的集合，Λ为一系列参数，中寻找最优的函数 f(x,��`),使其能够更好地近似 Supervisor 的输出。统计机器学习中的一个重要的度量手段是 VC 维（由 Vapnik-Chervonenkis 提出），它表征一个统计模型能够正确分类的能力和精度。学习问题存在两类风险：经验风险和结构风险。统计机器学习的目标是为了达到经验风险最小（ERM），结构风险（SRM）最小。
统计机器学习
刘禹自动化所 2009M8014629010
第一部分：统计学习基本框架
统计机器学习的模型框架可以作如下表示：
图1
统计机器学习模型框架主要有三个组件构成（1） Generator,图中用 G 表示。它从一个概率未知，但是固定的分布函数 F（x）
中独立取样,产生随机向量 x. （2） Supervisor,图中用 S 表示。它对每个输入向量 x 根据固定但是未知的条件

e商务文档

利用SVM进行文本分类并研究特征选择对文本分类的影响

相关文档推荐：