当前位置:文档之家› 文本向量化表示方法的总结与分析

文本向量化表示方法的总结与分析

因此,我们引入降维的方式来对高维度的文档向量进行处理,其主要的模型为潜语义分析模型(Latent Semantic Analysis),这种模型通过数学方法,将文档之间的关系、词之间的关系和文档与词之间的关系都 纳入考虑中(Deerwester,S.,Dumais,S.T.,Furnas,G.W.,Landauer,T.K.,& Harshman,R.(1990).Indexing By Latent Semantic Analysis.Journal of the American Society For Information Science,41,391-407.10)。


One-hot Representation
最早的一种比较直观的词向量生成方式称为One-hot Representation,这种映射方式是通过先将语料 库中的所有词汇汇总的得到N个词汇,并将语料库中的每个文档个体生成一个N维的向量,在每个维度 就体现了该文档中存在多少个特定词汇。这种方式是一种较为简单的映射方式,其产生的向量表示体现 了词频的信息。 2.1.2 TF-IDF模型
如上所示,在自然语言处理中,文本向量化是一个重要环节,其产出的向量质量直接影响到了后续 模型的表现,例如,在一个文本相似度比较的任务中,我们可以取文本向量的余弦值作为文本相似度, 也可以将文本向量再度作为输入输入到神经网络中进行计算得到相似度,但是无论后续模型是怎样的, 前面的文本向量表示都会影响整个相似度比较的准确率,因此,对于自然语言处理的各个领域,文本向 量化都有着举足轻重的影响。
(2)自然语言处理领域中存在着多种高级的语法规则及其他种类的特性,具体体现为语法上的规 则、近义词,反义词等。乃至于自然语言本身就体现了人类社会的一种深层次的关系(例如讽刺等语 义),这种关系给自然语言处理领域的各种工作带来了挑战。
而文本信息的向量表示作为自然语言处理中的基本问题,其应当尽可能地包含原本空间内的信息, 因为一旦在空间映射时丢弃了信息,则在后续的计算中也无法再获取到这些信息了。 1.2 研究意义
另一处改进为统计了每个词的逆文档频率指标,并使用该指标作为词罕见程度的度量值,以更好地 刻画文档的生成向量。逆文档频率的模型如下:
这两种模型的共同的缺点在于其二者的向量长度都非常大,对于一个有着30W词汇量的语料,每个文档 的映射向量长度将都是30W,这意味着产出的矩阵非常稀疏,并且在计算时也会非常复杂。 2.1.3 潜语义分析模型
上述方式的模型仅考虑了词频,并且会造成长句子和短句子的向量长度不一致的情况,因此又有一种考 虑了文档词汇中的逆文档频率的映射方式:TF-IDF(term frequency–inverse document frequency)模型,在这 种方式中,首先对词频进行了归一化,即使用词出现的频率而非次数代表词频,表示为公式如下:
文 本 向 量 化 表 示 方 法 的 总 结 与 分 析
• 10 •
ELECTRONICS WORLD・探索与观察
随着计算机技术的深入发展,由于计算能力的大幅提高,机器学习和深度学习取得了长足的发展, 因此我们在自然语言处理领域的研究越来越多的应用了机器学习和深度学习的工具,在这样的情况下, 文本的向量表示就是一个非常重要的问题,因为良好的文本向量可以更好地在向量空间中给出一个文本 空间内的映射,从而使得文本可计算。在近些年出现了许多的文本向量生成方法,本文主要介绍了文本 向量化的发展过程,并对常见的文本向量生成方式进行了对比。
1.概述
1.1 研究背景 正如图像领域天然有着高维度和局部相关性的特性,自然语言处理领域也有着其自身的特性,其主
要体现在以下几方面: (1)由于计算机系统本身的硬件特点,任何计算的前提都是向量化,而自然语言处理领域的空间难
以直接向量化,其不像图像与语音领域,信息可以直接被向量化,在自然语言处理领域的文本难以直接 被向量化。
具体来讲,潜语义分析模型使用了主成分分析的方式来进行降维,即通过抽取向量空间内分布方差最大 的若干个正交方向来作为最后的表示方向,并对其余的方向的内容进行丢弃即得到了每个样本的低维表示, 该表示是有损的,即丢失了在丢失维度上的分布细节。
ELECTRONICS WORLD・探索与观察
图1 二维向量分布的主成分分析 潜语义分析模型将这种将高维的向量表示转换为低维的向量表示的 方法解释为文档的词向量空间转化为语义级别的向量空间,由此实现了 一个有意义的文本降维的工作,即在更低维度上,一个维度并不再代表 原来的一个词的信息,而是代表原来的几个词的一个混合信息,这被称 为“语义维度”。被丢弃的维度上的分布也被认定为是一种“噪音”, 对其丢弃可以更好地使用低维度的信息来表达原文本的语义信息。 值得被关注的是,上述的模型均为词袋模型,其基本的特点即为 忽略了文本信息中的语序信息,即不考虑段落中的词汇顺序,仅将其 反映为若干维度的独立概念,这种情况有着因为模型本身原因而无法 解决的问题,比如主语和宾语的顺序问题,词袋模型天然无法理解诸 如“我为你鼓掌”和“你为我鼓掌”两个语句之间的区别。因此基于 上述模型的文本模型无法获取到原文本中语序所带来的信息。 2.2 基于神经网络的文本向量化模型 深度学习出现以后,逐渐被应用于自然语言处理领域,在文本 向量化上也有着许多的进展,其中很多的成果已经成为了自然语言 处理领域的基础部分。 2.2.1 Nerual Network Language Model 2001年,来自蒙特利尔大学计算机教授Yoshua Bengio给出了一种生 成词向量的方式,即通过一个三层的神经网络、softmax分类及反向传 播算法实现了词向量的映射(Bengio,Yoshua,et al.”A neural probabilistic language model.”Journal of machine learning research 3.Feb(2003):11371155),在这种映射中,词向量本身包含了语义的信息,即通过向量的 分布信息可以得知其对应词的相互联系,其基本结构如下:
相关主题