当前位置:文档之家› 自然语言处理简洁版

自然语言处理简洁版


过拟合解决办法——正则化
采用正则化方法。正则化方法包括L0正则、L1正则和L2正则。在机器学习中一般使用L2正则 采用dropout方法:dropout方法在训练的时候让神经元以一定的概率不工作
过拟合解决办法——增加样本数据
致谢 | Thank!
数据收集
域名
IP

打标的数据集



数据预处理
词向量——word2vec
词向量——word2vec
这个模型的作用就是从一大堆句子中为每个独一无二的单词进行建模, 并且输出一个唯一的向量。Word2Vec 模型的输出被称为一个词向量矩阵。
这个词向量矩阵包含训练集中每个词的一个向量
词向量——word2vec
输出数据是一个 10*50 的词矩阵,其中包括 10 个词,每个词的向量维度是 50
LSTM神经网络在自然语言处理中的应用
目录/Contents
01 机器学习背景概述
02
LSTM神经网络
03 模型优化
01 机器学习背景概述
背景介绍
2006 年,Geoffrey Hinton在科学杂志《Science》上发表了一篇文章,论证了两个观点: 1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类。 2.深度神经网络在训练上的难度,能够通过“逐层初始化” 来有效克服。 开启了深度学习在学术界和工业界的浪潮,受到从学术界到工业界的广泛重视。 导致了“大数据+深度模型”时代的来临
词向量——word2vec
循环神经网络——RNN
使用电影中先前的事件推断后续的事件。
时间序列:事件发生的前后顺序/句子的前后连贯性
循环神经网络——RNN
循环神经网络——RNN
隐藏状态是当前单词向量和前一步的隐藏状态向量的函数。 并且这两项之和需要通过激活函数来进行激活。
x(t) 表示一个向量,它封装了一个特定单词的所有信息。 h(t) 称为隐藏状态向量。这个向量是用来封装和汇总前面时间步骤中所看到的所有信息。 W(H) 在所有的时间步骤中都是保持一样的,但是矩阵 W(x) 在每个输入中都是不一样的
神经网络:是拟合一个函数的过程,一个仅有一个隐藏层的神经网络就能拟合一个函 数,但是它可能需要很多很多的神经元。 深层网络:可以用少得多的神经元去拟合同样的函数。
有监督学习和无监督学习
监督学习,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型。 再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也 就具有了对未知数据进行分类的能力。
循环神经网络——RNN
这些权重矩阵的大小不但受当前向量的影响,还受前面隐藏层的影响。 举个例子,观察上面的式子,h(t) 的大小将会随着 W(x) 和 W(H) 的大小而改变。
让我们来看一个快速例子。当 W(H) 非常大,W(X) 非常小的时候, 我们知道 h(t) 受 h(t-1) 的影响比 x(t) 的影响大。换句话说, 目前的隐藏状态向量更关心前面句子的一个总和,而不是当前的一个句子。
稍微改变的数据上,拟合的边界会大大改变
欠拟合解决办法
欠拟合(underfiting / high bias) 训练误差和验证误差都很大,这种情况称为欠拟合。 出现欠拟合的原因是模型尚未学习到数据的真实结构。 解决办法 1、增加模型复杂度。如果模型太简单,不能够应对复杂的任务。 2、使用更复杂的模型,减小正则化系数。
长短期记忆网络——LSTM
短期记忆
长短期记忆网络——LSTM
长期记忆
长短期记忆网络——LSTM
长短期记忆网络——LSTM
LSTM 单元,该单元根据输入数据 x(t) ,隐藏层输出 h(t) 。
复杂组件分为四个部分: 输入门, 输出门, 遗忘门一个记忆控制器。
训练 过程
标签
打标的 数据集
分词
过拟合产生原因
过拟合(overfiting / high variance) 如果要问机器学习中最常见的问题,八成的可能是‘过拟合’。模型在训练集上表现很好, 但是在验证集上却不能保持准确,也就是模型泛化能力很差。 模拟过拟合的原因: 1、训练数据集样本单一,样本不足。训练样本要尽可能的全面,覆盖所有的数据类型。 2、训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。 3、模型过于复杂。泛化能力太差。模型太复杂是过拟合的重要因素。
去停用词
词向量
文本预处理
基于机器 学习算法 的模型训

预测 过程
待预测 数据
分词
去停用词
词向量
文本预处理Biblioteka 标分类模型签
03 模型优化
过拟合和欠拟合
欠拟合:偏差大,偏离事实; .模型具有低灵活性 和低复杂度 过拟合:低偏差,过度拟合噪声,训练集生成非常完美的预测结果;模型具有高灵活性 和高复杂度
过拟合解决办法
针对过拟合的上述原因,对应的预防和解决办法如下: 1、增加样本,要覆盖全部的数据类型。 2、清洗数据再进行模型训练,防止噪声数据干扰模型。 2、正则化。在模型算法中添加惩罚函数来防止过拟合。常见的有L1,L2正则化。 3、对于深度学习还可以采用dropout,batch normalization, early stop等方法。 4、集成学习方法bagging(如随机森林)能有效防止过拟合
神经网络渊源
当我们学习新的东西,或者未学到东西,一些神经元的阈值(和突触权值会发生改变) 这种情况下,只需要带有一个参数(阈值)的简单阶梯函数。激活函数应用于累加的总和。
权重和偏置项b对输入信号进行线性变换。而激活函数对该信号进行非线性变换, 这使得我们可以任意学习输入与输出之间的复杂变换
神经网络与深度神经网络的区别
无监督学习(也有人叫非监督学习)则是另一种研究的比较多的学习方法,它与监督学习的不同之 处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。
有监督学习数学模型
机器学习:从数据中获得决策(预测)函数使得机器可以根据数据进行自动学习,通过算法使得机器 能从大量历史数据中学习规律从而对新的样本做决策。
传统神经网络
从1980年代末期以来,机器学习的发展大致经历了两次浪潮: • 浅层学习(Shallow Learning) • 深度学习(Deep Learning) 神经网络一般有输入层->隐藏层->输出层,一般来说隐藏层大于2的神经网络就叫做深 度神经网络,深度学习就是采用像深度神经网络这种深层架构的一种机器学习方法
随机森林分类
模 型
高斯贝叶斯分类 SVM分类
训 SVM高斯核函数分类

结果分析比较
TTL
国家
新数据



数据预处理

模型确定
识别是否为疑似僵尸网
自2006年以来,深度学习在学术界持续升温。 2012年6月。Google Brain项目,在语音识别和图像识别等领域获得了巨大的成功 2012年11月,微软在中国天津的一次活动上公开演示了一个全自成立深度学习研究院
经典框架平台
自然语言处理热门研究方向
情绪分析(Sentiment Analysis) 文件分类(Document Classification) 机器翻译(Machine Translation) 自动文本摘要(Text Summarization) 自动问答(Question Answering) 图片问答(Visual Question Answering)
独立同分布 p(x,y)
02 LSTM神经网络在自然语言中的应用
词向量
我们处理自然语言的时候,一般都是把词向量作为模型的输入
将整个句子作为输入,不能不满足计算机的一些基本运算操作
词向量
将每一个词转换成向量,用词向量作为输入数据。
词向量组成一个16*D 的矩阵
词向量——word2vec
词向量不仅表示当前单词,而且可以表示上下文意义。 为了去得到这些词向量,我们使用一个很著名的模型 “Word2Vec”。简单的说, 这个模型根据上下文的语境来推断出每个词的词向量。
大牛人物
Andrew Ng。中ffrey Hinton, 加拿大多伦多大学的教授。如今被聘为“Google大脑”的负责人。 Yann LeCun, 纽约大学教授,如今是Facebook人工智能实验室的主任。
概述
人工智能是机器学习的父类。 深度学习则是机器学习的子类。
机器学习不接受指令
它接受输入的数据!
也就是说, 机器学习是一种让计算机利用数据而不是指令 来进行各种工作的方法。
应用方向
语音识别=语音处理+机器学习。 自然语言处理=文本处理+机器学习。 计算机视觉=图像处理+机器学习。 模式识别=机器学习。 数据挖掘=机器学习+数据库。 统计学习近似等于机器学习。
相关主题