当前位置：文档之家› 自然语言处理ppt课件

自然语言处理ppt课件

8
自然语言处理
分词词性标注
9
自然语言处理
命名实体识别; 名词，词性标注，命名实体类别
10
自然语言处理
命名实体识别; 筛选出文本中的地名名词，词性标注，命名实体类别（地名）
11
1
自然语言处理
1 jieba系统简介 "结巴"中文分词：做最好的Python中文分词组件。特点：支持三种分词模式支持繁体分词支持自定义词典 MIT授权协议涉及算法：基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG），采用动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用了基于汉字成词能力的 HMM模型，采用Viterbi算法进行计算；
sentences = LineSentence('wiki.zh.word.text')
model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)
# 保存模型
model.save('word_embedding_128')
自然语言处理
工具：jieba分词流程： 1将所有文本进行数据清洗，（词性标注）筛选出所有名词，并保存文件 2 爬取数据，制作景点/酒店名词的用户字典 3 根据2的用户字典对1中的名词进行筛选（词性标注）筛选出所有景点/酒店名词，并保存文件 4 在对3中保存文件进行keyword排序（关键词抽取），并保存文件
# 加载模型
model = Word2Vec.load("word_embedding_128")
# 使用模型
items = model.most_similar(u'中国')
#得到与中国相似的词语(上下文语境相似)
model.similarity(u'学校', u'学生')
#得到学校和学生 2个向量的相似度
怎么得到词向量：训练语料库，将每个词语训练成词向量。
总结：语言的表示（词向量） Bags-of-word：维度高、过于稀疏、缺乏语义、模型简单 Word Embedding：维度低、更为稠密、包含语义、训练复杂
5
自然语言处理
实践
基于gensim包和中文维基语料
gensim，word2vec模型介绍：/gensim/models/word2vec.html
7
自然语言处理
加州大学洛杉矶分校UCLA在IN-N-OUT吃饱喝足后便开往很近的UCLA。我的点评：来到 LA，还是要来看看世界名校UCLA的。找到了学校里的visitor parking停车场停车。一个小时USD3。不算贵。 7出来走不远就可以看到熊的雕塑和UCLA的一家很大的礼品店。此外，我们还主要参观了UCLA的Student 对面的图书馆（Chicano Studies Research Center Library）。Royce Hall还是挺漂亮的，图书馆也是学习环境很好的地方。顺利降落JFK，回到纽约，行程顺利结束。洛杉矶。加州。
中文维基分词用的数据集（语料库）：链接 https:///s/1qXKIPp6 密码 kade
# 加载包
from gensim.models import Word2Vec
from gensim.models.word2vec ຫໍສະໝຸດ mport LineSentence
# 训练模型
6
自然语言处理
用Python做自然语言处理必知的八个工具 https:///article/1048041434?utm_campaign=share&utm_m edium=androidShare&utm_u=1030448961&utm_source=weixinMoment
应用：文本机器翻译、文本摘要、情感分析；知识图谱、问答系统、聊天机器人
4
自然语言处理
背景：如何表示词语所包含的语义？怎么用词语表示文本，让机器读懂？向量空间模型（词袋模型）： 1 元素词出现为0，不出现为1 2 元素为出现次数 3 元素为 ti-idf数值 Word Embedding（词嵌入）核心思想：此本无义，义由境生：语义相关的词语，具有相似的上下文环境，例如，苹果和梨子具有相似的上下文语境。
基于Viterbi算法的词性标注；分别基于tfidf和textrank模型抽取关键词；
2
自然语言处理
2 jieba系统框架 jieba分词系统，主要实现三个模块： 1 分词 2 词性标注 3 关键词抽取其中，分词有三种模式，默认是精确模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词；
3
自然语言处理
概念： Natural Language Processing/Understanding，自然语言处理/理解希望机器能像人一样去理解语言，理解以人类自然语言为载体的文本所包含的信息，并完成一些特定任务。
处理文本：中文分词、词性标注、命名实体识别
命名实体识别的任务就是识别出待处理文本中的实体名词三大类：实体类、时间类和数字类七小类：人名、机构名、地名、时间、日期、货币和百分比关键词提取、关系抽取、信息抽取、依存分析、词嵌入

e商务文档

自然语言处理ppt课件

相关文档推荐：