自然语言处理ppt课件
8
自然语言处理
分词 词性标注
9
自然语言处理
命名实体识别; 名词,词性标注,命名实体类别
10
自然语言处理
命名实体识别; 筛选出文本中的地名 名词,词性标注,命名实体类别(地名)
11
1
自然语言处理
1 jieba系统简介 "结巴"中文分词:做最好的Python中文分词组件。 特点: 支持三种分词模式 支持繁体分词 支持自定义词典 MIT授权协议 涉及算法: 基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG), 采用动态规划查找最大概率路径,找出基于词频的最大切分组合; 对于未登录词,采用了基于汉字成词能力的 HMM模型,采用Viterbi算法进行计算;
sentences = LineSentence('wiki.zh.word.text')
model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)
# 保存模型
model.save('word_embedding_128')
自然语言处理
工具:jieba分词 流程: 1将所有文本进行数据清洗,(词性标注)筛选出所有名词,并保存文件 2 爬取数据,制作景点/酒店名词的用户字典 3 根据2的用户字典对1中的名词进行筛选(词性标注)筛选出所有景点/酒店名词,并保存文件 4 在对3中保存文件进行keyword排序(关键词抽取),并保存文件
# 加载模型
model = Word2Vec.load("word_embedding_128")
# 使用模型
items = model.most_similar(u'中国')
#得到与中国相似的词语(上下文语境相似)
model.similarity(u'学校', u'学生')
#得到 学校和学生 2个向量的相似度
怎么得到词向量:训练语料库,将每个词语训练成词向量。
总结: 语言的表示(词向量) Bags-of-word:维度高、过于稀疏、缺乏语义、模型简单 Word Embedding:维度低、更为稠密、包含语义、训练复杂
5
自然语言处理
实践
基于gensim包和中文维基语料
gensim,word2vec模型介绍:/gensim/models/word2vec.html
7
自然语言处理
加州大学洛杉矶分校UCLA在IN-N-OUT吃饱喝足后便开往很近的UCLA。我的点评:来到 LA,还是要来看看世界名校UCLA的。找到了学校里的visitor parking停车场停车。一个小 时USD3。不算贵。 7出来走不远就可以看到熊的雕塑和UCLA的一家很大的礼品店。此 外,我们还主要参观了UCLA的Student 对面的图书馆 (Chicano Studies Research Center Library)。Royce Hall还是挺漂亮的,图书馆也是学习 环境很好的地方。顺利降落JFK,回到纽约,行程顺利结束。洛杉矶。加州。
中文维基分词用的数据集(语料库):链接 https:///s/1qXKIPp6 密码 kade
# 加载包
from gensim.models import Word2Vec
from gensim.models.word2vec ຫໍສະໝຸດ mport LineSentence
# 训练模型
6
自然语言处理
用Python做自然语言处理必知的八个工具 https:///article/1048041434?utm_campaign=share&utm_m edium=androidShare&utm_u=1030448961&utm_source=weixinMoment
应用: 文本机器翻译、文本摘要、情感分析;知识图谱、问答系统、聊天机器人
4
自然语言处理
背景 : 如何表示词语所包含的语义?怎么用词语表示文本,让机器读懂? 向量空间模型(词袋模型): 1 元素 词出现为0,不出现为1 2 元素为 出现次数 3 元素为 ti-idf数值 Word Embedding(词嵌入) 核心思想:此本无义,义由境生:语义相关的词语,具有相似的上下文环境, 例如, 苹果和梨子具有相似的上下文语境。
基于Viterbi算法的词性标注; 分别基于tfidf和textrank模型抽取关键词;
2
自然语言处理
2 jieba系统框架 jieba分词系统,主要实现三个模块: 1 分词 2 词性标注 3 关键词抽取 其中,分词有三种模式,默认是精确模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词;
3
自然语言处理
概念 : Natural Language Processing/Understanding,自然语言处理/理解 希望机器能像人一样去理解语言,理解以人类自然语言为载体的文本所包含的信息,并 完成一些特定任务。
处理文本: 中文分词、词性标注、命名实体识别
命名实体识别的任务就是识别出待处理文本中的实体名词 三大类:实体类、时间类和数字类 七小类:人名、机构名、地名、时间、日期、货币和百分比 关键词提取、关系抽取、信息抽取、依存分析、词嵌入