当前位置：文档之家› 文本挖掘(Text Mining)技术基础

文本挖掘(Text Mining)技术基础

8
Lucene 系统架构
9
搜索引擎中文本挖掘典型问题
在搜索引擎中关于文本挖掘的典型问题
—怎样得到一篇文章的关键词、主题？ —怎样用计算机可识别的数学公式来表征一篇文档 —怎样处理查询关键词与文档的相似度 —怎样度量两篇文档的相似度？
10
信息检索模型
信息检索模型（Information Retrieval Model）是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法。信息检索模型本质上是对相关度建模。
40
分词：中文特征词(Term)的粒度
Character，字：中 Word，词：中国 Phrase，短语：中国人民银行 Concept，概念
—同义词：开心高兴兴奋 —相关词cluster，word cluster：葛非/顾俊
N-gram，N元组：中国国人人民民银银行
某种规律性模式：比如某个window中出现的固定模式
2 i 1
相关相似性（Pearson相关系数）
sim(u, v)

iIuv
iIuv
( Rui Ri )( Rui Ri )
( Rui Ri )2

iI uv
( Rvi Ri ) 2
修正的余弦相似性（adjusted-cosine similarity）
sim(u, v)
30
Inverted Files
Inverted Files
Word-Level Inverted File
Lucene Term Vectors (TV)
In Lucene, a TermFreqVector is a representation of all of the terms and term counts in a specific Field of a Document instance
TF-IDF的作用：
—某一特定文件内的高词语频率，以及该词语在整个文件
集合中的低文件频率，可以产生出高权重的TF-IDF。
—因此，TF-IDF倾向於过滤掉常见的词语，保留重要的词
语。
21
TF-IDF的例子
22
摘自：http://bit.ly/cbDyIK
向量空间模型 VSM（Vector Space Model）
文本挖掘（Text Mining）技术基础
出家如初,成佛有余 2010年10月
1
议题
搜索引擎文本挖掘基础
文本挖掘基础
2
搜索引擎技术不单纯只是搜索
搜索引擎技术除了实现Web搜索、图片搜索外，还能够干什么？搜索引擎核心技术有哪些？
—网络爬虫
—中英文分词 —排序算法
2014-3-17 41
分词：主要的分词方法
最大匹配法（Maximum Matching method, MM 法）：选取包含6-8个汉字的符号串作为最大符号串，把最大符号串与词典中的单词条目相匹配，如果不能匹配，就削掉一个汉字继续匹配，直到在词典中找到相应的单词为止。匹配的方向是从右向左。逆向最大匹配法（Reverse Maximum method, RMM 法）：匹配方向与MM法相反，是从左向右。实验表明：对于汉语来说，逆向最大匹配法比最大匹配法更有效。
37
Lucene Scoring核心类图
38
Lucene MoreLikeThis
Lucene 的contrib包中提供了MoreLikeThis 、 MoreLikeThisQuery包，很容易实现“您可能也喜欢”的功能
—org.apache.lucene.search.similar.MoreLikeThis
—数据中心优化技术
数据中心高温化、12V电池、服务器整合
参考：探索Google App Engine背后的奥秘
4
搜索引擎技术使用场景：内容相似度
新闻站点的“您可能也喜欢”
—本质为：两篇文档/图书/商品内容的相似度
5
搜索引擎技术使用场景：内容分类、聚类
6
通用搜索引擎系统流程
7
Lucene 系统架构
—org.apache.lucene.search.similar.MoreLikeThisQuery
参考：http://bit.ly/dpUQAP
String indexDir = "d:/index";
FSDirectory directory = FSDirectory.open(new File(indexDir));
35
Lucene Scoring 评分机制
36
Lucene Scoring 评分机制
参考org.apache.lucene.search.Similarity
/java/3_0_2/scoring.html http://bit.ly/bq7xNh
文档和查询条件的相似度值由以下公式获得：
dj

q
26
向量相似度算法
余弦相似性（cosine-based similarity）
u v sim(u , v) cos(u , v) uv
R
i 1 n i 1 ui
n
ui
Rvi
n 2 vi
R R
VSM的基本思路：用向量模型来标识一篇文档或一个查询？把文档看作一系列索引词(Inex Term)组成，每一个词都有一个权重(Term weight)，不同的索引词根据自己在文档中的权重来影响文档相关性的打分计算。在向量空间模型中可以把所有此文档中词(term)的权重 (term weight) 看作一个向量，并以此权重向量来表征文档。查询和文档都可转化成索引词及其权重组成的向量

iI uv
iI uv
( Rui Ru )( Rui Rv )
( Rui Ru )2

iI uv
( Rvi Rv ) 2
27
文档相似性
其中：
—Di为文档i —Wij是第i个特征项在第j个文档向量中的权值
28
Vector Space Model
29
向量空间模型例子
摘自：http://bit.ly/cbDyIK
Lucene Term Vectors (TV)
Field.TermVector.NO:不保存term vectors
Field.TermVector.YES:保存term vectors
Field.TermVector.WITH_POSITIONS:保存term vectors.(保
—参数估计难度较大
—条件概率值难估计 —系统的检索性能提高不明显，需与其他检索模型结合
17
词频（TF）、文件频率（DF）
假如要搜索一个词语ti 在文件集合{d1 ,d2 ,...,dn }出现的频率，则有两部分的重要信息： ti 在某篇文档dj 中出现的次数，称为此词语在此篇文档的频率（词频）：TF(Term Frequency) 文档集合{d1 ,d2 ,...,dn } 中包含ti 的文档个数，称为此词语在文档集合{d1 ,d2 ,...,dn }的文件频率：DF（Document Frequency ）
18
TF(Term Frequency):

19
IDF(inverse document frequency)

20
TF-IDF
把TF(Term Frequency)、IDF(inverse document frequency)这两项结合起来，对单词t和文档d，定义 TF-IDF(t,d) = TF(t,d) * IDF(t)
As a tuple:
termFreq = <term, term countD> <fieldName, <…,termFreqi, termFreqi+1,…>>
As Java:
public String getField();
public String[] getTerms(); public int[] getTermFrequencies(); Parallel Arrays
IndexReader reader = IndexReader.open(directory); IndexSearcher searcher = new IndexSearcher(reader); int numDocs = reader.maxDoc();
MoreLikeThis mlt = new MoreLikeThis(reader);
存值和token位置信息)
Field.TermVector.WITH_OFFSETS:保存term vectors.(保存
值和Token的offset)
Field.TermVector.WITH_POSITIONS_OFFSETS:保存term
vectors.(保存值和token位置信息和Token的offset)
—Text Mining相关
—海量数据存储 —分布式计算 —等等
3
Google的十大核心技术
Google的十大核心技术：
—分布式基础设施：
GFS、Chubby、Protocol Buffer
—分布式大规模数据处理
MapReduce、Sawzall
—分布式数据库技术：
BigTable、Sharding
mlt.setFieldNames(new String[] {"title", "author"}); mlt.setMinTermFreq(1); mlt.setMinDocFreq(1) ..

e商务文档

文本挖掘(Text Mining)技术基础

相关文档推荐：