当前位置：文档之家› 基于k-Means算法的文本聚类(python实现)

基于k-Means算法的文本聚类(python实现)

聚类衡量指标：SSE
改进算法：二分K-means
2015年6月11日
• SSE:误差平方和。值越小表示数据越接近簇的质心，聚类效果越好。因为误差取平方和，因此更加注重远离质心的点。
• 思路：首先所有的点作为一个簇，然后不断调用K-means(k=2),下一次迭代时选择有最大误差的簇进行划分，直到划分为K个簇。
2015年6月11日
East China Norma景
图解算法
详细设计
数据可视
小结
2
博客聚类
[ Review1]
我们根据博客中单词出现的频度对博客进行聚类，或许可以帮助我们分析出哪些博客用户经常撰写相似的主题，或者写作风格十分相似。本文我们将主要运用到以下预备知识：
East China Normal University
谢谢聆听
2015年6月11日
@汪政计算中心
STEP2：可视化方法：多维标度法降维，以便在二维平面上展示。（multidimensiona l scaling）
East China Normal University
文本聚类
选题背景
图解算法
详细设计
数据可视
小结
方法：multi-dimensional scaling（多维标度法）
step1 step2 step2
• 计算每一对点间距离（pearson） • N个点在二维平面上随机投影
• 计算误差，根据误差按比例移动点
2015年6月11日
East China Normal University
文本聚类
选题背景
图解算法
详细设计
具体实现
小结
7
小结
• 优点：容易实现
K-means聚类
• 缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢 • 适用数据类型：数值型数据
East China Normal University
基于K-means聚类的文本聚类 (Python实现)
Professional English Presentation
@汪政导师：余青松
2015年6月11日
East China Normal University
CONTENTS
目录
1 3 5
• 数据预处理：构建数据集（非结构化文化数据数值型结构化数据）
[Review2 ] • 相似性度量：皮尔逊相关度系数 • 距离度量:欧几里得公式 [Review3 ] • 多维标度法：把高维度数据进行降维，以进行数据可视化。
2015年6月11日
East China Normal University
Abstract ：随着科技进步和
2015年6月11日
East China Normal University
文本聚类
选题背景
图解算法
详细设计
数据可视
小结
1
文本聚类
影评
美文
游记
文本聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段，也是自然语言处理应用的预处理的重要步骤。应用：对搜索引擎返回的结果进行聚类、文档自动归类浏览、信息过滤，主动推荐同类信息等。
文本聚类
选题背景
图解算法
初始化K=2
详细设计
数据可视
Dis=pearson
小结 Iter1 E A B C E D
K-means
A B C E D
A B C
D
Dis=pearson A B C E
Iter2
A B C E
D
D
2015年6月11日
East China Normal University
文本分类图解K-means 数据可视化
2 4 6
选题背景详细设计小结
2015年6月11日
East China Normal University
摘要
关键词：
K-means、文本向量、SSE
存储成本的降低，人们倾向用电子媒介存储文本信息和文件。读者需要耗时从非结构化的文档集合中检索相关的信息。当信息按组或类别分类时，读查找从一大堆的文档中查找更方便省时。怎么查找最好的类的问题依然还在那里。本文我们实现了基于K-means算法对非结构化文本文档的聚类。基于分析的结果聚类文件样本集，还提出了一种技术来进一步提高聚类结果。
文本聚类
选题背景
图解算法
详细设计
数据可视
小结
4
文本聚类的详细设计
STEP1：预处理（1）利用爬虫获取博客标题、内容（2）利用正则表达式取出HTML标记、拆分单词、全部转化为小写（3）统计单词频数，构建文本矩阵（向量）（10%50%）
2015年6月11日
STEP2：聚类（1）初始化k,随机创建k个中心点（2）利用皮尔逊相关度系数计算点间距离（3）寻找最近的中心点，并重新移动中心点到平均位置（迭代）

e商务文档

基于k-Means算法的文本聚类(python实现)

相关文档推荐：