当前位置:
文档之家› 基于k-Means算法的文本聚类(python实现)
基于k-Means算法的文本聚类(python实现)
聚类衡量指 标:SSE
改进算法: 二分K-means
2015年6月11日
• SSE:误差平方和。值越小表示数据越接近 簇的质心,聚类效果越好。因为误差取 平方和,因此更加注重远离质心的点。
• 思路:首先所有的点作为一个簇,然后不断调 用K-means(k=2),下一次迭代时选择有最大误差 的簇进行划分,直到划分为K个簇。
2015年6月11日
East China Norma景
图解算法
详细设计
数据可视
小结
2
博客聚类
[ Review1]
我们根据博客中单词出现的 频度对博客进行聚类,或许可以 帮助我们分析出哪些博客用户经 常撰写相似的主题,或者写作风 格十分相似。 本文我们将主要运用到以下预 备知识:
East China Normal University
谢谢聆听
2015年6月11日
@汪政 计算中心
STEP2:可视化 方法:多维标度 法降维,以便在 二维平面上展示。 (multidimensiona l scaling)
East China Normal University
文本聚类
选题背景
图解算法
详细设计
数据可视
小结
方法:multi-dimensional scaling(多维标度法)
step1 step2 step2
• 计算每一对点间距离(pearson) • N个点在二维平面上随机投影
• 计算误差,根据误差按比例移动点
2015年6月11日
East China Normal University
文本聚类
选题背景
图解算法
详细设计
具体实现
小结
7
小结
• 优点:容易实现
K-means聚类
• 缺点:可能收敛到局部最小值,在大规模数据集 上收敛较慢 • 适用数据类型:数值型数据
East China Normal University
基于K-means聚类的文本聚类 (Python实现)
Professional English Presentation
@汪政 导师:余青松
2015年6月11日
East China Normal University
CONTENTS
目录
1 3 5
• 数据预处理:构建数据集(非结构化 文化数据数值型结构化数据)
[Review2 ] • 相似性度量:皮尔逊相关度系数 • 距离度量:欧几里得公式 [Review3 ] • 多维标度法:把高维度数据进 行降维,以进行数据可视化。
2015年6月11日
East China Normal University
Abstract :随着科技进步和
2015年6月11日
East China Normal University
文本聚类
选题背景
图解算法
详细设计
数据可视
小结
1
文本聚类
影评
美文
游记
文本聚类主要是依据著名的聚类假设: 同类的文档相似度较大,而不同类的文档 相似度较小。作为一种无监督的机器学习 方法,聚类由于不需要训练过程,以及不 需要预先对文档手工标注类别,因此具有 一定的灵活性和较高的自动化处理能力, 已经成为对文本信息进行有效地组织、摘 要和导航的重要手段,也是自然语言处理 应用的预处理的重要步骤。 应用:对搜索引擎返回的结果进行聚 类、文档自动归类浏览、信息过滤,主动 推荐同类信息等。
文本聚类
选题背景
图解算法
初始化K=2
详细设计
数据可视
Dis=pearson
小结 Iter1 E A B C E D
K-means
A B C E D
A B C
D
Dis=pearson A B C E
Iter2
A B C E
D
D
2015年6月11日
East China Normal University
文本分类 图解K-means 数据可视化
2 4 6
选题背景 详细设计 小结
2015年6月11日
East China Normal University
摘要
关键词:
K-means、文本向量、SSE
存储成本的降低,人们倾向用电子 媒介存储文本信息和文件。读者需 要耗时从非结构化的文档集合中检 索相关的信息。当信息按组或类别 分类时,读查找从一大堆的文档中 查找更方便省时。怎么查找最好的 类的问题依然还在那里。本文我们 实现了基于K-means算法对非结构 化文本文档的聚类。基于分析的结 果聚类文件样本集,还提出了一种 技术来进一步提高聚类结果。
文本聚类
选题背景
图解算法
详细设计
数据可视
小结
4
文本聚类的详细设计
STEP1:预处理 (1)利用 爬虫获 取博客标题、内容 (2)利用正则表 达式取出HTML标 记、拆分单词、全 部转化为小写 (3)统计单词频 数,构建文本矩阵 (向量)(10%50%)
2015年6月11日
STEP2:聚类 (1)初始化k,随 机创建k个中心点 (2)利用皮尔逊 相关度系数计算 点间距离 (3)寻找最近的 中心点,并重新 移动中心点到平 均位置(迭代)