当前位置：文档之家› 文本挖掘应用Mooc时代在线课程知识点自动提取的

文本挖掘应用Mooc时代在线课程知识点自动提取的

01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
MOOC，英文全称Massive Open Online Course，中文全称为大规模在线开放课程。 MOOC发展非常迅速，以Coursera为例，2011年底成立，2014年注册人数就突破 440万，学生来自196个国家，合作高校84所，426门课程
2.3相似度计算
• 余弦相似度 • Jaccard相似性系数 • 皮尔逊相关系数
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
自动提取课程知识点的框架
文档
预处理
专业词典
分词
相似度计算
候选课程知识点
权重计算
专家评价
课程知识点
3ห้องสมุดไป่ตู้1文档预处理
• 对文档进行分类，取MOOC中非常重要的3 类文档：
3.7综合测量值（Fmeasures）和专家评价
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
• 本实验采用基于.NET2010环境下的C#语言和 SQL2005进行编程，分词和词性标注采用中国科学院的分词开源程序：SharpICTCLAS
• 本文选择《C语言程序设计》作为研究对象，从3 个MOOC平台中下载68个C语言的学习文档，通过准确率（precision）、召回率（recall）和综合测量值（Fmeasures）
• 采用VSM模型利用TF-IDF算法计算特征的 TF-IDF值
• 考虑到以后对知识点间关系的提取，需要统计每个候选课程知识点的属性，包括：所在文档的位置、所在文档字节大小、所在段落位置、所在句子的位置、同一句子中的其它候选知识点等等
3.4 相似度计算
3.5 权重计算
3.6 提取课程知识点
MOOC学习能够按期毕业的学生不足5%，因此MOOC面临最大的问题-高辍学率
问题分析解决思路
• 主要原因：课程资源与学生能力不匹配
• 解决思路：根据学生的学习能力和兴趣爱好向学生推荐合适的课程资源（个性化推荐）
• 需要技术：本体推荐技术，首要任务是构建本体，考虑大规模课程资源，需要自动构建本体（本体学习，Ontology Learning）
式
用户评价
知识
2.1概念过滤（Concept filters）
• 领域相关度 • 领域一致度
• 概率过滤
2.2词频TF-IDF
• 词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率
• 如果包含词条t的文档越少，也就是n越小，逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量，基本思想：IDF越大，则说明词条t具有很好的类别区分能力
• 知识点分为一级知识点（大类）和二级知识点（小类），为了后面关系提取奠定基础
选取一级知识点阀值
选取二级知识点阀值
结果对比
通过Protégé的界面
谢谢！
课程本体学习
• 课程本体学习包括：
– 课程知识点自动提取 – 知识点之间关系自动提取
• 课程知识点自动提取是非常重要的任务，也是关系提取的基础
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
文本挖掘一般方法
文档
物征提取/文本
表示
特征选择
挖掘方法获取知识模
– 教学文件、教学内容和习题库
• 将各种格式（word、pdf、html、XML、 Excel等）统一转化为纯文本文件格式（ *.txt）
3.2中文分词与词性标注
• 采用中科院计算所研究的ICTCLAS开源软件进行分词和词性标注
• 增加教育领域词典、计算机领域词典、以及课程领域词典
3.3选择候选课程知识点

e商务文档

文本挖掘应用Mooc时代在线课程知识点自动提取的

相关文档推荐：