当前位置:文档之家› 文本挖掘应用Mooc时代在线课程知识点自动提取的

文本挖掘应用Mooc时代在线课程知识点自动提取的

01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
MOOC,英文全称Massive Open Online Course, 中文全称为大规模在线开放课程。 MOOC发展非常迅速, 以Coursera为例,2011年底成立,2014年注册人数就突破 440万,学生来自196个国家,合作高校84所,426门课程
2.3相似度计算
• 余弦相似度 • Jaccard相似性系数 • 皮尔逊相关系数
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
自动提取课程知识点的框架
文档
预处理
专业 词典
分词
相似度计 算
候选课程 知识点
权重计算
专家评价
课程知识 点
3ห้องสมุดไป่ตู้1文档预处理
• 对文档进行分类,取MOOC中非常重要的3 类文档:
3.7综合测量值(Fmeasures)和专家评价
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
• 本实验采用基于.NET2010环境下的C#语言和 SQL2005进行编程,分词和词性标注采用中国科 学院的分词开源程序:SharpICTCLAS
• 本文选择《C语言程序设计》作为研究对象,从3 个MOOC平台中下载68个C语言的学习文档,通 过准确率(precision)、召回率(recall)和综 合测量值(Fmeasures)
• 采用VSM模型利用TF-IDF算法计算特征的 TF-IDF值
• 考虑到以后对知识点间关系的提取,需要 统计每个候选课程知识点的属性,包括: 所在文档的位置、所在文档字节大小、所 在段落位置、所在句子的位置、同一句子 中的其它候选知识点等等
3.4 相似度计算
3.5 权重计算
3.6 提取课程知识点
MOOC学习能够按期毕业的学生不足5%, 因此MOOC面临最大的问题-高辍学率
问题分析解决思路
• 主要原因:课程资源与学生能力不匹配
• 解决思路:根据学生的学习能力和兴趣爱 好向学生推荐合适的课程资源(个性化推 荐)
• 需要技术:本体推荐技术,首要任务是构 建本体,考虑大规模课程资源,需要自动 构建本体(本体学习,Ontology Learning)

用户评 价
知识
2.1概念过滤(Concept filters)
• 领域相关度 • 领域一致度
• 概率过滤
2.2词频TF-IDF
• 词频(term frequency,TF)指的是某一个给定的词语 在该文件中出现的频率
• 如果包含词条t的文档越少,也就是n越小,逆向文件频率 (inverse document frequency,IDF)是一个词语普遍 重要性的度量,基本思想:IDF越大,则说明词条t具有很 好的类别区分能力
• 知识点分为一级知识点(大类)和二级知识点( 小类),为了后面关系提取奠定基础
选取一级知识点阀值
选取二级知识点阀值
结果对比
通过Protégé的界面
谢谢!
课程本体学习
• 课程本体学习包括:
– 课程知识点自动提取 – 知识点之间关系自动提取
• 课程知识点自动提取是非常重要的任务, 也是关系提取的基础
01 引言 02 理论基础与方法 03 自动提取知识点的框架和算法 04 实证
文本挖掘一般方法
文档
物征提 取/文本
表示
特征选 择
挖掘方 法获取 知识模
– 教学文件、教学内容和习题库
• 将各种格式(word、pdf、html、XML、 Excel等)统一转化为纯文本文件格式( *.txt)
3.2中文分词与词性标注
• 采用中科院计算所研究的ICTCLAS开源软 件进行分词和词性标注
• 增加教育领域词典、计算机领域词典、以 及课程领域词典
3.3选择候选课程知识点
相关主题