数据密集型科学研究范式
整体,它的存在给科学家提供了一个研究纲领; (3)范式还为科学研究提供了可模仿的成功的先例。
在库恩的范式理论中,范式归根到底是一种理论体系。
1.1 范式的演变
“范式转移”,是指一个领域里出现新的学术成果,打破了原有的假设或者法则,从而迫使 人们对本学科的很多基本理论做出根本性的修正。
地平说
地圆说
1.2范式的演变
1.2.1经验范式
➢ 经验范式偏重于经验事实的描述和明确具体的实用性的科学研究范式。在研究
方法不上良以情归绪纳的为发主现,带有较多盲无目性侵的入观式测感和知实验。
情绪识别的准确
➢ 经典研究方法“三表法”:先观察,进而假设,再根据假设进行实验。 ➢ 主要科学模型:科学实验
1.2.2理论范式
➢ 理论范式主要指偏重理论总结和理性概括,强调较高普遍的理 论认识不而良情非绪直的接发现实用意义无的侵科入式学感研知究范式。情绪识别的准确
➢ 在研究方法上以演绎为主,不局限于描述经验事实。 理论范式的模型为数学模型。
1.2.3模拟范式
➢ 模拟范式是一个与数据模型构建、定量分析方法以及利用计算机来分析和解决科学问题的研究范式。
➢ 研究域:数值不模良拟情,绪模的拟发拟现合与数据分析,无计侵算入优式化感。知
情绪识别的准确
模拟范式在研究中所用模型主要是计算机的仿真/模拟
作为一个独立实体而
存在 20世纪中叶,
第二次世界大战后
2009年
实证分析为主的方法论
第四种范式——数据密集型科 学范式
研究主体 应深入现场
Case 1: Quantified Health Status of Learners(UCD, Ireland)
Case 2: Quantified Emotions of Learners(HU-Berlin, Germany)
E
N
T
惑。 并且他/她的意见/反馈可通过每种情绪的主题概率分布来建
S
β
D
E
模(例如,在负面情绪分布中,作业难度、授课风格与课程安排
三种话题各占40%,30%和30%);然后在撰写每个句子时首先 P(ei j, zi k | e-i ,z-i ,w)
确定一个情绪类别,然后从情绪-话题分布中选出一个话题去描述
4.来自于跨学科、横向研 究的参考型数据(人类 基因数据)
2.来自于物理学、医学、生物 学、心理学等学科领域的大型 实验设备的试验型数据(如大 型強子對撞機、粒子加速器试 验数据)
5. 人类的人口统计学数据和产生的在线行为数据(消费、浏览、发帖)
2.3关联数据运动
2006年,互联网之父伯纳斯•李在讨论 关于语义网项目的一份设计记录中提 出了发展数据网络的设想,并创造了 “关联数据(Linked Data)”,提出数据 网络的核心即关联数据。
情绪密度计算
EDet
1
PostNum(t
)
PostNum(t )
n 1
EmoWordNum(Postnt ), WordNum(Postnt )
当
WordNum(Postnt )
0
时
0,
当 WordNum(Postnt ) 0 时
案例: 情绪的时序演化分析
0.02
整
体
0.015
PED
积极情绪
数据密集型科学研究范式
刘智
教育大数据应用技术国家工程实验室 国家数字化学习工程技术研究中心
华中师范大学 二〇二〇年四月
提 纲
目录范式与范式的演化过程 第四范式兴起的社会根源
contents
对第四范式的分析
研究流程
01
范式与范式的演化过程
3
1.1 范式的定义
❖ “范式”:英文“Paradigm”,意为“模范”或“模型”。
Positive-T1 Negative-T25 Confusion-T38
好/good (0.037), loveliness (0.023), 生活/life (0.023), 乐观/optimism (0.019), 积极/positive (0.017), 心态 /mentality (0.016), 调整/adjust (0.015), 培养/foster (0.011), 赞同/agree (0.011), 方法/method (0.011)
2.3关联数据运动
关联数据就是用主体、谓语、客体三元组来表示资源的RDF(Resource Description Framework)格式数据,关联数据描述了一种出版结构化数据让其 能够互联和更加有用的方法,它依赖标准互联网技术,如HTTP和URIS,不仅 使用他们服务于人类可读的网页,而是扩展到以能被计算机自动阅读的方式分 析信息。
关联数据有别于互联网上的文件互联,它强调数据互联,将以前没有任何关联 的数据链接到一起,允许用户发现、描述、挖掘、关联和利用数据。
关联数据
大数据—案例
大数据—案例
➢ 数据来源: 匿名校园卡所记录的近2万名大学生在没有外界干预情况 下的行为数据,包括食堂吃饭、宿舍洗澡、教学楼打水 和进出图书馆4种行为约3000万条刷卡记录。
11
1.2.4数据密集型研究范式
➢ 2007年,计算机图灵奖得主吉姆•格雷在美国国家研究理事会计算机科学和远
程通信委员会(NRC-CSTB)演讲报告中提无出侵了科入学式研感究知“第四范式”,即情以绪数识别的准确
据密集型研究范式为基础的科学研究范式。
➢ 数据密集型范式是针对数据密集型科学,有传统的假设驱动向 基于科学数据进行探索的科学方法的转变而生成的科学研究范 式。
案例: 情绪-话题的联合建模与时序演化分析
问题
• 1.在SPOC论坛中,学习者最关注的话题是什么? • 2.在SPOC论坛中,不同学业成就组的情绪-话题有何差异?
模型
μ t
ψ
T E
e
π
γ
在撰写帖子前,学习者已经有一个在线学习的直观感受(对 α
θ
z
w
应于的一个情绪分布),例如,50%满意,30%不满意和20%困
Case:学业情感分析
❖情绪作为教学活动中一种重要的非智力因素(D’ Mello et al.,
2008),是影响SP学O习C者论与坛教学中者的之情间的绪教分与析学互动及教学质量
的核心因素之一,也是教学者观察和分析学习者学习状态的重 要依据。 ❖SPOC(Small Private Online Course)作为一种限制性的在 线学习课程平台,其论坛已越来越多地被高校教师用于课后探 究式讨论、问题答疑及意见反馈,该场景蕴藏着丰富的群体学 习反馈和学习状态信息。
➢ 研究对象:科学数据
1.2.4数据密集型研究范式
无侵入式ห้องสมุดไป่ตู้知
情绪识别的准确
教育研究范式的发展演变
育研究的发展演变
不良情绪的发现
无侵入式感知
情绪识别的准确
有教无类 因材施教
昆体良
“模仿—理论—练习” 三阶段学习过程理论
教育研究范式的发展演变
育研究的发展演变
哲学思辨范式
17世纪中叶
20世纪初
解释主义范式 雅虎宣布研究院不再
2.2科学界对数据的关注
报告称: 2010年企业在磁盘上存储了超过7EB的新数据,消费者在个人计算机上存储了超过 6EB的新数据, 1EB=10亿GB 相当于美国国会图书馆中存储数据的4000多倍
2.2科学界对数据的关注
26
2.2科学界对数据的关注
刊登专辑 “数据处理” Dealing with data”
➢ 生活规律性和学业成绩正相关
横纵坐标是归一化后的生活规律性指数和GPA得分 (减去平均值再除以标准差)。可以看到,不管是 吃饭还是洗澡,生活越规律,平均而言成绩越好。
2.3关联数据运动
关联数据运动 36
2.3关联数据运动
37
2.3关联数据运动
美国国会图书馆
世 界 银 行
纽 约 时 报
38
Case: Facebook如何使用大数据?
组情
高成就组 (HG)
均值 中等成就组
(MG)
课程周
F 低成就组
(LG)
显著性
事后 检验
低成就组(LG)的困惑情绪表现 最多,高成就组(HG)次之,
绪
PED
0.046
0.049
0.046
0.203 0.816 N/A
中等成就组(MG)表现最少;
CED
0.015
0.012
0.022 6.725** 0.001 LG>HG* 低成就组的消极情绪最多,中
Case: Facebook如何使用大数据? 案例
闪回
我投票
庆祝骄傲
Case:主题数据
Case:交通行为预测
基于用户和车辆的LBS定位数据,分析 人车出行的个体和群体特征,进行交通 行为的预测。交通部门可预测不同时点 不同道路的车流量进行智能的车辆调度, 或应用潮汐车道;用户则可以根据预测 结果选择拥堵几率更低的道路。
Facebook作为最大的 社交平台,每天都有 大量的数据产生。
Case: Facebook如何使用大数据?
Facebook通过分析用户数据来确定用户行为,通过分析用户的Facebook喜欢,可以准确地预测一 系列高度敏感的个人属性数据。 剑桥大学和微软研究院的研究人员开展的工作展示了Facebook喜 欢的模式如何能够非常准确地预测你的性取向,对生活的满意度,智力,情绪稳定性,宗教,酒精 使用和吸毒,关系状态,年龄,性别,种族和政治观点 - 以及其他许多观点
CED
NED
困惑情绪 负面情绪
积极>消极>困惑 学期初与学期末两阶段, 三种情绪出现峰值,表