当前位置:文档之家› 数据可视化展示PPT学习课件

数据可视化展示PPT学习课件

所有图形集中于同一个画图板上。
每种颜色对应同种定性变量数量变量的特 征。
2020/3/5
25
定性+定量变量
4.分面图形
至多两个定性变量与若干定量变量。
将画图板分割为矩阵,将不同的定量变量的图形按照定 性变量的不同画在的不同位置。
每个分块对应同种定性变量数量变量的特征。
2020/3/5
26
总结
定性变量
离群点。
2020/3/5
23
定性变量+定量变量
2.小提琴图
两个一维密度曲线结合而成,展示具有某种特征的变 量的分布特征。
中间某处越粗代表指标在此处分布越密集。
大部分正值变量呈右偏分布,呈现类似小提琴形状。
结合箱线图综合分析。
2020/3/5
24
定性+定量变量
3.分组图形
用于一个定性变量和若干个数量变量的关 系描述。
散点图的延伸。
可利用适当的变换对数据进行处理。
2020/3/5
19
定量变量——高维
5.相关系数图
探索多个数量型变量可能的线性相关关系。
红:负相关;蓝:正相关 颜色越深代表相关系数的绝对值越大
2020/3/5
20
定量变量——高维
6.平行坐标图
探究多个数量型变量的可能关系。
每条标准化之后的记录表示为图上的一组点,并连接 为折线段。
每个柱形表示数据在在A属性的各类分布, 每种颜色代表B属性的分布。
列联表常用的的展示方法,直观展示属性A 内各类数据的属性B各类的分布情况。
2020/3/5
13
定性变量
3.风玫瑰图
两个定性变量分布情况。
极坐标形式的数量型堆积柱形图。
每片“花瓣”大小代表A属性各类数目。
2020/3/5
14
定性变量
1.获取数据; 2.分析数据意义、结构; 3.过滤掉无价值的数据,保留有价值的数据; 4.挖掘数据规律,建立适合的模型; 5.可视化表述,选取合适的图形展示; 6.修饰,使图形变得直观、易读; 7.交互。
2020/3/5
7
使用数据说明——MDG
2000年9月,世界各国的领导人在联合国达成了一项新千年宣言的历史性协议,随之而来的协商形成了 关于新千年发展目标(MDG)进一步的协议,将用8个目标和100余个指标来监测其进展。这些目标包 括: a) 消除极度贫困和饥饿。 b) 普及全球初等教育。 c) 促进性别平等和提高妇女权力。 d) 减少儿童死亡率。 e) 提高母亲的健康水平。 f) 与艾滋病、疟疾和其它疾病作斗争。 g) 保证环境的可持续发展。 h) 为促进发展建立全球性的合作关系。
2020/3/5
3
Example——各编程语言关系可视化展示
2020/3/5
4
Example——词云图
2020/3/5
5
可视化的三要素
1. 信息 海量 复杂 高维 清理 统计
2. 设计 视觉 交互 简介 适度
3. 沟通 直观 高效 传递信息 发现知识
2020/3/5
6
基本流程(Ben Fry)
2020/3/5
可视化展示图形选取
10
1.定性变量 2.定量变量 3.定性变量与定量变量结合
2020/3/5
11
定性变量
1.饼图(扇形图)
单一定性变量的分布。
每一块扇形的面积大小对应该类数据占总体的比 例大小。
极坐标形式的柱形图。
2020/3/5
12
定性变量
2. 堆积柱形图
两个定性变量分布。
数量VS比例
中文含义
人口出生率 二氧化碳排放量(千吨) 二氧化碳排放量(吨每人) 森林覆盖率 森林面积 改善的水源 结核病发病率(每10w人) 互联网用户(每100人) 人口预计寿命 婴儿死亡率(每1000活者) 5岁以下死亡率(每1000活者) 总人口 每100人电话线数量 陆地保护区(占总表面积的百分比) 肺结核死亡率(每10w)
便于看出多个变量之间可能的关系。
2020/3/5
21
定量变量——高维
7.雷达图
将每列数据进行标准化,将条记录画在 一个图上,作几张图的对比。
适用于指标多,记录少的数据。
2020/3/5
22
定性变量+定量变量
1.箱线图
描述一个定性变量与一个数量型变量关系的常用图。
五个关键点:最大值、上四分位数、中位数、下四分 位数、最小值
2020/3/5
8
数据预处理
2020/3/5
9
数据集指标解释
Indicator Code
SP.ADO.TFRT EN.ATM.CO2E.KT EN.ATM.CO2E.PC AG.LND.FRST.ZS AG.LND.FRST.K2 SH.H2O.SAFE.ZS SH.TBS.INCD ER.P2 SP.DYN.LE00.IN SP.DYN.IMRT.IN SH.DYN.MORT SP.POP.TOTL IT.MLT.MAIN.P2 ER.LND.PTLD.ZS SH.TBS.MORT
数据可视化展示
——统计图形选取
1
2
可视化的概念
借助于图形化手段,清晰有效地传达与沟通信息。(维基百科) •数据可视化起源于1960年计算机图形学,那时候人们使用计算机 创建图形图表,可视化提取出来的数据,可以将数据的各种属性 和变量呈现出来。 • 随着计算机硬件的发展,人们创建更复杂规模更大的数字模型, 于是乎发展了数据采集设备和数据保存设备,而此时也需要更高 级的计算机图形学技术及方法来创建这些规模庞大的数据集。 • 随着数据可视化平台的拓展,应用领域的增加,表现形式的不断 变化,以及增加了诸如实时动态效果、用户交互使用等,数据可 视化像所有新兴概念一样边界不断扩大。
4.簇状柱形图
两个定性变量分布情况。
列联表常用的展示方法,直观对比两个定性变量 的交叉。
2020/3/5
15
定量变量
1.直方图
描述单一数量变量分布特征。 人为分出组区域,在每组统计数目或者频率。 与柱形图有本质区别。 可添加拟合曲线看出变量的粗略分布。
2020/3/5
16
定量变量
2.二维核密度曲线(等高线)
用于两个数量型变量点密度分布的展示。 散点图的衍生,也可看出两个变量间的关系。
2020/3/5
17
定量变量
3.气泡图
表示三个数量型变量的关系特征。
两个变量以散点图的形式画出展示第三个变量随前两个变量的变化。
2020/3/5
18
定量变量——高维
4.散点图矩阵
用于多个数量型变量关系探究。
1.单一变量:柱形图、饼图 2.两个变量:堆积柱形图、簇状柱形图、风玫瑰图
相关主题