当前位置:文档之家› 听课笔记大数据概论

听课笔记大数据概论

挑战
数据太多 维数灾难?
数据太乱 结构化与非结构化
生成机制难掌握(DGP, Data Generating Process)
谁是总体?谁在创造数据?
总体创造数据的动机和行为机制是什么?
官方统计还有存在必要吗?
结构化数据与非结构化数据
社会科学:因果与相关
社会科学的核心:因果解释
自然科学与社会科学:可控实验与自然实验
P2P贷款
众筹
网络虚拟
支付功能
0.5%费率
资源分配
投融资渠道不畅,超过30%中国人储蓄率在20%以上
征信的分类
资产(个人企业)
是否诚信(个人)
中国征信市场的现状
人民银行的征信系统有8亿数据(活跃的有3亿)
25%的人有征信数据
美国有70%的人
电商有个人消费数据(大概有3亿)
征信与消费的结合
租车
4W+1H
T:任务
P:效果评价
E:经验集(训练集)
训练和预测
最佳预测:Bias-Variance平衡
一般来说,模型越复杂,变量越多,Bias2越低,但var(f(x))越大
所以对于模型选择,一个很重要的准则是降维。
大数据对社会科学的机遇与挑战
机遇
数据来源极大拓展
获取信息速度大大加快
计算能力极大增强
核心:技术、数据+人
Computationby the people:如主体参与、群体智能
大数据的主要技术手段
关键技术
Hadoop:分布式管理平台
来自Google的设计思想:
一个分布式文件系统和并行执行环境(HDFS和MapReduce)
方便用户处理海量数据
云计算
机器学习
计算机针对特定任务(Tasks)和效果评价指标(Performance Measurement),基于已有经验(Experiences),自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P)
4.商业机构(手机记录、信用卡记录、保险记录、商场购物记录)、
5.健康数据(电子医疗设备记录、医疗检测)、
6.卫星信息系统(物联网)
我们都有哪些数据?
文本信息
中文分词
多媒体
时间序列(高频数据)
空间数据
网页数据
社会网络
大数据与社会科学
第一层次:基于数据的知识发现(KnowledgeDiscover in Database, KDD)
产品众筹(共)
股权众筹(权益)
债权众筹(权益)
私的含义:小众大额
非公开宣传
持有人不能超过200人
针对高端人群
众包
把复杂的任务以自由自愿的形式外包给非特定的大众网络的做法模式
利用空闲时间
靠大众力量

Rm(“A“)清除
Ls()显示出
Vector一位c
Matrix二位
Arraym*n*q*p一种类型储存
ListVectorMatrix二位
困难:反向因果与共因变量
统计学:从相关到因果
大数据:相关易于因果,相关重于因果?
大数据对研究还有意义吗?
大数据同样会促进“因果解释”
社会科学的研究范式:假设检验(演绎法)
大数据:寻找相关(归纳法)
信息增加与避免错误因果
政策:预测与因果
我们是不是过于重视“因果”?
关键:数据生成机制是否稳定?
两类政策问题:“降雨术问题”与“雨伞”问题
Array
8月25日
社会网络分析
郑路
1、概要
网络是指物体节点和物体之间的连线所组成的集合。
节点:行动者:个人、
作为单元互动结构的网络
网络研究看成是一切互动形式的研究
信息传递
网站链接
信息交换
贸易
信用与资金流动
友谊
信任
网络分析的隐含前提
比起节点自身的属性,节点之间的关系对行为的影响更甚。
买东西的决定受周围人际关系的影响
针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。
大数据特性:4V
Volume:体量巨大
Velocity:速度极快
Variety:模态多样
Veracity:真伪难辨
无所不在的数据生成源:
1.全社会(发言、网状结构)、
2.网络用户(浏览行为、搜索行为)、
3.管理者(发票、医院记录、交通检测)、
如:price index
预测(forcasting)和现测(nowcasting)
如:对google trends的利用
社会计算(ComputationalSocial Sciences)
Computationabout(of)the people:如社会情感
Computation forthe people:如信任计算、风险计算
大数据与社会科学概论
刘涛雄
大纲
1.大数据概论
2.大数据的主要技术手段
3.数据分析技术:机器学习概论
4.“大数据社会科学”
何为大数据?(Big Data)
特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。
但是,也不是简单地以规模论大,而是相对的复杂程度。
如果以现在计算机的能力:
针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。
有理论假设的好处:可以节省信息量,缩小搜寻范围。
当数据获取和处理能力足够强,KDD也能体现其优势。
例子:Hedonometrics and Twitter
How Obama’s Data Crunchers helped him win
活跃领域:
数据挖掘(data mining)
政治学、经济学、社会学、心理学、管理学
5P
5C+1S
支付数据——财务关系
消费数据——消费习惯
金融数据——信用记录
社交数据——个人特征
行为数据——
P2P点对点
线上获取信息和资金
பைடு நூலகம்流程:
获取借贷列表和信用审核
信贷审核:
实地审核
线上项目审核系统
确定借款利率
固定利率
按融资期限长短和信用等级确定利率
确定担保模式:
共同体众筹
类型(按回报划分)
捐赠众筹(共)
降雨术:因果(干预问题)
雨伞:预测(对策问题)
但任何一个政策措施,其影响可能是十分复杂的,有能被解释的部分也有不能被解释的部分。
互联网金融简介对中国的贡献
征信
财富管理
P2P
大数据要和先进的方法一起使用
一、传统金融业务
传统方式(支付、个人理财)放在互联网上支付
二、互联网和金融的化学反应、
支付体系
互联网征信
城市兴起
莫斯科为什么成为首都
热丽亚为什么成为政治、经济、文化中心
与地理位置有关,陆陆与水陆,水陆更重要
朋友的朋友对你的心里趋向有影响
某一节点的行为不仅与直接相联的连带有关,也会受到整个网络结构连结模式的影响。
从关注:“个体特征”到关注“关系”
现在营销分析关注社交网络,微信的股价是600亿,2015年赚了18亿美元,
小群体分析:
社会思潮分析:
美国选民的政治空间两极化。
网络与政治观点的关系?
国际贸易与国际关系
相关主题