大数据技术基础
SAS,一个功能强大的数据库整合平台,可进行数据库集成、序 列查询、序列处理等工作。
是一种面向对象、解释型计算机程序设计语言,在设计上坚持了 清晰划一的风格,这使得Python成为一门易读、易维护,并且被 大量用户所欢迎的、用途广泛的语言。
大数据之数据分析现代篇
➢ 2008年,美国自然杂志推出《大数据》专刊,全方面介绍大数据问题
➢ 2010年2月,《经济学家》(The Economist) The data deluge
➢ 2011年5月,Big Data: The Next Frontier for Innovation, Competition and Productivity 大数 据未来创新竞争生产力的指向标
大数据之数据采集与ETL
采集方法与工具 ➢ 人工采集——费时费力但是不可获取的手段 ➢ OCR——pdf解析 ➢ Excel——数据、自网站 ➢ 八爪鱼——八爪鱼数据采集系统 ➢ 网络爬虫——输入关键字,抓取全网与关键
字匹配的所有内容。
L工具 ➢ Kettle ➢ sqoop
大数据之数据采集与ETL——国泰安八爪鱼
大数据之重要言论
数据是与物质、能源一样重要的战略资源 中国工程院李国杰院士 Data is the new oil. “大数据、大影响” 大数据是资产,不是包袱 要拿数据说话 缺少数据资源就无以谈产业 缺少数据思维就无以谈未来
大数据之错误观点
大数据主要与大型数据集相关 在大数据的新世界中,我们必须更换所有陈旧系统 大数据就是 Hadoop 较为陈旧的事务数据已经不再重要 数据仓库已是昨日黄花 大数据适合熟知互联网的企业。传统业务与大数据毫无关系 我们不具备相应的需求、预算或者技能,因此我们不必为此担心
大数据技术基础探讨
数据科学家定义与技能
所谓的数据科学家,是指运用统计分析、机器学习、分布式处理等技术,从大 量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出 新的数据运用服务的人才。
——《大数据的冲击》
所需技能: ✓ 计算机科学与技术 ✓ 数学、统计、数据挖掘等 ✓ 数据可视化
在速度和规模上实现新产品创新 捕获所有来源的反馈,分析庞大的市场环境,研究大量的数据,从而推动创新。
即时的欺诈和风险意识 通过分析所有可用数据来打造更好的欺诈/风险模型,用流数据交易分析来实 时监测欺诈
利用仪表化资产 监控资产通过实时数据反馈来预测和预防维修问题,并且开发新产品和新服务。
大数据入门指引 大数据技术探索 大数据案例分享
Matlab是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵 实验室)。是由美国mathworks公司发布的主要面对科学计算、可 视化以及交互式程序设计的高科技计算环境。
SPSS是一系列用于统计学分析运算、数据挖掘、预测分析和决 策支持任务的软件产品及相关服务的总称。
SAS Python
大数据技术架构国泰安一站式大数据解决方案
大数据之数据源
没有软数据件! 名巧称妇难为无米之炊!
简介
CSMAR数据库是专门针对中国金融、经济领域的研究型
CSMAR数据库
精准数据库,包括股票市场、公司研究、基金市场、债券 市场、衍生市场、经济研究、行业研究、海外研究和专题
研究等14大系列,92个数据库。
大数据之数据存储现代篇
➢ NoSql ➢ mongoDB ➢ Cassandra ➢ HBASE ➢ Mysql ➢ HDFS
大数据之数据分析传统篇
软件名称
简介
➢R ➢ MATLAB ➢ SPSS ➢ SAS ➢ Python
R Matlab SPSS
R,一种自由软件编程语言与操作环境,具有统计分析功能。
量化舆情数据 库
量化舆情数据库是为了支持新闻传媒、品牌管理和量化 投资等研究,通过接收新闻站点、论坛、博客和微博等海 量舆情数据而建设的数据存储系统。
高频数据库是包含股票、基金、债券、权证、股指期货、
高频数据库 商品期货,港交所证券在内各类高频数据,及基于高频数
据传输、更新、应用软件在内的一套整体的系统解决方案。
大数据之前世今生
➢ 1980年,阿尔文·托夫勒在《第三次浪潮》中提出“数据就是财富”,“数据” 的价值首次被提出
➢ 1998年,SGI的首席科学家John R. Masey 在USENIX大会首次提出了“大数据”的 概念
➢ 2001年,Gartner提出,数据增长有三个方向的挑战和机遇:量大(Volume);速度快 (Velocity);多样性(Variety)。
➢
——麦肯锡咨询公司
➢ 2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”
为什么现在要谈大数据?
➢ 大数据民主化 ➢ 硬件性价比的提高以及软件技术的进步
计算机性价比的提高 磁盘价格的下降 大规模分布式处理基础hadoop的诞生 ➢ 云计算的普及
大数据的特征
大数据的来源
大数据入门指引 大数据技术探索 大数据案例分享
大数据之趣味故事
谷歌 预测流感病毒爆发 让数据发声:跟林彪学习数据分析 二手车质量检测:橙色的车有质量问题的可能性只有其他颜色 车的一半!? 奥巴马靠大数据赢得总统连任 沃尔玛:请把蛋挞和飓风用品放在一起 亚马逊推荐系统:数据能自己讲话?亚马逊1/3的收入来自于它 的个性化推荐系统
➢八爪鱼数据采集系统:以完全自主研发的分布式云计算平台为核心,可以在很 短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任 何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人 工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。
大数据之数据存储传统篇
➢ Sql ➢ Oracle ➢ Sybase ➢ DB2
➢ 社交网络 ➢ B2C和零售行业 ➢ 门户网站 ➢ 搜索引擎 ➢ 金融、电信行业 ➢ 军事、科学研究 ➢ 交通、物流运营数
据
大数据的冲击
了解关于您客户的一切 从渠道交互到社交媒体,通过分析所有数据来源帮助您了解您的每位客户
零延迟操作 分析所有可用的操作数据并且实时做出反应,从而优化流程。通过成本效益技 术降低IT成本。