当前位置:文档之家› 数据基础知识及数据处理

数据基础知识及数据处理

数据处理(从小数据到大数据)一、小数据1、信息的度量在计算机中:最小数据单位:位(bit)Bit: 0 或1 (由电的状态产生:有电1,无电0)基本数据单位:字节(Byte, B)1B=8bit1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB。

……2、不同数制的表示方法十进制(Decimal notation),如120, (120) 10,120D二进制(Binary notation) ,如(1010)2 , 1010B八进制(Octal notation) ,如(175)8 , 175O十六进制数(Hexdecimal notation) ,如(2BF)16 , 2BF03H3、不同数制之间的转换方法(1)任意其他进制(二、八、十六)转换成十进制,可“利用按权展开式展开”。

例如:10110.101B=1×24+0×23+1×22+1×21+0×20+1×2-1+0×2-2+1×2-3 =22.625D347.6O=3×82+4×81+7×80+6×8-1=231.75DD5.6H=D×161+5×160+6×16-1 =213.375D(2)十进制转换成任意其他进制(二、八、十六),整数部分的转换可按“除基取余,倒序排列”的方法,小数部分的转换可按“乘基取整,顺序排列”的方法。

(除倒取,乘正取)例,十进制数59转换为二进制数111011B例:十进制数0.8125转换为二进制数0.1101B同理:317 D= 100111101B = 475O = 13DH0.4375D = 0.0111B = 0.34O = 0.7H(3)八进制数转换成二进制数,可按“逐位转换,一位拆三位”的方法。

(8421法)例如:3107.46O= 3 1 0 7 . 4 6 O=011 001 000 111 . 100 110 B=11001000111.10011B(4)十六进制数转换成二进制数,可按“逐位转换,一位拆四位”的方法。

(8421法)例如:4A7.1CH= 4 A 7 . 1 C H= 0100 1010 0111 . 0001 1100 B=10010100111.000111B(5)二进制数转换成八进制数,可按“三位合一位,分节转换”的方法。

(8421法,三位时为421法)例如:11010101.1101B= 011 010 101 . 110 100 B= 3 2 5 . 6 4 O=325.64 O(6)二进制数转换成十六进制数,可按“四位合一位,分节转换”的方法。

例如:1011010101.11101B=0010 1101 0101. 1110 1000 B= 2 D 5 . E 8 H=2D5.E8H二、大数据大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据特征:(Volume大量)、(Variety多样)(Velocity高速)、(Value(价值)核心特征)(一)Volume(大量,>1PB)1PB= 1,024 TB = 1,048,576 GB 1EB= 1,024 PB = 1,048,576 TB 1ZB= 1,024 EB = 1,048,576 PB 1YB= 1,024 ZB = 1,048,576 EB 1BB= 1,024 YB = 1,048,576 ZB 1NB= 1,024 BB = 1,048,576 YB 1DB= 1,024 NB = 1,048,576 BB(二)Variety(多样)在大数据这个房间里,住着各种各样的“人”,它们分别叫做视频、聊天记录、人口普查结果、天气预报……(三)Velocity(高速)以一个存储1PB的数据为例,即使带宽(网速)能达到1G/s,且电脑的容量足够且24小时运行,要将1PB的数据存入电脑也需要12天。

大数据通过云计算,可以实现将12天才能存储完毕的数据,在20分钟之内完成。

4、Value(价值)这是大数据的核心特征,其最大价值在于从大量不相关的各类数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习(Machine Learning)、人工智能(Artificial Intelligence)或数据挖掘(Data Mining)等方法深度分析,发现新规律和新知识,并运用于社会各领域,从而达到改善社会治理、提高生产效率、推进科学研究的效果。

云计算云计算,作为一个新兴的技术时尚名词,正受到计算机软件和互联网技能人员及商业模式研究人员的高度追捧,他们百折不回地认为云计算能把他们带出创新枯竭的互联网应用沙漠,并让他们跃升到同行中更高的岗位。

他们视其为救命稻草,他们计划抓住云计算这根看起来模模糊糊的稻草,正是如此,云计算文章铺天盖地,种种格局的研讨会此起彼伏,以致已经生长到以讹传讹、神乎其神、不能自拔的田地了。

到底什么才是云计算呢?来看看下面这段对话吧!最开始,人们使用算盘后来,人们用电脑再后来,人们有了网络再后来,中国人口大爆炸,男女比例:男的比女的多3700万,这三千多万人没事干,都去上网。

于是服务器吃不消了。

于是人们就发明了很牛的技术,用更好更多的服务器再后来,人更多了,于是服务器也更多了但事实上这样的效果并不好,过度繁重的结构加大了网站设计和构架的难度,而且越是复杂的系统越是不稳定。

有可能一个出问题,这样一个完整的系统就彻底挂掉。

如果考虑到系统的崩溃情况,那势必要引入一个更复杂的方案来保证不同的服务器可以做不同的支援。

这是一个无解的循环,大量的计算资源被浪费在无限制的互相纠结中,很快到了瓶颈。

人们想,那我不用这么乱七八糟复杂的系统,我上个极其牛的服务器不就好了?可是,太贵了……而且最牛的也还没制造出来……于是人们突然想到了一个好办法:把所有计算资源集结起来看成是一个整体(一朵云),通过并发使用资源完成操作请求。

每个操作请求都可以按照一定的规则分割成小片段,分发给不同的机器同时运算,每个机器其实只要做很小的计算就可以,哪怕286机器都轻松完成的。

最后将这些机器的计算结果整合,输出给用户。

对用户看来,他其实根本面对的不是许多机器,而是一个似乎真正存在的计算能力巨牛无比的单个服务器。

事实上这个服务器是不存在的,但它拥有着成千上万台服务器的能力。

大数据技术基础知识1. 大数据的概念“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用,已逐渐成为行业人士争相追捧的利润焦点。

早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。

美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

此外,数据又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。

大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。

它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和或虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。

《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。

大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。

《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台—并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。

对于“大数据”,研究机构Gartner给出了这样的定义。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

从某种程度上说,大数据是数据分析的前沿技术。

简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。

明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。

目前人们谈论最多的是大数据技术和大数据应用。

工程和科学问题尚未被重视。

大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

2. 大数据的特征大数据的4个“V”,或者说特点有四个层面:(1)数据体量巨大从TB级别,跃升到PB级别。

最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1 024(2的十次方)来计算。

1 Byte= 8 bit1 KB= 1 024 Bytes1MB= 1 024 KB = 1 048 576 Bytes1 GB = 1 024 MB = 1 048 576 KB1 TB = 1 024 GB = 1 048 576 MB1PB= 1 024 TB = 1 048 576 GB1EB= 1 024 PB = 1 048 576 TB1ZB= 1 024 EB = 1 048 576 PB1YB= 1 024 ZB = 1 048 576 EB1BB= 1 024 YB = 1 048 576 ZB1NB= 1 024 BB = 1 048 576 YB1 DB = 1 024 NB = 1 048 576 BB(2)数据类型繁多诸如网络日志、视频、图片、地理位置信息等。

相关主题