一体化数据管理平台DATRIX产品介绍因“虚”而实,数据管理创新需求篇IDC数字宇宙研究《从混沌中提取价值》指出,全球的数据量每18个月就要翻一番,目前每年产生的数据量已经高达40EB(1EB=10000PB),未来十年全球的大数据将增加50倍。
数据飞速的甚至是爆炸式的增长方式,每个信息用户都深有体会,从上世纪早期数据容量大多以MB为单位,到上世纪末过渡到以GB为单位,再到当前TB已是标准单位,甚至PB级别的数据量在很多系统中也不再是一个偶然现象,种种迹象表明,大数据的时代已真正到来。
大数据这个词汇越来越多地被提及,从大数据的定义来说,大数据具备三个V的显著特性:1、Volume:数据量巨大,起码是TB级别以上的数据量才称之为大数据,对于大数据来说,数据量的巨大导致访问、处理、传输各个方面开销显著增加,也就有必要使用更好的处理方式来应对。
2、Variety:数据类型繁多,结构化数据、非结构化数据和半结构化数据各自均包含多种数据类型。
结构化数据中主要为数据库数据(ORACLE、DB2、SQL等);非结构化数据类型更为丰富(办公文档、文本、图片、XML、HTML、各类报表、视频、音频等);半结构化数据是一种新型的定义方式,相对于结构化数据的先有结构再有数据,半结构化数据则是先有数据再有结构。
多种数据类型并存导致整个数据处理难度加大,无法用统一的手段来解决全数据问题。
3、Velocity:数据增长非常快速,这种增长速度之前是难以想象的,随着更多的业务发展(社交媒体、云计算、物联网等),各种先进数据格式的出现(高清、3D、富媒体等),导致了数据是爆炸式的增长速度。
这种爆炸式的数据增长主要是由数据的属性所多样化带来的,数据首先具备时间属性,历史数据、当前数据和未来数据均需要保持和考虑,需要保留多个历史副本;其次数据具备多格式的特性,一份数据会因应用系统的不同而带来不同格式的访问需求;最后数据还要有多位置的属性,在个人、家庭、单位及云环境下会有多个副本,用于多个场景。
非结构化数据管理难题非结构化数据在大数据中时代的地位无疑是最为重要的,根据Gartner统计,在当前的环境中,企业有20%的数据是结构化数据,80%的数据是非结构化数据。
其中,结构化数据增长率大概是32%,非结构化数据年复合的增长率则高达63%。
同时,整个非结构化数据很大一部分是来源于人与人的互动及自我生产,是以人为中心产生的,所以它的重要性不言而喻。
结构化数据我们都非常熟悉,典型的应用在企业中就是事务数据、定量的数据,可以被二元属性来描述。
结构化数据采用数据库的组织形式就可以很好的被管理,企业通常通过结构化数据的收集、存储、查询来生成报表、研判趋势、制定战略、优化运营。
非结构化数据管理的难题主要在于无法很好的统一描述,并且很难用现有成熟的平台进行管理,举例来说你无法将影像资料数据和微博产生数据用统一的方法来管理。
换言之,非结构化数据无法简单的用二元属性来描述,也就很难由现有的数据库系统来统一管理,这些种类越来越多、比重越来越大的非结构化数据为企业的数据管理带来巨大挑战,如果缺乏有效管理将导致整个IT系统运行效率低下、影响应用系统的使用、进而丧失数据价值。
当前过渡方案针对非结构化数据难以管理的难题,不同的行业提出了许多不同的方案及产品,然而这些基于行业的非结构化数据管理解决方案有极强的行业特性,往往采用的是将非结构化数据转为结构化数据进行处理,可以部分满足当前小数据规模情况及可预计数据类型情况下的非结构化数据管理。
广电行业的媒资管理系统实际就是一个非结构化数据专用管理平台。
大多数当前的媒资管理系统偏向归档和内容管理,对整个数据的行为分析则很少涉及,实际上放弃了很重要的数据行为分析等有价值的内容,并且人为的将在线编辑和近线媒资管理区别开来也对整个系统的有效应用带来了困扰。
再看医疗行业的PACS系统就是典型的非结构数据管理方案,其主要针对医疗影像系统(高分辨率片子)进行有效的管理、存放,结合其他的患者基本信息和诊断书进行统一关联,可以提高诊断效果和效率。
一旦有新的非结构化数据产生的系统上线,则有可能需要再次对整个系统进行改造,才能满足使用需求。
再比如在保险行业,个人基本资料等理赔人属性和赔付金额、日期等理赔数据都可以做成关系型数据存入数据库,但还有些资料,比如理赔对象的住院产生的单据、其他说明资料等非结构化数据则会以文件形式存储起来。
当理赔员做赔案时,则会将所有资料都调出,以前没有专门的非结构化数据管理,整个调用纸质资料的过程甚至长达数月时间,对用户满意度和理赔准确率、及时率的影响都非常大。
简单对比以上的非结构化数据管理方案,我们会看到很大的问题,总结来说就是它们都没有从数据管理本质出发解决问题,而是修补性的解决当前部分问题,这就导致随着数据量的日益巨大(Volume)、数据类型的越来越丰富(Variety),数据增长越来越快(Velocity),整个系统将难以支撑。
所以,如果一个行业完全根据当前需求来建设非结构化数据的管理系统,就无法跟上大数据时代的步伐,被动地去适应,终究会被淘汰。
一体化数据管理平台DATATOM因“虚”而实,提倡数据管理创新,立足数据管理技术及产品,向用户推出一系列数据管理行业解决方案。
DATRIX是DATATOM专门针对非结构化数据的特点,抓住数据管理本质(八个数据管理维度)来解决非结构化数据管理难题的产品,其主要解决的问题包括:数据类型难以统一,非结构化数据很大的特点就是其杂乱性,各种类型的数据,有各种各样的数据属性,所以无法象结构化数据一样用数据库来统一描述所有的数据类型。
DATRIX采用半结构化的描述方式,将不同的数据类型文件用同样的描述语言描述,可在用户环境内将支持的所有类型文件翻译为同一种描述语言,在对相应的数据进行统一分类、编目及标签。
这样,无论用户的非结构化数据如何变化,都将在DATRIX中统一有效管理。
数据访问难以同步,大多数行业非结构化数据的管理会将在线和近线分离开来,也就是生产数据的系统为在线应用,非结构化数据管理系统为近线系统,这种割裂的管理方式主要是因为之前的非结构化数据生产系统和非结构化数据管理系统是由不同的系统构成的,生产系统强调的是效率,而管理系统强调的则是管理。
这种方式让用户无法有效实现通畅的业务流程,也会带来很多不必要的开销。
DATRIX则结合了DATATOM在非结构化数据生产系统(在线存储)和非结构化数据管理系统(近线存储)的专业能力,有效的将两个系统的数据访问同步结合在一起,为用户体验带来显著收益。
例如在广电行业,我们就将广电专用网络存储NEUTRINO和数据管理平台DATRIX的特性结合在一起,用户在非线编辑系统中可直接上载数据入媒资库,也可直接在媒资库中下载数据到非线编辑系统,而整个流程是完全不产生网络流量,仅在系统内部进行交换。
数据内容难以查找,文本内容、文档内容、视频内容、音频内容及图片内容,这些除了文本内容便于识别外,大多数内容是很难被查找的。
DATRIX则在很多方面突破了限制,采用多种特征算法,实现了大部分数据内容的查找。
这样一来,用户可以通过细节定位,快速找到相关的数据,避免了在浩瀚的数据内找不到相关数据的困境。
同时,DATRIX支持自动分类、编目分类和标签分类,并可提供相应的行业模板,用户可以方便的将数据进行有效的分类,并对其进行全面的索引,也大大提高了数据的查找效率。
数据安全难以保障,一旦数据进入了管理平台,往往在线应用将不再保存副本,,因此数据的安全性非常重要,一旦丢失,影响很大。
DATRIX在这方面主要通过单节点方案的可靠性和多节点分布式系统来予以保障。
真对于单节点的方案,DATRIX首先采用一台专用的存储设备,具备了专业存储对于数据安全的所有方面(RAID、冗余电源、冗余系统及性能自告警等)设计。
同时,单节点可扩展到两两镜像(设备级别镜像),可配置定时(最小1分钟)及实时的同步镜像方式,尤其是实时的同步镜像方式基本可以做到数据的完全一致,即便其中任何一台设备故障,镜像设备的数据可继续提供服务并保证数据的一致性。
多节点分布式系统则借助DATATOM的分布式云存储产品INFINITY的设计,可实现指定数据(目录)的多份保存,在节省容量空间的前提下,还可以实现磁盘、节点、网络等任何故障情况下数据的不丢失。
数据行为难以分析,数据的增长是如何的?数据的访问规律是如何的?数据的冷热分布是如何的?DATATOM在系统内记录着所有数据行为,并为数据的周期进行完整的记录,这对于用户来说,可提供更多地决策依据,实现更多价值的挖掘。
在非结构化领域选择DATRIX系列产品将使您的非结构化数据管理摆脱以往的困境,提供一个具备良好支持能力的非结构化数据管理平台,同时,考虑到用户的实际差别较大,行业特征各不相同,我们也可以为您提供相应的开放数据管理接口,匹配您的应用环境,直接整合到企业现有的业务中去,更好的提升系统工作效率。
功能篇DATRIX是DATATOM推出的一体化数据管理平台。
DATRIX的一体化体现在数据管理维度的全面覆盖,将数据存储、数据安全、数据迁移、数据分享、数据转码、数据分类、数据查找和数据分析在一个系统上实现。
DATRIX的数据管理则体现在非结构化数据领域,可针对用户非结构化数据实现文本、文档、视频、图片、音频等各种类型的数据的有效统一管理。
而DATRIX的平台体现在整个系统架构可从单节点到双设备,并利用集群云计算技术来实现其无限Scale Out(访问带宽、数据容量、计算资源)的扩展能力。
八大数据管理维度DATATOM团队经过多年的市场分析与技术实践,深刻的认识到在整个数据管理领域其实有许多细分的实现,例如存储设备解决的是数据存储的问题,而备份容灾解决的是数据安全问题,如果将所有的数据管理维度都整合起来,对用户而言才是真正的全面数据管理解决方案。
我们认为,正如上图所示,整个数据管理涉及八大维度,这八个数据管理维度相互之间进行有效交互,才能真正的提升用户的数据管理能力,为用户的数据带来除应用属性外的更多价值。
存数据管理DATRIX采用专业存储产品作为基础平台,DATRIX D2400和DATRIX D7200分别实现单设备24TB(1500小时25Mbps视频素材)和72TB(4500小时25Mbps视频素材)的初始容量,当然用户也可在不使用分布式处理方式的前提下通过添加DATRIX D3200来扩展存储空间。
整个系统选用企业级SATA硬盘作为存储介质,可根据需要配置RAID 0、1、5、6等多种级别的磁盘保护。
DATRIX对外接口为4个端口绑定千兆,输入输出能力高达400MB。
同时,DATRIX也可在性能、容量和功能上采用单节点扩展的方式来提高,并支持多节点的分布式环境Scale Out方式进行三个方面的扩展。