当前位置:文档之家› 联想高教行业大数据解决方案

联想高教行业大数据解决方案

联想大数据解决方案高教行业目录1背景概述 (4)2需求分析 (5)2.1大数据是什么 (5)2.2深度学习是什么 (6)2.3从数据角度看大数据 (7)2.4从技术角度看大数据 (7)2.5从行业和社会效益角度看看大数据 (8)3联想大数据解决方案 (9)3.1功能架构 (10)3.2技术架构 (12)4联想大数据平台 (14)4.1数据采集 (14)4.1.1数据采集 (14)4.1.2数据抽取 (15)4.1.3数据转换 (15)4.1.4数据加载 (16)4.2数据采集管理 (16)4.2.1数据校验 (17)4.2.2统一调度监控 (18)4.3分布式架构支持 (19)4.4数据计算与存储 (19)4.5数据能力开放 (20)4.5.1数据在线挖掘工具 (21)4.5.2数据挖掘建模 (21)4.5.3多租户管理 (21)4.6数据分析应用套件 (23)4.6.1可视化查询分析 (23)4.6.2数据快速查询 (24)4.7数据资产管理 (25)4.7.1元数据管理 (26)4.7.2数据模型管理 (27)4.7.3数据标准管理 (27)4.7.4数据质量管理 (28)4.7.5数据安全与隐私管理 (30)4.8系统运维管控 (31)4.8.1监控告警 (34)4.8.2监控指标 (34)5联想深度学习平台 (38)5.1主要功能特点 (39)5.2系统架构及运行环境 (40)5.3系统特性 (41)6联想大数据分析应用样例 (44)6.1学生异常行为检测报警系统 (44)6.1.1应用对象及价值 (44)6.1.2应用场景方案 (45)6.1.3异常行为检测报警 (48)6.2大数据智能点名系统 (48)6.2.1应用对象及价值 (48)6.2.2应用场景方案 (48)6.2.3深度学习图像识别 (50)6.3贫困生智能检测系统 (52)6.3.1应用对象及价值 (52)6.3.2应用场景方案 (52)6.3.3贫困等级评价系统 (55)6.4其他分析应用概述 (56)7大数据展现 (57)8硬件平台方案 (58)8.1拓扑结构 (58)8.2配置清单 (59)9联想优势 (61)10案例 (62)1背景概述目前,我国互联网、移动互联网用户规模居全球第一,拥有丰富的数据资源和应用市场优势,大数据部分关键技术研发获得突破,涌现出一批互联网创新企业和创新应用,很多党政机关、企事业单位和教育教学机构已启动大数据相关工作,并带来很好的社会效益和经济效益。

坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为各行各业信息化发展的内在需要和必然选择。

我国高校信息化始于上个世纪八十年代,前期十多年主要是校园网络、CAI课件和分散独立的管理信息系统建设。

进入二十一世纪,高校数字校园建设得到快速发展,几乎所有的高校在这十多年都经历了一至两轮的数字校园建设,提升了高校信息化的整体水平。

然而,最近两年,以管理信息化为核心的高校数字校园建设遇到了多方面的挑战,随着云计算、物联网、移动互联、大数据、以及知识管理与社交网络等新型信息技术的广泛应用,高校信息化建设和管理也需要通过大数据技术带来新的变革。

高校中汇聚着大量的信息,从学生角度来看,包括联系方式等基本信息,食堂消费、住宿晚归等生活信息,选课、课后作业、借阅图书、成绩等学习信息,参与的社团、竞赛、讲座等第二课堂信息;从教师角度来看,包含教学任务、课件等教学信息,论文著作、科学研究数据等科研信息;从管理者的角度来看,包含学校的资产信息、师资信息、招生就业信息等。

同时随着移动互联网以及物联网等新技术的兴起,学校师生主动产生和由设备自动收集的信息越来越多,如微博、微信等社交信息,各类搜索点击记录信息等。

上述信息存在着数据量大、结构复杂、产生频率快的特点。

这导致利用常用软件工具捕获、管理和处理此类数据所耗费时间超过了可容忍的时间。

大数据使得查探学生表现和学习途径信息成为可能,学生通过在线学习平台进行学习,其学习行为数据将被记录,系统后台根据不断积累的行为数据对学生进行评估,分析学生的思考习惯和思维模式,创建心理测量图,根据学生的学习进展调整之后的学习内容和重点。

实时记录学生的量化学习过程(上课、读书、记笔记、作业、讨论、考试、考评等)和实验的过程结果等,这些数据将作为课程最后考评的重要参考依据。

通过聚焦于数据分析,教师可以用更有效的方式研究学生学习状况和学习效果。

本着加强学校管理能力和学生管理的目标,联想提供大数据平台、深度学习平台、以及分析应用层面的建设。

利用大数据和深度学习技术,提高学校的教学、科研以及管理水平,并且逐步开展在各学科关联的行业领域的大数据技术、应用层面的研究。

2需求分析2.1大数据是什么什么是大数据?可用3 个特征来定义大数据:数量、种类和速度(如下图所示)。

这些特征相结合,定义了所谓的“大数据”。

它创造了一种需求,那就是使用一类新功能来改善当今的做事方式,提供对我们现有的知识领域和驾驭其能力的更有效控制。

图1 大数据定义的三个特征相对于3个特征维度的技术定义,大数据则是一个更为广泛的概念,并没有一个标准限定多大规模的数据集合才是大数据。

传统的BI(商业智能,Business Intelligence)分析关注单个领域或主题的数据,这造成了各类数据之间强烈的断层。

而大数据分析则是一种总体视角的改变,是一种综合关联性分析,发现具有潜在联系之间的详细。

注重相关性和关联性,并不仅仅局限于因果关系,这也是大数据应用于传统数据仓库和BI技术的关键区别之一。

2.2深度学习是什么深度学习(deep learning)是机器学习的一个分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

深度学习是机器学习中一种基于对数据进行表征学习的方法。

观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。

而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。

深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

表征学习的目标是寻求更好的表示方法并建立更好的模型来从大规模未标记数据中学习这些表示方法。

表达方式类似神经科学的进步,并松散地建立在类似神经系统中的信息处理和通信模式的理解上,如神经编码,试图定义拉动神经元的反应之间的关系以及大脑中的神经元的电活动之间的关系。

至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并取得了极好的效果。

2.3从数据角度看大数据大数据是指通过传感器、智能设备、视频监控设备、音频通信设备等各种信息获取渠道收集到的,海量的、结构化的、半结构化的、非结构化的,且相互间存在关联关系的业务数据集合。

大数据涵盖了从数据存储、管理、处理、分析到最后提供业务趋势预测、数据价值挖掘服务的全过程,以及这一系列过程中所使用的各项技术和理念。

大数据的特征可以概括为3V。

其中3V分别是体量大(Volume)、类型多(Variety)和速度快(Velocity)。

体量大(Volume)- 随着企业信息化快速建设和智能系统的全面建成,数据的增长速度将远远超出企业的预期。

类型多(Variety)- 大数据涉及多种类型的数据,包括结构化数据、半结构化数据和非结构化数据。

速度快(Velocity)- 主要指对数据采集、处理、分析的速度。

2.4从技术角度看大数据从技术角度,大数据可以包括应用层、工具层、数据管理层和数据层四层结构。

图2 大数据的四层架构大数据是以进一步支撑行业业务发展与创新为目标,利用大数据存储、大数据整合、大数据技术、大数据应用四类核心技术,驱动行业业务应用和技术平台的升级与改造,扩展行业业务应用对业务数据采集的容纳能力,填补行业业务在非结构化数据分析与利用、海量数据挖掘等领域的空白,提升行业业务应用在信息资源价值挖掘方面的整套水平。

2.5从行业和社会效益角度看看大数据数据是国家基础性战略资源,是21世纪的“钻石矿”。

党中央、国务院高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,全面推进大数据发展,加快建设数据强国。

“十三五”时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键时期,全球新一代信息产业处于加速变革期,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。

抢抓机遇,推动大数据产业发展,对提升政府治理能力、优化民生公共服务、促进经济转型和创新发展有重大意义。

“十二五”期间,我国信息产业迅速壮大,信息技术快速发展,互联网经济日益繁荣,积累了丰富的数据资源,技术创新取得了明显突破,应用势头良好,为“十三五”时期我国大数据产业加快发展奠定了坚实基础。

推动大数据应用,加快传统产业数字化、智能化,做大做强数字经济,能够为我国经济转型发展提供新动力,为重塑国家竞争优势创造新机遇,为提升政府治理能力开辟新途径,是支撑国家战略的重要抓手。

当前我国正在推进供给侧结构性改革和服务型政府建设,加快实施“互联网+”行动计划和中国制造2025战略,建设公平普惠、便捷高效的服务体系,为大数据产业创造了广阔的市场空间,是我国大数据产业发展的强大内生动力。

3联想大数据解决方案联想大数据解决方案包括大数据平台和深度学习平台。

大数据平台产品包括:数据采集(Euclid)、数据计算与存储(Descartes)、数据能力开放(Gauss)、大数据分析应用套件(Nash)、数据资产管理(Euler)、系统运维管控(Shannon )等多个产品。

深度学习平台提供了一个多租户的深度学习云平台,透明的支持多租户同时使用。

每个租户有独立的存储空间,并且可以在自己创建的应用之间共享。

每个创建的应用都可以独立使用CPU,GPU资源。

深度学习平台通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。

3.1功能架构从功能架构上分为数据采集、数据计算与存储、数据能力开放、大数据分析应用套件、数据资产管理、系统运维监控。

数据采集:大数据平台提供实时、批量等多种数据采集模式。

具备支持不同系统和设备的开发工具套件,能够根据企业的需求快速扩展,同时联想大数据平台也提供网络爬虫模块,以便快速获取外部网络数据。

数据计算与存储:联想大数据平台基于Hadoop 开源生态系统,引入了多种核心功能和组件,对复杂开源技术进行高度集成和性能优化。

相关主题