行业大数据平台可行性研究报告项目承担单位:XX项目编制单位:XX项目负责人:编制日期:目录第1章项目概述 (1)1.1项目名称 (1)1.2项目承担单位 (1)1.3编制依据 (1)1.4项目建设内容 (1)1.5项目建设原则 (2)1.6投资估算 (3)1.6.1 主要依据 (3)1.6.2 投资估算 (3)1.7效益目标 (4)1.7.1 绩效目标 (4)1.7.2 效果目标 (4)第2章建设背景及可行性 (5)2.1建设背景 (5)2.1.1 时代背景 (5)2.1.2 政策背景 (5)2.1.3 业务背景 (6)2.2项目可行性 (7)2.2.1 政策环境可行性 (7)2.2.2 技术可行性 (8)第3章需求分析 (9)3.1非功能性需求 (9)3.1.1 灵活性需求 (9)3.1.2 安全性需求 (10)3.1.2.1 数据安全 (10)3.1.2.2 应用安全 (10)3.1.2.3 系统存取权限控制 (10)3.1.2.4 数据保密需求 (11)3.1.2.5 灾难恢复需求 (11)3.1.3 系统集成需求 (12)3.1.3.1 基础设施类集成 (12)3.1.3.2 业务应用类集成 (13)3.1.3.3 安全体系集成 (13)3.2功能性需求 (13)3.2.1 整体用例图 (13)3.2.2 建设内容 (13)第4章方案设计 (14)4.1建设目标 (14)4.2设计理念 (14)4.3设计原则 (16)4.4总体架构设计 (17)4.6网络拓扑设计 (20)4.7系统非功能性设计 (21)4.7.1 跨平台性 (21)4.7.2 系统安全设计 (21)4.7.2.1 数据层安全 (21)4.7.2.2 Web层安全 (22)4.7.2.3 应用层安全 (22)4.7.2.4 备份和恢复 (24)4.7.3 系统稳定性和高可用性设计 (25)4.7.3.1 数据预处理系统稳定性和高可用性设计 (25)4.7.3.2 海量数据存储检索系统稳定性和高可用性设计 (25)4.7.3.3 数据智能挖掘分析系统稳定性和高可用性设计 (26)4.7.4 系统扩展性设计 (26)4.7.5 低耦合设计 (26)4.7.6 系统的实用性 (27)4.8技术路线和关键技术 (27)4.8.1 面向服务(SOA)的架构 (27)4.8.2 遵循XML数据标准 (29)4.8.3 基于Web Service技术 (30)4.8.4 组件技术和模块化构造 (30)4.8.5 反爬虫机制 (31)4.8.7 业务流程控制 (34)4.8.8 大数据处理分析技术 (35)4.8.8.1 云存储系统设计 (35)4.8.8.2 分布式数据库系统设计 (36)4.8.8.3 分布式计算架构设计 (36)4.8.8.4 安全保障体系设计 (37)4.8.8.5 HDFS分布式文件系统 (37)4.8.8.6 MAP/REDUCE 分布式并行数据处理 (38)4.8.8.7 Spark实时计算框架 (38)4.8.8.8 ZOOKEEPER协调调度系统 (39)4.8.8.9 大数据分析 (40)4.8.9 机器学习 (42)4.8.9.1 基于大数据的机器学习 (42)4.8.9.2 Spark 机器学习库MLLib (43)4.8.9.3 TensorFlow (43)4.8.10 自然语言处理 (44)4.8.10.1 自动分词 (44)4.8.10.2 关键词提取 (44)4.8.10.3 文本摘要 (45)4.8.10.4 命名实体识别 (45)4.8.10.5 自动分类 (45)4.8.10.6 文本内容抽取 (45)4.8.11 数据可视化 (46)4.8.11.1 基本概念 (46)4.8.11.2 数据可视化标准 (47)4.8.11.3 数据可视化 (47)4.9集群部署 (48)4.9.1 副本技术 (49)4.9.2 纠删码技术 (49)4.9.3 HA技术 (50)4.9.4 SAN架构集群存储HA方法 (51)第5章应用系统建设 (53)5.1网络信息采集子系统 (53)5.1.1 网络信息采集 (53)5.1.2 信息编辑发布 (55)5.2网站管理子系统 (57)5.3信息报送子系统 (57)5.4问卷调查子系统 (57)5.5信息共享子系统 (57)5.6数据统计子系统 (57)5.7系统管理 (57)第6章投资估算 (57)6.1主要依据 (57)6.2总体费用 (57)6.3系统开发 (58)6.4服务器配置 (60)第7章项目进度计划 (62)第8章结论与建议 (62)第1章项目概述1.1项目名称项目名称:XX1.2项目承担单位项目承担单位:XX项目负责人:1.3编制依据本报告的编制依据主要包括以下内容:《国务院关于积极推进“互联网+”行动的指导意见》(国发〔2015〕40号);《促进大数据发展行动纲要》(国发〔2015〕50号);《北京市大数据和云计算发展行动计划(2016—2020年)》;《计算机信息网络国际联网保密管理规定》国家保密局;《计算机软件产品开发文件编制指南》(GB8567-88);《计算机软件开发规范》(GB8566-88);《计算机软件质量保证计划规范》(GB/T12504-90);《计算机病毒防治管理办法》中华人民共和国公安部令第51号;其他法律法规、相关文件等。
1.4项目建设内容本项目行业大数据平台主要建设内容为:➢1.5项目建设原则系统的总体设计应遵循高标准严要求的原则,具备技术的稳定性和业务系统的实用、方便性。
1.先进性和前瞻性在应用系统实用、高效的基础上,采用先进的信息技术,适应未来6-8年技术发展趋势,具备一定的前瞻性,并保证系统管理、维护、升级和扩展的方便性。
2.开放性及可扩展性由于本项目中建设的平台将为今后几年全国XX相关数据收集分析工作提供支撑,因此要求软件平台应具有良好的可扩充、扩展能力,能够方便进行系统升级和更新,以适应今后业务的不断发展。
3.安全可靠性选用的主机服务器要求能够支持高可用的持续服务技术,能够连续7×24小时不间断工作,出现故障及时告警,具有完整的操作权限管理功能和完善的系统安全机制,保证系统正常可靠运行。
4.保护投资保护既往投资、整合现有资源。
系统建设立足对已有业务应用系统和数据库等资源的完善与整合,重视业务流与信息流的结合和重组优化,使既往投资和现有资源发挥更大作用。
5.易于管理维护建设时充分考虑到管理维护的需要,保证系统建成后易于管理和维护。
1.6投资估算1.6.1主要依据1.原国家发展计划委员会、信息产业部:《电信建设管理办法》2.信息产业部《通信建设工程投资估算指标》(试行)3.《关于认真开展电子工程监理的通知》信息产业部信规(2000第206号文件)4.《信息系统工程造价指导书》中国市场出版社5.项目需求及市场调研。
1.6.2投资估算根据项目建设的内容和规模,依据国家有关部门的相关规定,在市场调研的基础上,综合考虑需求分析费、系统设计费、应用软件开发费、系统集成和调试费等,XX行业大数据平台建设总投资估算为XX 万元,各分项价格如下表所示:1.7效益目标1.7.1绩效目标质量目标:系统建设之前,项目组会充分研究讨论,并广泛收集专家意见制定出最适合本项目的质量控制标准,保证承建方严格按照质量要求建设。
时效目标:与系统建设之前相比,系统建设投入使用以后可提高工作效率70%以上。
成本目标:软件及实施、培训等投入控制在XXX万元人民币以内。
1.7.2效果目标经济效益目标:系统不直接产生经济效益。
但系统运行以后可增加中心影响力,提高服务能力,为XX行业发展等提供数据支撑,为各单相关企业节省支出,按照目前行业发展水平及相关服务费用计算,每年可增加收入约XX万元。
社会效益目标:提高管理水平,降低管理层管理难度,提高用户满意度,促进行业发展。
环境效益目标:本项目作为信息化建设的重要组成部分,在提高数字化水平,改善管理环境中起到至关重要的作用。
可持续目标:经过充分的系统论证,前瞻性的建设规划,开放式的平台接口,在国家相关政策下本系统使用期限在6-8年以上。
满意度目标:项目建设完成投入使用以后,要达到所有使用者满意度不低于80%。
第2章建设背景及可行性2.1建设背景2.1.1时代背景当今人类社会已经进入数字化和信息化时代,主要特征就表现在高效性、多样性、综合性等,在这样的时代背景之下,人们的生活质量显著提高,计算机技术的发展是数字化和信息化时代出现的根本原因,在社会的各行各业之中,由于计算机技术的广泛应用,企事业单位开始建立计算机网络平台,实现了信息的数字化管理,同时各企事业单位之间可利用互联网进行信息的交流与沟通,进一步扩展了数字化和信息化的普及范围,数字化和信息化在世界范围内迅速普及,正在对经济、政治、文化、科技、军事等各个领域产生重大影响,深刻改变着人们的生产、工作和生活方式,并将继续对人类精神文明和物质文明产生深远影响,引发人类社会生活层面的各种变革。
2.1.2政策背景2015年9月5日,经李克强总理签批,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。
《纲要》是到目前为止我国促进大数据发展的第一份权威性、系统性文件,从国家大数据发展战略全局的高度,提出了我国大数据发展的顶层设计,是指导我国未来大数据发展的纲领性文件。
《纲要》提出,要加强顶层设计和统筹协调,加大大数据关键技术研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行业创新应用,促进大数据产业健康发展;完善法规制度和标准体系,科学规范利用大数据,切实保障数据安全。
2017年1月17日工业和信息化部印发《大数据产业发展规划(2016-2020年)》,规划指出创新大数据技术服务模式。
加快大数据服务模式创新,培育数据即服务新模式和新业态,提升大数据服务能力,降低大数据应用门槛和成本。
围绕数据全生命周期各阶段需求,发展数据采集、清洗、分析、交易、安全防护等技术服务。
推进大数据与云计算服务模式融合,促进海量数据、大规模分布式计算和智能数据分析等公共云计算服务发展,提升第三方大数据技术服务能力。
推动大数据技术服务与行业深度结合,培育面向垂直领域的大数据服务模式。
2.1.3业务背景XX是现代经济的核心之一,国务院印发的《XX业发展中长期规划(2014~2020年)》明确提出要以提高XX效率、降低XX成本为重点。
因此,在大数据时代背景下,XX行业也必须高度重视统计数据。
XX 大数据可以划分为三类:第一是微观层面,包括运输、仓储、配送、包装、流通加工等,第二是中观层面,最显著的影响是横向流程延拓,纵向流程压缩简化;从供需平衡角度出发,为供方(XX企业)提供最大化的利润,为需方提供最佳的服务;第三是顶层设计,利用大数据技术把握行业动态,预测发展趋势,实现行业顶层规划设计。