公共数据开放平台产品白皮书第一章行业背景随着各行各业飞速迅猛的发展,信息资源也在日新月异的增长,信息掌握的多寡成为各国软实力和竞争力的重要标志。
2011年以来,美国、英国等国家在全球掀起了政府开放数据热潮,至今全球已有超过65个国家已加入公共信息资源开放的行列中,普遍建立了依托互联网面向社会提供开放数据的统一网站。
我国各省市也纷纷开始实施数据开放工作,继北京、上海之后,浙江、青岛等省市也纷纷开通了数据网站。
虽然国内各地的数据网站都在逐步建立,但都是各自为营、相对独立,缺少统一的标准、统一的格式、统一的目录等,使得国内没有一个统一的数据开放网站,对外缺少统一的面向世界的中国数据开放网站。
因此,我们设计实现的公共数据开放平台,在国家级、省级“两级建设”,在国家、省、市、县、乡镇“五级使用”,基于互联网,构成集中的、专用的信息资源开放共享平台。
第二章产品概述公共数据开放平台,能够为各级政府职能部门、企事业单位提供关于政府部门业务信息、公共事业服务信息等资源的发布、展示、下载、查询和交流等功能。
本产品是基于互联网的、专用的、集中的网站,是公共信息资源开放共享的载体。
信息资源形式包括结构化数据和非结构化数据,基于云计算技术,充分利用现有的电子政务公共平台,采用自主可控的软硬件设备进行构建,满足快速部署、安全可靠、易于扩展和多并发访问。
本产品作为管理机构、开放机构、社会公众的共用平台,能够起到四方面作用:1、渠道作用:通过数据网站开放公共信息资源;社会公众通过数据网站获取公共信息资源;管理机构通过数据网站对公共信息资源开放共享过程进行管理、对成效进行评估考核。
2、桥梁作用:通过数据网站建立起开放机构和社会公众交流互动的桥梁,社会公众可通过数据网站向开放机构提出数据开放需求,评价已开放数据的质量;开放机构则可以通过数据网站响应社会公众需求,不断扩大开放范围,提高数据质量。
3、窗口作用:数据网站是公共信息资源开放的宣传和监督窗口,公布公共信息资源开放共享相关要求、开放计划、开放机构的考核排名,接受社会各界监督;公布鼓励公共信息资源开放共享和再利用的政策、发布优秀信息服务产品,促进信息服务产业链形成。
4、支撑作用:数据网站要为公共信息资源开放全过程提供基础设施资源、网络资源、计算资源、存储资源等信息化基础支撑;为公共信息资源的开放、存储和再利用提供数据采集工具、管理工具、分析处理工具等技术支撑。
第三章产品定位1、解决的问题:本产品主要是满足各级政府部门、公共企事业单位开放各自的数据,能够集中统一建设可以避免重复投资和资源浪费,可以实现数据再处理以及信息产品的生产和提供,可使社会公众方便、低成本的使用和获取开放数据。
2、服务的客户群:本产品通过互联网面向社会公众,大体分两类用户:开放机构和使用数据用户。
开放机构通过网站进行上传、管理各自的数据,使用者包括个人、企业机构、科研院所等,可以下载数据直接利用,或再次加工成数据产品、APP应用等。
3、与竞品的差异:本产品与其他省、市的数据开放网站不同在于,能够建设统一的实体数据网站,采用唯一的顶级域名,社会公众可从统一的入口进入,对全省的数据进行检索。
所属地市可在省级实体网站上创建各自的虚拟网站,拥有二级域名,并不实际占用存储空间。
能够降低建设成本、缩短建设周期。
另外,采用招投标的方式,选择专业的技术服务机构及基础设施服务机构,向其购买网站服务及基础设施云资源服务,采用按需付费,根据实际使用情况缴费,能够有效节省自建基础设施的开支,按年购买的方式能有效促进服务商更好的开展服务,保障网站基础设施安全可靠。
第四章产品优势随着国务院《关于促进大数据发展行动纲要》的下发,数据开放已成为政府的一项重要工作,数据资源也日益成为促进社会经济的关键性因素。
该产品可以向全国其他省/自治区、地市等进行推广,可为各省级数据开放进行统一建设提供平台和服务,市场潜力巨大,同时可作为大数据服务产品面向各开放机构提供数据开放服务,公司进行运营。
本产品主要具有以下优势:➢公共数据开放平台是建立在中央网信办发布的相关体系标准的基础上,符合《实施公共信息资源开放共享白皮书》,支持国家、省、市、县多级的数据开放架构,同时支持在一级网站上建立虚拟二、三级开放网站,为各机构提供存储空间,可以减少用户的建设成本。
➢公共数据开放平台采用分布式集群的大数据架构搭建,并采用目前最为先进的技术,如分布式数据库、分布式文件系统、分布式搜索引擎、分布式缓存等,达到松耦合、易扩展。
➢公共数据开放平台是一个针对政府数据开放的完整体系,包括数据的开放、数据的再处理利用、数据产品的运营等,相对其他同类产品,有非常明显的竞争优势。
➢公共数据开放平台能够促进整合多地区、多部门的信息资源,促进互联互通,有效的提高公共服务水平。
➢公共数据开放平台为科研机构、应用开放者提供二次开发接口,并提供APP 应用的展示和推广渠道,充分发挥信息资源的作用。
第五章产品架构5.1逻辑架构公共数据开放平台逻辑架构如下图所示:图 1 逻辑架构图本网站最底层的IAAS虚拟化层,由云基础设施服务提供商提供,包括服务器、存储设备、网络环境、安全设备等虚拟化服务,便于整合硬件资源、提高效能,简化系统维护的复杂度。
数据资源层的数据分为两类,一类是各开放机构开放的数据集,采用分布式文件系统存储;另一类是网站运行数据,包括用户数据、开放机构数据、数据集元数据数据等,该部分数据采用分布式数据库进行存储。
功能层是网站主体,采用B/S架构设计,是公共信息资源开放共享的载体。
网站提供给用户功能,有用户登录、数据发布、数据获取、互动交流、统计管理、系统管理、个人中心等。
用户层包括信息提供方、信息使用方、组织管理机构、技术提供机构等,管理员对信息资源进行分类、审批、发布,包括审查材料完整性、验证数据完整性、审核信息开放者、网站注册用户等。
5.2技术架构公共数据开放平台技术架构如下图所示:图 2 技术架构图网站主要是通过使用云计算大数据架构、分布式技术及集群和负载技术进行组建。
主要包括以下:1、网站应用层使用Tomcat作为Web容器,将会使用若干个Tomcat搭建集群。
使用Ngnix作为反向代理服务器,主要关注静态内容缓存的性能优化。
通过使用LVS负载均衡分发多个Tomcat及Nginx实现软负载。
2、网站的开发框架采用SpringMVC+Mybatis实现,其中Spring负责IoC和AOP实现,实现模块之间的松耦合,Mybatis负责数据库持久化。
3、搜索引擎使用分布式的SolrCloud集群,能够集中式的配置信息供多机器使用,通过自动容错提高检索性能,能够自动负载均衡来减少机器的查询压力。
SolrCloud中所有Solr节点的状态信息都由Zookeeper集群进行统一维护。
4、使用分布式大数据实时处理Druid连接池,提高连接数据库的性能,监控会话、SQL语句等的查询时间,为后期网站性能优化提供支撑。
5、通过建立分布式缓存,提高网站响应速度、缓解数据压力。
对于经常访问下载的数据单独存储,并提供数据缓存,提高数据下载效率,按访问量大小不同进行存储,使用开源的MemCache进行设计实现。
6、数据库采用MySQL搭建数据库集群,并设计使用主从同步、读写分离的机制,提高网站对于数据的读写速度。
7、通过分布式文件系统用于存储本网站上传的数据,使用FastDFS集群来解决网站中的数据存储及负载均衡,保证数据上传和下载的性能,以及数据安全。
第六章产品功能本产品按功能划分为六大块:数据发布、数据查询、数据展示、数据获取、互动交流、网站管理。
目前已研发的版本V1.1包括以下功能:图 3 产品功能图6.1注册登录1、用户注册:开放机构和普通用户注册、登录,统一用一个界面,可以切换选择。
普通用户需要使用数据时,必须注册、登录网站才能下载数据。
2、用户登录:用户使用注册成功的用户名、密码登录网站后,才能下载所需要的数据;数据开放机构登录后可以开放各自机构的数据。
3、忘记密码:在登录页面中,给用户提供忘记密码的功能,如果用户忘记密码,可通过注册时的邮箱,重新设置密码。
4、用户退出:用户从网站退出登录。
6.2数据发布开放机构用户登录后进入个人中心可发布本机构的数据,填写数据基本信息,如数据名称、数据简介、关键字,选择主题等,并上传数据文件,格式包括:XML、CSV、TXT、PDF、EXCEL、RDF、JSON、DOC、DOCX,网站会对数据名称、数据简介进行涉密审核,如果有涉密词汇,需重新填写。
6.3数据获取1、数据查询查询数据的途径有如下几种:1)通过搜索框输入搜索内容查询或无条件查询。
2)选择各开放机构后,查询出该机构下的所有数据。
3)在以上两种情况下,选择“数据格式”、“数据主题”、“发布日期”进行过滤查询。
2、数据展示通过上述查询后展示数据列表,列表中数据信息包括数据名称、数据简介、数据格式、开放机构、发布日期、更新日期、下载量、关键字等,并按最新的发布日期分页展示,一页显示10条数据。
3、数据下载用户选择其中一条数据查看,进入数据详情页面,内容包括:数据名称、数据简介、开放机构、数据格式、文件大小、下载量、发布日期、更新日期、关键字等。
4、数据关注用户在数据详情页面浏览后,可以选择关注该数据。
已关注的数据,也可以取消关注。
在“个人中心”查看“我的关注”可以看到已关注的数据信息。
5、数据评价用户可以在数据详细页面下载数据后,对该数据进行评价。
用户可以进入“我的中心”查看“我的评价”,对已下载未评价的数据进行评价,或者查看以往的数据评价,对其进行删除操作。
6、数据咨询用户登录后,查看到具体数据内容后,如有疑问可以向开放机构进行咨询。
7、数据分享用户可以在数据详细页面下载数据后,可以对该数据进行分享,分享到QQ 空间、腾讯微博、新浪微博、腾讯微信等社交网站。
6.4个人中心开放机构、普通用户登录后,可进入个人中心,管理各自的功能模块。
开放机构包括:我的上传、评价我的、咨询我的、信息设置;普通用户包括:我的下载、我的评价、我的关注、我的咨询、信息设置。
6.5互动交流在互动交流功能中,网站提供用户申请开放数据功能,数据使用者可以借此提出公共信息资源开放共享的申请。
开放机构应在规定时间内给出是否开放的答复,未明确开放机构的申请由管理机构确定后予以答复。
主要包括以下功能:1、数据申请:用户可以通过数据申请,提出需要开放的数据。
网站为用户提供填写申请的页面。
2、质量反馈:用户下载使用过数据后,可以通过网站提出关于数据质量的反馈,可以促使开放机构及时了解数据使用情况。
3、咨询建议:用户在使用网站过程中,如果遇到一些问题,可以通过该功能向网站反映。
4、常见问题:使用网站会出现的常见问题,给予回答。