当前位置:文档之家› 大数据时代的国家数字图书馆建设-中国国家图书馆

大数据时代的国家数字图书馆建设-中国国家图书馆

大数据时代的国家数字图书馆建设国家图书馆魏大威四、一、三、二、全面提升大数据环境下的国家数字图书馆服务能力以大数据理念实现国家数字图书馆的资源整合国家数字图书馆跨入大数据时代大数据时代的服务价值重塑一、大数据时代的服务价值重塑信息总量爆炸性增长导致信息形态发生变化由大数据、云计算、物联网等关键技术引领的信息技术变革,影响到了社会生活的各个领域案例一利用大数据投放广告精准营销初期投放红酒广告财经频道貌似红酒目标客户高端人士的聚集地电商买家动态肖像系统数据分析常访问军事类博客的网民对红酒更感兴趣改变策略选取该网站博客频道中的军事类博客页面投放红酒广告一个投放周期结束后,有效转化率高达18%,而行业的平均水平却低于5%案例二True Car 哪里买车最便宜︖TrueCar之所以受到消费者的喜爱,因为只是做了一件事情:收集全美汽车销售商的数据,利用大数据分析将车价透明化并发布在自己的信息平台将价格从低到高分为4个区间:罕见低价超值价格不错的价格超过市场均价的价格第7页二、国家数字图书馆跨入大数据时代图书馆的大数据是什么?一是多种类型的海量资源及庞大用户数据;二是图书馆的生产数据和业务数据在根据数字资源生命周期在各业务系统间高速流转的数据体系;三是通过图书馆海量数据满足用户的知识需求和个性化服务需求的价值体现︵一︶日益增大的数据量海量资源库图书馆传统的纸质文献和多样化数字资源共同构成了海量资源库,成为宝贵而丰富的知识资产。

737.9TB45.7TB0%数字资源总量874.5TB2013年底网络信息采集量自建数字资源量外购中外文数据库共计273个文津搜索元数据达2.9亿条海量资源库图书馆传统的纸质文献和多样化数字资源共同构成了海量资源库,成为宝贵而丰富的知识资产。

国家图书馆资源变化情况表年份数字资源总量(TB )馆藏特色资源数字化量(TB )网络资源采集量(TB )外购数据库量(个)外购中文数据库(个)外购外文数据库(个)2009年327.8239.116.68188861022010年480388182191051142011年561.345819.22221061162012年813.5694.930.7254121133︵一︶日益增大的数据量服务终端前端终端︵一︶日益增大的数据量服务终端国家数字图书馆网站2013年总点击量达到10.36亿次 文津搜索系统月均页面访问次数为480万余次 读者门户对象数据月均访问210万余页 手机门户月均访问140万余次 Aleph 系统日均产生日志数据约20GB 文津搜索系统日均产生日志数据大于300GB︵一︶日益增大的数据量国家数字图书馆数据类型分布表资源数据元数据、对象数据、书目数据、规范数据、馆藏数据、单册数据、关联数据用户数据用户个人信息数据、在服务中产生的不同维度的用户行为数据业务数据各业务系统运转的业务数据,如:采访数据、缴送数据、征集数据、咨询数据等管理数据图书馆运转和服务中产生的各类管理数据,如项目建设数据、合同数据、财务数据、人事数据︵二︶丰富多样的数据类型资源类型包括电子图书、电子期刊、电子报纸、数据库、音视频资源、网络资源等。

资源来源既包括传统文献的数字化,也包括各种类型的原生数字资源,还包括其它异地存储为我所用的虚拟馆藏及大量网络资源︵三︶完善的数据体系和高速的数据流资源采集、组织、加工、发布、保存各系统构成完善的数据体系。

各系统之间存在着功能关联、功能互补、功能支持、数据交换、数据共享等关系。

数字资源服务软件平台建设统一用户管理系统数字资源存储与软硬件平台建设全国信息资源元数据仓储第15页三、以大数据理念实现国家数字图书馆的资源整合︵一︶资源整合原则统筹规划、分步实施资源整合原则1在国家数字图书馆资源建设与服务总体方针指导下,本着统一规划、统一布局和统一管理原则,结合大数据特点和资源现状,分阶段、有计划地实施。

︵一︶资源整合原则统筹规划、分步实施资源整合原则1以用户需求为导向,采取多种方式进行多层次整合,使整合后的资源更好满足用户的个性化需求面向用户、需求牵引2︵一︶资源整合原则统筹规划、分步实施资源整合原则1对特色资源进行有序组织,形成一个完整的知识网络,使多样性的馆藏文献资源得到合理开发借鉴国内外先进的整合技术和经验,增强前瞻性意识,保证馆藏资源整合工作的可持续性和可扩展性。

面向用户、需求牵引2突出特色、博采众长3︵二︶资源整合思路1. 建立超大型元数据仓储,构建资源利用新格局•图书馆所处的信息环境迅速出现“E”化•大量的用户信息和行为数据、丰富的网络资源与数字化文献、知识数据库一起,构成了图书馆独有而珍贵的数字资产。

•通过对各类资源元数据汇集和统一管理,盘活图书馆长期建设积累的数据和知识资产,从而形成科学、高效的统一数字资源服务体系。

︵二︶资源整合思路2. 完善统一发现与服务,实现大数据环境下的资源处理•大数据的多样性决定了不同来源的资源之间存在多种形式的结构差异和语义冲突。

•分布式文件系统、分布式并行计算和分布式数据库等技术为实现大数据环境下分布式和异构性资源的数据库存储与查询提供了新的思路。

︵二︶资源整合思路 2. 完善统一发现与服务,实现大数据环境下的资源处理MapReduce 是一种分布式并行运算的编程模型,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并以一种可靠容错的方式并行处理上T 级别的数据集︵二︶资源整合思路 2. 完善统一发现与服务,实现大数据环境下的资源处理分布式数据库技术方面,谷歌的BigT able 和Hadoop HBase 等非关系型数据库(NoSQL )通过使用“键—值”对、文件等非二维表的结构,具有对异构数据很好的包容性,适应非结构化数据的特点︵三︶资源整合思路 3. 利用语义和关联技术实现数字馆藏的组织和聚合•内容语义化,可把内容知识点变成计算机可理解处理的信息,以便后续聚合和分析•云服务与关联数据结合的资源管理和服务模式将图书馆数字资源进行链接并聚合,形成一个有序的知识服务体系。

•图书馆通过关联资源和服务聚集起来的云平台,不仅可以提高关联数据的处理效率,还能减少计算成本,有效实现区域内资源的传递和共享。

︵三︶资源整合思路 4. 结合数据分析技术实现数字资源的可持续发展通过大数据技术分析掌握掌握不同用户群体的资源和服务需求,了解馆藏资源的使用水平和流转状况通过对图书馆用户检索、浏览、点击、下载、评论、阅读学习笔记的相关数据构建“资源——用户”关系模型,按照用户的喜好和使用习惯向用户推荐具有针对性的O2O 信息服务。

通过对馆藏数字资源使用情况统计分析,对馆藏资源的使用和服务情况进行全面细致的了解,进而调整资源组织结构,提高数字资源建设水平和使用效率。

数据分析︵三︶资源整合思路 5. 扩大网络信息保存规模提升网络资源服务效力•面对网络信息海量规模和惊人的数据增长速度,网络信息采集与保存成为国家图书馆未来资源建设的重要组成部分•围绕相关技术、合作模式、资源及工程管理策略等方面进行探索,以规范化的采集流程和多元化的采集手段,实现对不同广度、深度的网络信息的采集、加工和管理,保证网络信息采集的完整性和时效性。

•对采集的网络信息数据,通过有效组织、分析与挖掘,提炼出有价值的内容,对外界提供知识服务和决策支持。

第26页四、全面提升大数据环境下国家数字图书馆服务能力(一)加大资源揭示力度实现知识服务科学梳理、有效整合数字资源,为社会公众提供更深层面、更细粒度的资源揭示,提供更快捷高效的查找、定位与获取目标信息的一站式服务;通过异构数字资源的融合、聚类和重组使资源从数据层的揭示与展现转向信息层、知识层的深度服务。

通过智能化技术挖掘数字资源的关联和价值,利用时间轴、地域轴等知识图谱可视化展示方式将资源呈现给用户依托融合的物联网、移动通信网以及互联网络进行传播,实现任何人、任何时间、任何地点、以任何方式接收任何媒体内容,使受众获得更及时、更多角度、更多听觉和视觉满足的数字图书馆服务体验。

(一)加大资源揭示力度实现知识服务(二)丰富资源展示方式增强用户体验利用大数据技术对用户及其行为数据进行收集、整理、分析,挖掘出用户与馆藏资源的关联关系,图书馆可以向用户推送具有针对性的数字资源内容与服务,同时用户也可根据个体的喜好和使用习惯定制相关信息服务。

(一)加大资源揭示力度实现知识服务(二)丰富资源展示方式增强用户体验(三)加强用户数据分析实现个性服务个性化服务针对性内容建立与数据库商、出版社、学术教育机构及图书档案界间的合作机制,实现数据共建共享的多方共赢推进全国范围图书馆数据的有效管理与整合,提高规模效应和服务水平(一)加大资源揭示力度实现知识服务(二)丰富资源展示方式增强用户体验(三)加强用户数据分析实现个性服务(四)促进业界合作建设实现共知共享结语第31页图书馆需要充分依托大数据技术,推动数字资源的整合和服务能力。

我们还面临着很多挑战,诸如数字资源长期保存、信息安全以及服务创新等。

我国的数字图书馆体系是由国家图书馆、各级公共图书馆、行业图书馆共同组成的,每个馆都是其中不可或缺的重要组成部分,需要图书馆界基于大数据环境下的新技术发展,通力协作,探索实践图书馆发展的新业态,激发生命力和活力,释放图书馆生态圈的新能量。

谢谢!Thanks。

相关主题