大数据环境下高校图书馆非结构化数据融合分析郭春霞【摘 要】大数据环境下,高校图书馆非结构化数据蕴含的信息越来越多,其对图书馆的数据挖掘和学科服务具有重要的支撑作用。
文章对高校图书馆的非结构化数据特性进行分析,将其分为同型异源数据、异型异源数据、同型同源数据三种,构建了非结构化数据的融合分析流程,适合高校图书馆非结构数据的挖掘和管理。
【关键词】高校图书馆 非结构化数据 数据清洗 数据监护DOI:10.15941/ki.issn1001-0424.2015.05.005Abstract:In big data environment,information in university library unstructured data becomes more than ever,which is of great importance for library data mining and library subject service.This arcticle analyzes the features ofuniversity library unstructured data,which is divided into same type of different source,different type of differentsource and same type of same source.The unstructured data fusion analysis process is constructed,which issuitable for university library unstructured data mining and management.Key words:university library unstructured data data cleaning data curation1 引言数据之于科学的重要性,就像语言之于文学,音符之于音乐,色彩、形状之于美术一样,离开数据,就没有科学可言[1]。
2011年Science杂志《聚焦数据管理》的专辑中提出了“数据就是金矿”、“科学就是数据,数据就是科学”的说法。
数据在当今社会,已经被看作是一项重要的资产,它改变着组织决策的模式,所以有效收集、分析大数据,运用各种方法挖掘大数据,使数据的价值最大化,已经成为衡量一个组织竞争力的重要标志[2]。
2004年,世界进入web2.0时代,Facebook、Twitter等社交工具的涌现,使每一个网民都好比一个信息碎片的传播和生产者,不断地制造数据,然后聚集整合,像核弹蘑菇云一样,引发了人类历史上迄今为止最庞大的数据爆炸,引领着人类进入大数据时代[3]。
IDC(国际数据公司)认为大数据时代是数字宇宙时代,他们在2012年的研究报告中指出,2011年全球复制和创建的数据总量为1.8ZB(1ZB=10亿TB),认为到2020年,全球数据总量将达35ZB[4]。
对于大数据的定义,比较典型的描述是由NSF(美国国家科学基金会)提出的:大数据是指“由科学仪器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集”[5]。
高校是一个自然科学和社会科学相融合的交叉地,学校的教师、学生来自各种学科和专业,换句话说,高校是各专业、各学科融合最广泛、最复杂的地方。
无论是高校的学术研究还是从校园广泛应用的社交媒体,无论是宏观层面的学术研究还是微观方面的学术研究,无论是微博、微信、QQ等社交媒体,还是图片、视频等数据资源,都被师生广泛地利用和传播。
而高校图书馆作为高校中记录、储存、传播、应用人类文明与数据的机构,需要处理的数据也在呈指数增长,尤其伴随着社交媒体、移动智能终端、无线网络等技术的普及,结构化与半结构化的数据都在飞速增长,图书馆也进入到了“大数据”时代[6]。
目前全世界的数据大约有75%都是非结构化数据,大数据环境下,高校图书馆无论是从时间维度,还是空间维度都面临着前所未有的挑战,尤其是非结构化数据对图书馆的学科服务和数据挖掘具有重要的支持作用。
如何将高校用户利用图书馆过程中产生的非结构化的多源数据进行融合,已经成为高校图书馆工作中一个不容忽视的环节。
对这些数据,需要在充分搜集多种来源信息的基础上,运用多种方法进行综合分析与判断。
只有这样,才能更加全面地了解学科领域的变化和师生不断变化的需求,以期为高校图书馆科学的判断、决策提供更有力的数据支撑。
因此,笔者对高校图书馆的非结构化数据进行分析并分类,挖掘其中蕴含的有价值的情报和知识,对其进行整合、分析、推送,促使高校图书馆在大数据的背景下,充分发挥高校图书馆的作用,使其价值最大化。
2 高校图书馆的非结构化数据特性涂子沛把大数据分为结构化数据和非结构化数据2大类,他认为大数据=结构化数据+非结构化数据。
也有学者认为大数据=结构化数据+半结构化数据+非结构化数据。
无论哪种划分方式,都表明数据与数据之间的划分不再依靠单一的标准,数据与数据之间,彼此交叉,彼此融合。
本文主要探讨高校用户在利用图书馆的过程中产生的非结构化数据,如通过微信、QQ、博客等社交工具产生的数据。
这些数据之间的结构、性质不完全一样,没有系统、整齐的结构,这部分数据的处理,与结构严整的数据相比,困难许多。
图1为高校图书馆的非结构化数据来源。
图1 高校图书馆的非结构化数据来源2.1 非结构化数据生产主体明确在高校图书馆中,非结构化数据的生产主体非常明确,主要为高校教师、在校大学生及图书馆员,学校社会读者数量较少,并且这部分用户利用图书馆资源的频率远远低于前者,在此忽略。
由此可见,从用户的角度,对图书馆员、高校教师与在校大学生三者之间进行有效的数据需求分析、信息行为分析以及相关非结构化数据产生规律的分析,就可了解非结构化数据在高校中发展的规模、质量,经过分析,可得出用户当前需求。
2.2 非结构数据的数量与质量较高由于高校图书馆用户的信息素养水平较高,在这个社交媒体风行的时代,专业学者之间、教师与学生之间、跨领域、跨学科之间均可通过QQ、Blog、微博、微信、在线咨询台等方式随时产生新的信息与数据,这些数据在数量方面呈指数增长。
用户在特定主题、时间、成员、交流进度等情景进程的驱动下,成员之间交流的瞬间会迸发出许多新的想法或观点,这些想法和观点有可能是某种大课题研究的雏形或者是核心思想,对学科发展具有巨大的学术价值和文献价值,这也是本论文研究的核心价值所在。
2.3 非结构数据的加工难度较大非结构化数据的基本特征是数据格式多元化,尤其是利用网络平台传播的数据,其中蕴含着大量高价值的信息。
许多数据是即时产生,有些数据是零次性的,有些是灰色数据,利用计算机和数据库技术对其实施流程化、规模化管理非常困难。
3 高校图书馆的非结构化数据类型分析笔者将高校图书馆的非结构化数据源划分为以下几种类型:同型异源数据、异型异源数据、同型同源数据,如图2所示。
3.1 同型异源数据对于高校图书馆某个体来说,同一类型的数据一般分布在相同的站点,但却由不同的数据商提供。
每个高校图书馆,都购买了大量的电子资源,北京大学、清华大学中外电子资源就有上百个,即使如滨州学院、德州学院图2 高校图书馆的非结构化数据类型等地方高校,购买的电子资源也达20多个,加上试用的电子资源,有50个以上。
由于许多期刊库与杂志社签订了独家版权协议,许多大学图书馆为了提高期刊论文的查全率,提高用户的满意度,会同时购买多个电子期刊库,如中文期刊论文数据一般会同时购买万方数据、重庆维普、清华同方,外文期刊库购买如EBSCO、Springerlink、ELSEVIER等。
每个高校图书馆都会有大量馆藏文献,馆藏文献的数据可以根据用户的借阅信息来调阅,这部分数据的整合,相对来说要容易许多,本文不做讨论。
3.2 异型异源数据传统的十大文献信息源在大数据环境下,已经不是人们查阅信息的全部资源。
相反,越来越多的一次文献、零次文献开始成为新的数据源,如人们在使用Facebook、微信、微博、QQ、MSN、Twitter等社交媒体时产生的数据。
这些数据或许成为技术创新的雏形,或许成为新的思想火花,恰恰是这些数据,更具有启发性和参考性。
3.3 同型同源数据由于不同的教师、学生查阅资料不一样,检索词不一样,即使是相同的数据库,检索历史、浏览历史、近期关注的各种数据也会产生差异,而这部分检索历史、浏览历史,以及近期关注的数据,都可以转化为图书馆的有效数据。
通过整理,我们可以了解到近期学校教师、学生都在关注哪些方面,从而判断现有数据库中此类资源中文有多少、英文有多少,馆藏文献有多少,我们还需要购买哪些图书或订阅相关的专业期刊。
我们可以针对高校用户的浏览记录,关注学科动态,来确定部分用户的需求,从而调整图书馆的藏书结构乃至其他馆藏资源。
4 高校图书馆的大数据分析大数据背景下,高校图书馆只有对大量的用户进行数据收集、挖掘、分析才能对图书馆下一步的决策提供参考,才能更好地满足高校师生的需求。
在大数据战略下,有专家提出了正向思维模式,认为大数据的情报咨询流程分为四步:第一步为收集数据,第二步将收集的数据进行量化分析,第三步通过量化分析,找出数据之间的相互关系,最后一步提出优化方案[7]。
笔者认为,作为高校图书馆,由于用户身份简单,主要为高校教师和在校大学生,所以图书馆的相关部门如参考咨询部、信息技术部等,可以对用户利用图书馆的过程进行数据收集———数据清洗———数据融合分析,最后提出推荐方案。
4.1 数据收集传统意义上,高校图书馆的数据收集工作,主要依靠图书馆文献借还记录、电子文献资源访问日志,学生阅读记录等。
但是随着社交媒体的广泛传播,高校教师、大学生每人至少拥有2个即时网络社交工具,促使非结构化数据量飞速增长,与结构化数据相比,其比重越来越高,传统意义上的数据收集只能是大数据的冰山一角。
越来越多的高校图书馆开始关注非结构化数据的收集,但非结构化数据的收集由于其本身的特性,存在一定的难度。
现在国外开始研究利用数据监护(Data Curation)技术,对高校图书馆的数据进行收集监护,它是一个动态收集数据的过程,需要不断地补充和更新。
数据监护可以从数据产生之初对其进行管理和统计,为将来的知识挖掘提供资源,更好地满足用户的需求和利用[8]。
国外许多图书馆已充分意识到数据监护技术在大数据时代的重要性,尤其是美国高校图书馆,他们现在开始将图书馆服务的范围拓展到数据阶段,成为科学研究和学术交流的新阶段,而我国图书馆在这方面则显得相对滞后[9]。
实践方面,我国高校图书馆几乎没有开展与数据监护相关的服务,2001年底,科技部开始启动数据共享工程,将数据资源的整合、科学数据共享推上了一个新的阶段[10]。