第2章 信息资源分布
2011-8-8 Information Resource Management Page 11
§2.1 信息资源的集中与分散规律
在式中: : • R(n)——相关论文累积数。 • n——杂志等级排列的序号(级)。 • α——第一级杂志中的相关文章数R(1)。也就是载文章 最高的杂志中的相关文章数。 • C——“核心区”中的杂志数量。 • N——等级排列的杂志总数。 • k,s——待定参数,k等于分布曲线中直线部分的斜率, 可用实验方法求得。当N足够大时,k≈N。 • β——参数,与收藏的杂志(核心中杂志)数量有关,大 小等于分布图中曲线部分的曲率,β总小于1。 •式(2-1)和(2-2)就是布拉德福定律的图形表述形式。
Page 2
§2.1 信息资源的集中与分散规律
• • • • • 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 信息资源分布的马太效应 布拉德福定律 齐夫定律 洛特卡定律 普赖斯定律
2011-8-8
Information Resource Management
Page 3
§2.1 信息资源的集中与分散规律
2011-8-8
Information Resource Management
Page 10
§2.1 信息资源的集中与分散规律
• 布拉德福分散曲线 论文累积数 R(n) R(N) R(N’) R(n1) A C D B
期刊累积数 O C n1 N’ N lg n 的对数 布鲁克斯用下述模式来表示布拉德福定律: R(n)=αnβ (曲线部分) (1≤n≤C) (2-1) R(n)=klg(n/s) (直线部分) (C≤n≤N) (2-2) 曲线上BD部分只是近似地满足(2-2)式。
2011-8-8 Information Resource Management Page 4
§2.1 信息资源的集中与分散规律
• 由马太效应引起的信息富集分布表现为核心趋势和集 中取向。 • 核心趋势:是信息生产主体的主动期望与采取实 际步骤的结果。如高产作者群体的形成、期刊信 息密度增大、高频词汇的确立等 • 集中取向:主要是社会选择和影响的结果,信息 生产者基本上处于被动状态。如一篇论文多次被 引、一个网站被众多用户点击等。
300 250 200 150 100 50 12 3 4 56
r
2011-8-8
Information Resource Management
Page 20
§2.1 信息资源的集中与分散规律
• 齐夫定律的对数曲线:如果等级r与 齐夫定律的对数曲线: 频次f都取对数,则双曲线变成一条直 线。与之等价的数学表达式为: Lg f lgr + lgf = lgc 图中的虚线表示理想化形式。 •齐夫定律的修正 齐夫定律的修正:一般地,斜率为b的 齐夫定律的修正 任一直线可表示为: blgr + lgf= lgc 这一直线由图中的实线表示。如果将 其改写成(2-5)式的形式就得: frb=c…………………(2-6) 取b=1,(2-6)式与(2-5)式相同, 因此可以将(2-6)式看做是对齐夫定 律的修正。
2011-8-8
Information Resource Management
Page 15
§2.1 信息资源的集中与分散规律
• 布氏定律的维克利解释 将杂志分区的数目推广到n>3的普遍情形。设将载 有某一学科相关论文的杂志分为m个区,使每一区的论 文数量相等,各区中期刊的数量n1,n2,n3,…,nm有如下 关系: T1:T2:T3:…:Tm=1:b:b2:…:bm-1 …………(2-4) 其中:b为维氏分布系数 Ti=ni(i=1,2,…,m)为前i个区的杂志数量 Tm=n1+n2+n3+…+nm=N,N为杂志总数
2011-8-8 Information Resource Management Page 12
§2.1 信息资源的集中与分散规律
以应用物理学期刊为例: 以应用物理学期刊为例:
2011-8-8
Information Resource Management
Page 13
§2.1 信息资源的集中与分散规律
•
2011-8-8
Information Resource Management
Page 1
第二章 信息资源分布
§2.1 §2.2 §2.3 信息资源的集中与分散规律 信息资源随时间的分布规律 信息资源在空间上的分布规律
2011-8-8
Information Resource Management
Lg f 0.99 5.30 4.89 4.60 4.38 4.19 4.06 3.91 3.78 3.69
Page 19
Information Resource Management
§2.1 信息资源的集中与分散规律
• 齐夫词频分布曲线:如果建立f与r的直角坐标系,用横 齐夫词频分布曲线: 坐标表示词的等级序号,纵坐标表示出现频次,就得到 一条双曲线。 f
2011-8-8
Information Resource Management
Page 5
§2.1 信息资源的集中与分散规律
• 信息分布富集现象的积极意义:突出重点、摒弃平均, 为信息源的选择、获取、评价和利用提供依据,降低信 息管理成本,提高信息利用效益。 • 马太效应的不足: •马太效应描述的信息资源的优势和劣势过度积累,容 易使信息工作者按简单的优劣进行信息的选择、评价、 传播和利用,因循守旧,不思进取。 •所形成的信息分布富集优势仅仅是表面的、外在的。 •核心信息源是马太效应优势积累的结果,但过分注重 核心信息源,会忽略分布在其他信息源中有价值的信 息。 •马太效应青睐名人、拒绝新人的习惯势力限制了新思 想、新知识和新信息的产生及传播。
第二章 信息资源分布
如同物质资源和能量资源一样,信息资源也是稀缺的。 如同物质资源和能量资源一样,信息资源也是稀缺的。 • 为弥补资源的稀缺性, 为弥补资源的稀缺性,我们需要使用现代化的管 理手段和管理方法来研究信息资源在社会活动中 的利用规律及信息资源的分布规律, 的利用规律及信息资源的分布规律,并依据这些 规律对信息资源进行组织、规划、协调、 规律对信息资源进行组织、规划、协调、配置和 控制。 控制。 对信息资源进行管理。 对信息资源进行管理。
2011-8-8
Information Resource Management
Page 16
§2.1 信息资源的集中与分散规律
• 布拉德福定律的两个基本要点:
• 一是频次等级排序,形成主体来源(期刊)的有序目录; • 二是确定相关论文在主体来源中的分布规律。
• 布拉德福定律的具体方法则包括区域分析和图形描述,虽然两 者数值并不相等,但所揭示的都是论文在期刊中的分散规律。 • 20世纪60年代,人们从不同的角度和侧面提出了许多经验分布 公式和理论模型,使布拉德福定律取得了很大发展,但也存在 很多问题。
2.1.1 信息资源分布的马太效应 • 马太效应:R·默顿(美国)引用圣经《新约全书·马太 福音》中的一段话“……谁若有,就给他,并不断增加; 而谁没有,则已有的都要被夺走”。 • 信息资源产生和分布中的马太效应 •少数出版社成为某类图书的权威出版机构 •核心期刊的形成 •少数作者成为某一领域的核心作者 •少数网站集中了大量用户 •递功能强的词汇被经常引用 • 这种信息分布的“富集”与“贫集”的现象是人类社会特 有的选择机制支配的结果。
2011-8-8 Information Resource Management Page 9
§2.1 信息资源的集中与分散规律
•布拉德福定律的图形描述: 布拉德福定律的图形描述: 布拉德福定律的图形描述 • 如果横坐标取期刊按载文量递减排列时的顺序号n的 对数,纵坐标取1至n号期刊所载论文的累积数,我们 将绘制出的曲线称为布拉德福分散曲线。 • 布拉德福分散曲线由三部分构成,先是一段上升的曲 线AC,然后是一段直线CB,最后是一段上升的曲线BD。
2011-8-8 Information Resource Management Page 17
§2.1 信息资源的集中与分散规律
2.1.3 齐夫定律 • 齐夫定律的研究内容 任何文集或文献中不同词汇的使用有什么特点?它们在 文献中出现的频次有没有一定的规律?如果有规律,其表现 形式应当是怎样的?齐夫定律正是要回答这个问题。 • 齐夫定律的表述 如果将一篇较长文章(约5000字以上)中每个词按其出现 频次递减排列起来(高频词在前,低频词在后),并用自然 数给这些词编上等级序号,出现频次最高的为1级,其次为 2级……这样一直到D级,如果用f表示词在文章中出现的频 次,用r表示词的等级序号,则有: fr=c…………………………(2-5) 式中c为常数。上式称为齐夫定律。
2011-8-8
Information Resource Management
Page 7
§2.1 信息资源的集中与分散规律
2.1.2 布拉德福定律 • 英国著名文献信息学家布拉德福发现,某一学科领域中的相 关论文在期刊中的分布是不均匀的,而且具有明显的集中与 分散规律。他在长期的观察和统计基础之上,提出了有名的 “布拉德福分散定律”(Bradford’s Law of Scattering),简 称为布拉德福定律或布氏定律: • “如果将科学期刊按其刊载某个学科主题的论文数量,以递 减顺序排列起来,就可以在所有这些期刊中区分出载文率最 高的‘核心’部分和包含着与核心部分同等数量论文的随后 几区,这时核心区和后继各区中所含的期刊数成1∶a∶a2的 关系(a>1)。”这就是布拉德福定律的区域表述形式。 • 设第一区(核心区)所涉及的文章n1种期刊;第二区(相关区) 包括n2种期刊;第三区(外围区)包括的n3种期刊。那么,3个 区中的期刊数量成下列关系: n1:n2:n3=1:a:a2(a>1) 式中:a—布拉德福常数,或称比例系数。