3信息分布
3.2 信息内容的离散分布规律
布拉德福定律:揭示论文在期刊中的分布 19341948 主要揭示宏观信息的离散分布
微观层次有待论证
3.2 信息内容的离散分布规律
信息内容的离散分布——齐夫定律
表现:词汇的选择、使用及出现频次必然地影响着 信息的分布
如果将一篇较长(约5000字以上)中每个词 按其出现频次递减排序列,并用自然数给这 些词编上等级序号,如果用f表示频次,r表 示等级序号,则
马太效应:
圣经《新约· 马太福音》中的一则寓言: “凡有的, 还要加给他叫他多余;没有的,连他所有的也要夺 过来。”“马太效应”与“平衡之道”相悖,与 “二八定则”有相类之处,是十分重要的自然法则。
罗伯特· 莫顿归纳“马太效应”为:任何个体、群体 或地区,一旦在某一个方面(如金钱、名誉、地位 等)获得成功和进步,就会产生一种积累优势,就 会有更多的机会取得更大的成功和进步。1968 反映贫者愈贫,富者愈富,赢家通吃的经济学中收 入分配不公的现象。
信息在传递过程中,如果信息源所处的外围介质是 同质均匀的话,则信息传递就成为一种多向对称结 构 传递速度对称、内容对称、空间(距离)对称、强 度对称 同质均匀为前提。知识领域、社会文化背景、关注 点等等都会产生影响
信息对空间的分布特征:
1、信息扩散的多向对称性
信息传递的拓扑原则:如果介质均匀,最直接最快 速传递;如果介质不均匀,则会出现“信息栈”, 发生拓扑变换
时间分布 网络信息的快速增长伴随的利用率降 低引起的老化 网络信息的快读更新 网络信息的消失 网络信息的语用衰减
网站数
广 东 上 海 福 建 江 苏 四 川 辽 宁 湖 南 山 西 重 庆 广 西 江 西 云 内 南 蒙 古 甘 肃 宁 夏 西 藏
4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0
网站数 累计
广 东 上 海 福 建 江 苏 四 川 辽 宁 湖 南 山 西 重 庆 广 西 江 西 云 内 南 蒙 古 甘 肃 宁 夏 西 藏
fr=c
c是常数
• 齐夫定律不仅适用拉丁语系;同样适用 于中文。 • 开拓:词频分布的研究
《文体学和韩寒作品分析》
结论之一: 韩寒的部分作品 和韩仁均的作品 区分度不高
3.3 信息生产者分布规律
信息生产者分布——洛特卡定律
信息生产者在信息生产过程和生产结构呈现 的规律,对信息资料的分布有什么影响。
文献信息资源的分布格局 图书馆、档案馆文献中心 情报中心(科技、经济信息情报)
政府部门(统计局、政策研究室等)
协会和学会
编辑、出版、印刷和发行机构
广播、电视、新闻机构 科研机构 企业
3.5 网络信息资源的分布规律
信息内容分布 信息生产者分布 时间分布
3.5 网络信息资源的分布规律
3.1 信息资源分布的特征
马太效应:
过度积累——单一——适度积累
阶段性——短期趋势
• 单缸模型——polya分布 • 多缸模型——tague分布
3.2 信息内容的离散分布规律
信息内容的离散分布——布拉德福定律
表现:信息的内容单元以不同方式从不同角度分布 于各种载体中 本质:由信息的生产和利用决定的 布拉德福定律:揭示论文在期刊中的分布 如果将科学期刊按其刊载某学科主题的论文数量, 以递减顺序排列,就可以在所有这些期刊中分出载 文率最高的“核心”部分和包含着与核心部分同等 数量论文的随后几区,这时核心区和后继各区所含 的期刊数成1:a:a2的关系(a>1)
信息内容分布
网站数 700000 600000 500000 400000 300000 200000 100000
广东 上海
福建 江苏 四川
辽宁 湖南
山西 重庆
广西 江西 云南
内蒙古 甘肃
宁夏 西藏
0
网站数 800000 700000 600000 500000 400000 300000 200000 100000 0
统计学家洛特卡:科学信息的生产规律
写1篇论文的作者约占总数的60%
写2篇论文的作者是写1篇论文作者的1/22
写3篇论文的作者是写1篇论文作者的1/32 .。。。 写n篇论文的作者是写1篇论文作者的1/n2
3.3 信息生产者分布规律
普莱斯定律
核心生产者分布的平方根定律 在某一特定领域中,全部论文的半数是由该 领域中全部作者数量的平方根的那些人撰写 的。 少数信息生产者生产了大量的信息 马太效应
信息对空间的分布特征:
1、信息扩散的多向对称性
信息传递的拓扑原则:如果介质均匀,最直接最快 速传递;如果介质不均匀,则会出现“信息栈”, 发生拓扑变换 多路传递法则:信息是可以分享的,信息是可以分 栈传递的
信息对空间的分布特征:
2、信息传递的密度递减法则
传递过程中有介质的存在,信息会产生衰减,流程 越长,衰减越严重 跟信息源的压力和传递距离有关 譬如学科内的传递
3.1 信息资源分布的特征
马太效应:
信息富集分布:核心趋势、集中取向
如少数出版社会成为某类图书的权威(核心)出版 机构,为数不多的科学期刊因刊载了某学科领域的 大量论文而成为该领域的核心期刊,少数作者(即 资讯生产者)因写得最多、被引用率最高而成为某 一领域的核心作者;少数网站集中了大量用户,传 递功能强的词汇被经常选用;SCI中80%的引文集 中在15%~20%的期刊中等等现象。
F (t ) ae
3.4 信息对时间的分布规律
信息对时间的分布特征:
1、指数增长
普赖斯曲线:具有正确性和普遍性;理想模式 数学领域和IT领域的著作 生长曲线
3.4 信息对时间的分布规律
信息对时间的分布特征:
1、指数增长
普赖斯曲线:具有正确性和普遍性;理想模式 生长曲线:考虑物质 、经济、智力及时间的影响, 文献的增长趋近于生物的生长曲线 刚开始文献增长率很大,当文献量增长到最大值的 一半时,增长率逐渐变小 学科发展初期,文献指数增长,进入成熟期,增长 率变小
3.4 信息对时间的分布规律
信息对时间的分布特征:
2、逐渐过时
信息价值随着时间逐渐衰减乃至失效 文献信息老化:被包含在更新的论著中;虽有用但 兴趣度下降;有用但被超越;不再有用
3.4 信息对时间的分布规律
信息对时间的分布特征:
2、逐渐过时
信息价值随着时间逐渐衰减乃至失效 半衰期:放射性元素的原子核有半数发生衰变时所 需要的时间,叫半衰期(Half-life) 文献半衰期:某学科现在利用的全部文献的一半是 在多长一段时间内发表的,大致上是文献半数失效 所经历的时间
累计 4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0 1 10 100
累计
3.5 网络信息资源的分布规律
信息生产者分布
核心生产者分布的平方根定律
3.5 网络信息资源的分布规律
时间分布
3.5 网络信息资源的分布规律
Burton估计的半衰期
学科名称 生物医学 冶金工程
半衰期(年) 3.0 3.9
学科名称 生理学 化学
半衰期(年) 7.2 8.1
物理学
化学工程 社会学 机械工程
4.6
4.8 5.0 5.2
植物学
数学 地质学 地理学
10.0
10.5 11.8 16.0
补充
信息对空间的分布特征:
1、信息扩散的多向对称性
文献信息资源的分布格局 政府部门(统计局、政策研究室等) 协会和学会
中国信息协会:组织研究中国信息事业的发展战略、方针政策、 法律法规、管理体制等,向政府和有关领导机构提出建议;推 动各类信息机构和会员单位之间的横向联合与合作,促进信息 资源的开发、利用和共享;对信息和信息化的理论与实践问题 进行研究、探讨和交流;推动信息立法、信息标准化、信息安 全、信息网络、信息库等信息基础工作的建设;组织信息人才 的培训,宣传普及信息知识;推进各项信息咨询服务活动,促 进国际信息交流和合作,不断推进中国信息化进程。 情报科学技术学会
• • • •
应用? 情报检索 图书的采购 核心期刊的确定
3.4 信息对时间的分布规律
信息对时间的分布特征:
1、指数增长
普赖斯曲线:他把这些杂志十年一叠地推放在床头 靠墙的书架上,惊异地发现这些学报靠墙竟形成了一 条漂亮的指数曲线。 综合、分析了大量的统计资料,以科学文献量为纵 轴,以历史年代为横轴,把各不同年代的科学文献 量在坐标系中逐点描绘出来,通过平滑方法所得出 的一条曲线。 bt
文献信息资源的分布格局 地区差异 机构或行业差异 内容差图书馆、档案馆文献中心 情报中心(科技、经济信息情报)
中国科学技术信息研究所:1956年10月成立的,是科技部直属 的国家级公益类科技信息研究机构。定位于“为科技部等政府 部门提供决策支持,为科技创新主体(企业、高等院校、科研 院所和科研人员)提供全方位的信息服务;成为全国科技信息 领域的共享管理与服务中心、学术中心、人才培养中心和网络 技术研究推广中心,成为国家科技创新体系的重要支撑,并在 全国科技信息系统中发挥指导和示范作用”。 广东省科学技术情报研究所 杭州市科技情报研究所
文献信息资源的分布格局
编辑、出版、印刷和发行机构
中国知网,是国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银 行于1998年提出。
以实现全社会知识资源传播共享与增值利用为目标
由清华大学、清华同方发起,始建于1999年6月。教 育部、中宣部、科技部、新闻出版总署、国家版权局、 国家计委 建成了世界上全文信息量规模最大的“CNKI数字图书 馆”