当前位置:文档之家› [信息管理学]基础课件-信息分布-

[信息管理学]基础课件-信息分布-

x (a b)(a b c)...(a b (n 1)c)
• (1)若c=0
• P(x)=
n a a x a b a b
x
n x
• P(x)为带有参数n,a/(a+b)的二项分布
反不正当竞争法
洛特卡定律的数学描述
• 根据洛特卡分析,在论文数x和作者数yx之 间存在下列关系: xnyx=c • 式中,yx 是发表了论文x篇的作者数,n和c是 对应于这一典型数据集合而估计出来的两个常 数,n的数值在2上下波动。 • 通过变换可以得到下面的公式:

yx = yx
反不正当竞争法
反不正当竞争法
2.塔格(Tague)分布
• 塔格( Tague )分布又称多缸模型,是对单
– ①设有一系列的缸,每个缸中装有a个红球和b个黑 球; – ②如果一个红球被取出,则在该缸中另外加进c个 红球; – – ④依次从第一个缸开始取球,一直持续到取出k个 球为止 – ⑤接着再从第二个缸取球,重复①~④的程序; –
( x) k x i
• (1 )如果k=1;满足弗林分布,其平均数为 ( 1) ( x) • P(x)= ( )( x 1) • (2)如果 =1,弗林分布对应于瑞利分布 或累积优势分布: x! ! • P(X=x)=
( x 1)!
• 式中,B(· ,· )为贝塔函数。 • (3)在累积优势分布中,如果 =1 1 • P(x)= ( x 1)(x 2) 反不正当竞争法
x
ai
• 式中,ai>0,
a
i 0
x
i
=k-1
a b • 令 = , = ,有 c c ai ( x) x • P(x)= ( x 1) ( ) i i 0
• 简化得, • P(x)=
(1) i 0 i!( x 1)!( i )!
– 突出重点、摒弃平均,为信息源的选择、获 取、评价和利用提供依据,降低信息管理成 本,提高信息利用效益。
• 核心信息源
– 忽略分布在其他信息源中有价值的信息。 – 马太效应青睐名人、拒绝新人的习惯势力限 制了新思想、新知识和新信息的产生及传播。
反不正当竞争法
3.1.3*马太效应的数学模拟
• 1普利亚(Polya)分布 • 普利亚(Polya)分布亦称单缸模型,它基于 下述实验:设某一缸中装有若干红色球和黑色 球,按一定的规则从缸中取球,取到球表示 成功,取到黑球表示失败。假定缸中现有a个 红球、b个黑球,取出某个球后(例如红球),则 将取出球与c个红球一起放回缸中,取到黑球 亦同样处理。如果实验重复n次并且假定X表示 取出红球的总次数,则X的分布可表示为: • P(x)=P(X=x) n a(a c)(a 2c)...(a ( x 1)c)...(b n ( x 1)c) • =
3.威布尔(Weibull)分布
• 日本的中川和大崎在1975年讨论了威布尔( Weibull )分布。由于在对失败的研究中,失 败的次数常用失败的周期数来测量,所以一般 用连续分布作失败分析。而随机变量具有离散 性,故又称为离散的威布尔分布。中川和大崎 e 提出了如下描述失败的概率函数: • P(x)=qx β -q(x+1) β • x=0,1,2,3,… β>0,0<q<1 • 拉维昌德拉· • P(x)=e-xβ-e-(x+1) β x=0,1,2,3,β>0 • e x
n'
• = 反不正当竞争法 i n •
p(i)
• 若 1/2P(1→nmax) = P(m→nmax) = P(1→m) ,则有:

A(1- n max ) = A(m- n max )
1 2
(3-10)
c • 其中,a(n)= 2 ,a(n)是频数。 n
• P(1→n)=
1 c i 1 i
n
• 调和级数和公式变为 P(1→n)=c(lnn+0.577+…+εn)
反不正当竞争法
• 化简得,M=0.749(nmax)1/2 • 式子表明,高产作者中一位最低产的作者发表 的论文数量,等于最高产作者所发表论文数的 平方根的0.749倍。 • 另一方面,
A(m nmax ) • K= = A(1 nmax )
• (4)若n →∞ ,a(a+b)-1 →0以及c(a+b)-1 →0,P(x)为负二项分布,n a(a+b)-1 和 nc(a+b)-1 分别趋向于非零值 和 • P(X=x)= • 令
e

k k e 1 e x!
( x)


x
=p,
(k x 1)! k x p 1 p • P(X=x)= (k 1)!x!
反不正当竞争法
洛特卡定律的图形描述
• 洛特卡以论文数(x) 和作者数(yx)的对数为横 坐标和纵坐标( log x和log yx)作图,两组数 据都是直线(如图所示)。 图中虚线表示《化学文 摘》数据,实线代表 《物理学史一览表》的 数据。用最小二乘法计 算拟合直线的斜率,近 似为-2 Log yx 100 20 10 5 1 1 2 35 25 30 Log x
• 拉维昌德拉· 劳在1987年提出累积优势分 布的替代形式: • 设u和v为两个随机变量 (u=1,2,3,…,0≦v<1) • P(u/v)=(1-v)u-1;P(v)=(α+1)(1-v)α • P(v)= P(u/v)v P(v) • = (α+1)β(u,α+2) • u=1,2,3,…
• 式(3-15)和(3-16)就是布拉德福定律的图形表述 形式。
布拉德福分散曲线
R(n) R(N) R(N’) D B C C n1 N’ N Loge n
R(n1)
A O
布拉德福定律数学描述
• 令m1,m2,m3为一、二、三各区中的论文数量, p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每 种杂志的平均论文数量,则有: • r1p1=r2p2=r3p3=m1 • p2/p1=r1/r2=a1 • p3/p2=r2/r3=a2, • 令a1=a2=a, • 于是p1:p2:p3=1:a:a2
– R(n)=αnβ (1≤n≤C)………………(3-15) – R(n)=klog (n/s) (C≤n≤N) …………(3-16)
• 曲线上BD部分只是近似地满足(3-16)式。式中:
• R(n)——相关论文累积数。 • n——杂志等级排列的序号(级)。 • α——第一级杂志中的相关文章数R(1)。也就是载文章最 • C——―核心区”中的杂志数量。 • N——等级排列的杂志总数。 • k,s——待定参数,k等于分布曲线中直线部分的斜率,可 用实验方法求得。当N足够大时,k≈N。 • β——参数,与收藏的杂志(核心中杂志)数量有关,大小等 于分布图中曲线部分的曲率,β总小于1
反不正当竞争法
• 在单缸模型中,x次成功的概率是在第k只黑球取出之 前取出x个红球的概率。
a(a c)(a 2c)...(a ( x 1)c)b b • P(X=x)= (a b)(a b c)...(a b xc) i 0 a b ic
• (2)若c=-1
• P(x)=
n a b n x a x ab a
• P(x)为带有参数n,a+b,a的超几何分布
• (3)若a=b=c
• P(x)=
1 n 1
• P(x)为带有参数n,x的均匀分布 反不正当竞争法
x x 0
反不正当竞争法

x 0
3.2 信息生产者分布规律
3.2.1洛特卡定律 • 1926年,统计学家洛特卡经过大量 统计和研究,在美国著名的学术刊物 《华盛顿科学院学报》上发表了一篇题 名为“科学生产率的频率分布”的论文, 旨在通过对发表论著的统计来探明科技 工作者的生产能力及对科技进步和社会 发展所作的贡献。
布氏定律的维克利解释
• 将杂志分区的数目推广到n>3的普遍情形。 设将载有某一学科相关论文的杂志分为 m个区,使每一区的论文数量相等,各 区中期刊的数量n1,n2,n3,…,nm有如下关 系:
T1:T2:T3:…:Tm=1:b;b2:…:bm-1 (b为维氏分布系数) Tm=n1+n2+n3+…+nm=N,N为杂志总数
6
2
0.749( nmax )
1 2
0.812 = nmax
• 这个式子表明了高产作者人数同全体作者人数 的比例关系。
反不正当竞争法
3.3信息离散分布规律
• 3.3.1布拉德福定律
英国著名文献信息学家布拉德福发现,某一学科领域 中的相关论文在期刊中的分布是不均匀的,而且具有明 显的集中与分散规律。他在长期的观察和统计基础之上, (Bradford s Law of Scattering) ,简称为布拉德福定律或布氏定律: “如果将科学期刊按其刊载某个学科主题的论文数量, 以递减顺序排列起来,就可以在所有这些期刊中区分出 载文率最高的‘核心’部分和包含着与核心部分同等数 量论文的随后几区,这时核心区和后继各区中所含的期 刊数成1∶a∶a2的关系(a>1)。‖这就是布拉德福定律的 区域表述形式。
反不正当竞争法

洛特卡选择美国《化学文摘》和德国奥尔巴 赫《物理学史一览表》为数据源研究科技工作 的论著数量分布。他统计分析了《化学文摘》 1907~1916年10年累积索引中的部分作者, 即姓氏以字母A和B开头的6 891位作者。分别 列出发表过1篇、2篇,一直到346篇论文的人 数。《物理学史一览表》包括了1900年前物理 学领域内出现的1 325位物理学家及其论著, 取其全部数据进行统计。
相关主题