当前位置：文档之家› [信息管理学]基础课件-信息分布-

[信息管理学]基础课件-信息分布-

x (a b)(a b c)...(a b (n 1)c)
• (1)若c=0
• P(x)=
n a a x a b a b
x
n x
• P(x)为带有参数n,a/(a+b)的二项分布
反不正当竞争法
洛特卡定律的数学描述
• 根据洛特卡分析，在论文数x和作者数yx之间存在下列关系： xnyx＝c • 式中，yx 是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数，n的数值在2上下波动。 • 通过变换可以得到下面的公式：
•
yx ＝ yx
反不正当竞争法
反不正当竞争法
2.塔格（Tague）分布
• 塔格( Tague )分布又称多缸模型，是对单
– ①设有一系列的缸，每个缸中装有a个红球和b个黑球； – ②如果一个红球被取出，则在该缸中另外加进c个红球； – – ④依次从第一个缸开始取球，一直持续到取出k个球为止 – ⑤接着再从第二个缸取球，重复①～④的程序； –
( x) k x i
• (1 )如果k=1;满足弗林分布，其平均数为 ( 1) ( x) • P(x)= ( )( x 1) • (2）如果＝1，弗林分布对应于瑞利分布或累积优势分布： x! ! • P(X=x)=
( x 1)!
• 式中，B(· ,· )为贝塔函数。 • （3）在累积优势分布中，如果 =1 1 • P(x)= ( x 1)(x 2) 反不正当竞争法
x
ai
• 式中，ai>0,
a
i 0
x
i
＝k-1
a b • 令 = ， = ，有 c c ai ( x) x • P(x)= ( x 1) ( ) i i 0
• 简化得， • P(x)=
(1) i 0 i!( x 1)!( i )!
– 突出重点、摒弃平均，为信息源的选择、获取、评价和利用提供依据，降低信息管理成本，提高信息利用效益。
• 核心信息源
– 忽略分布在其他信息源中有价值的信息。 – 马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播。
反不正当竞争法
3.1.3*马太效应的数学模拟
• 1普利亚（Polya）分布 • 普利亚(Polya)分布亦称单缸模型，它基于下述实验：设某一缸中装有若干红色球和黑色球，按一定的规则从缸中取球，取到球表示成功，取到黑球表示失败。假定缸中现有a个红球、b个黑球，取出某个球后(例如红球)，则将取出球与c个红球一起放回缸中，取到黑球亦同样处理。如果实验重复n次并且假定X表示取出红球的总次数，则X的分布可表示为： • P(x)=P(X=x) n a(a c)(a 2c)...(a ( x 1)c)...(b n ( x 1)c) • =
3.威布尔（Weibull）分布
• 日本的中川和大崎在1975年讨论了威布尔( Weibull )分布。由于在对失败的研究中，失败的次数常用失败的周期数来测量，所以一般用连续分布作失败分析。而随机变量具有离散性，故又称为离散的威布尔分布。中川和大崎 e 提出了如下描述失败的概率函数： • P(x)=qx β -q(x+1) β • x=0,1,2,3,… β>0,0<q<1 • 拉维昌德拉· • P(x)=e-xβ-e-(x+1) β x=0,1,2,3,β>0 • e x
n'
• ＝反不正当竞争法 i n •
p(i)
• 若 1/2P(1→nmax) = P(m→nmax) = P(1→m) ，则有：
•
A(1- n max ) = A(m- n max )
1 2
(3-10)
c • 其中，a(n)= 2 ，a(n)是频数。 n
• P(1→n)=
1 c i 1 i
n
• 调和级数和公式变为 P(1→n)=c(lnn+0.577+…+εn)
反不正当竞争法
• 化简得，M=0.749(nmax)1/2 • 式子表明，高产作者中一位最低产的作者发表的论文数量，等于最高产作者所发表论文数的平方根的0.749倍。 • 另一方面，
A(m nmax ) • K= = A(1 nmax )
• (4)若n →∞ ，a(a+b)-1 →0以及c(a+b)-1 →0,P(x)为负二项分布，n a(a+b)-1 和 nc(a+b)-1 分别趋向于非零值和 • P(X=x)= • 令
e

k k e 1 e x!
( x)

x
＝p，
(k x 1)! k x p 1 p • P(X=x)= (k 1)!x!
反不正当竞争法
洛特卡定律的图形描述
• 洛特卡以论文数(x) 和作者数(yx)的对数为横坐标和纵坐标( log x和log yx)作图，两组数据都是直线(如图所示)。图中虚线表示《化学文摘》数据，实线代表《物理学史一览表》的数据。用最小二乘法计算拟合直线的斜率，近似为-2 Log yx 100 20 10 5 1 1 2 35 25 30 Log x
• 拉维昌德拉· 劳在1987年提出累积优势分布的替代形式： • 设u和v为两个随机变量（u=1,2,3,…,0≦v<1） • P(u/v)=(1-v)u-1;P(v)=(α+1)(1-v)α • P(v)= P(u/v)v P(v) • = (α+1)β(u,α+2) • u=1,2,3,…
• 式(3-15)和(3-16)就是布拉德福定律的图形表述形式。
布拉德福分散曲线
R(n) R(N) R(N’) D B C C n1 N’ N Loge n
R(n1)
A O
布拉德福定律数学描述
• 令m1,m2,m3为一、二、三各区中的论文数量， p1,p2,p3为对应区的杂志数量，r1,r2,r3为各区每种杂志的平均论文数量，则有： • r1p1=r2p2=r3p3=m1 • p2/p1=r1/r2=a1 • p3/p2=r2/r3=a2, • 令a1=a2=a, • 于是p1:p2:p3＝1:a:a2
– R(n)=αnβ (1≤n≤C)………………(3-15) – R(n)=klog (n/s) (C≤n≤N) …………(3-16)
• 曲线上BD部分只是近似地满足(3-16)式。式中：
• R(n)——相关论文累积数。 • n——杂志等级排列的序号(级)。 • α——第一级杂志中的相关文章数R(1)。也就是载文章最 • C——―核心区”中的杂志数量。 • N——等级排列的杂志总数。 • k,s——待定参数，k等于分布曲线中直线部分的斜率，可用实验方法求得。当N足够大时，k≈N。 • β——参数，与收藏的杂志(核心中杂志)数量有关，大小等于分布图中曲线部分的曲率，β总小于1
反不正当竞争法
• 在单缸模型中，x次成功的概率是在第k只黑球取出之前取出x个红球的概率。
a(a c)(a 2c)...(a ( x 1)c)b b • P(X=x)= (a b)(a b c)...(a b xc) i 0 a b ic
• (2)若c=－1
• P(x)=
n a b n x a x ab a
• P(x)为带有参数n,a+b,a的超几何分布
• (3)若a=b=c
• P(x)=
1 n 1
• P(x)为带有参数n,x的均匀分布反不正当竞争法
x x 0
反不正当竞争法

x 0
3.2 信息生产者分布规律
3.2.1洛特卡定律 • 1926年，统计学家洛特卡经过大量统计和研究，在美国著名的学术刊物《华盛顿科学院学报》上发表了一篇题名为“科学生产率的频率分布”的论文，旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。
布氏定律的维克利解释
• 将杂志分区的数目推广到n>3的普遍情形。设将载有某一学科相关论文的杂志分为 m个区，使每一区的论文数量相等，各区中期刊的数量n1,n2,n3,…,nm有如下关系：
T1:T2:T3:…:Tm=1:b;b2:…:bm-1 （b为维氏分布系数） Tm=n1+n2+n3+…+nm=N,N为杂志总数
6
2
0.749( nmax )
1 2
0.812 = nmax
• 这个式子表明了高产作者人数同全体作者人数的比例关系。
反不正当竞争法
3.3信息离散分布规律
• 3.3.1布拉德福定律
英国著名文献信息学家布拉德福发现，某一学科领域中的相关论文在期刊中的分布是不均匀的，而且具有明显的集中与分散规律。他在长期的观察和统计基础之上， (Bradford s Law of Scattering) ,简称为布拉德福定律或布氏定律： “如果将科学期刊按其刊载某个学科主题的论文数量，以递减顺序排列起来，就可以在所有这些期刊中区分出载文率最高的‘核心’部分和包含着与核心部分同等数量论文的随后几区，这时核心区和后继各区中所含的期刊数成1∶a∶a2的关系(a>1)。‖这就是布拉德福定律的区域表述形式。
反不正当竞争法
•
洛特卡选择美国《化学文摘》和德国奥尔巴赫《物理学史一览表》为数据源研究科技工作的论著数量分布。他统计分析了《化学文摘》 1907～1916年10年累积索引中的部分作者，即姓氏以字母A和B开头的6 891位作者。分别列出发表过1篇、2篇，一直到346篇论文的人数。《物理学史一览表》包括了1900年前物理学领域内出现的1 325位物理学家及其论著，取其全部数据进行统计。

e商务文档

[信息管理学]基础课件-信息分布-

相关文档推荐：