当前位置:文档之家› ch3幂律齐普夫,帕累托模型

ch3幂律齐普夫,帕累托模型

布拉德福定律是文献计量学的重要定律之一,它和洛特卡定 律、Zipf定律一起被并称为文献计量学的三大定律。
帕累托分布(图)
/wiki/%E5%B8%95%E7%B4%AF%E6%89%98%E5%88%86%E5%B8%83
帕累托分布(1)
帕累托分布可以归纳为一个非常简洁的表述:通过 市场交易,20%的人将占有80%的社会财富,如 果交易可以不断进行下去,那么,“在因和果、 努力和收获之间,普遍存在着不平衡关系,典型 的情况是:80%的收获来自20%的努力;其他 80%的力气只带来20%的结果”。
大致是帕累托分布的例子
• 在现代工业资本主义创造了大量中产阶级前后, 财富在个人之间的分布。
• 人类居住区的规模 • 接近绝对零度时,爱因斯坦凝聚的团簇 • 在互联网流量中文件规模的分布 • 油田的石油储备数量 • 龙卷风带来的灾难的数量
幂律分布特征: 双对数坐标下,一条斜率为负数k的直线
y=c*x^(-k),
Zipf 模型 续: 20%城里居住着80%的人口吗?
%计算排名前20%的城里居住的人口(某国)gm20和 %排名前20%的城里居住的人口占总人口的百分比,即相对规模, xdgm20 zgm=sum(gm) %总规模 pm20=npm/5 gm20=0; for i=1:pm20
gm20=gm20+gm(i); endfor gm20 xdgm20=gm20/zgm %百分相对规模
不人在他有这个上们来到时
/link?url=SQyragilOETE2Ofcid4lPySETscZildBRh-gcmasz_kFg_PaHdnEfvIyfmt3dC7WDCTA5UJNGwpkyu9j3BhuuonZMVus-NQ0iRkTqtcsNGm
帕累托分布(续)
丹尼尔·贝尔在《帕累托分布与收入最大化》中进 一步叙述到:“如果待分配的财富总量是100万 元,人数为100人,那么我们会有这样一组对应 的分配比例:排在前面的20个人,分得80万元; 同理,这20人中的4个人,分得64万元;4个人中 的1个人,分得50万元。”
帕累托分布从经济学角度论证出,社会分配的“ 绝对的失衡”必然导致“绝对的贫困”,甚至导 致“宗教末日审判”的来临,除非我们可以通过 政治手段,人为地阻止财富向高端不断聚集,否 则,贫富双方的利益冲突是不可避免的。
对上式两边取对数,
log(y) = C-k*log(x)
可知
logy与logx满足线性关系,
即在双对数坐标下,幂律分布表 现为一条斜率为幂指数的负数 的直线,这一线性关系是判断 给定的实例中随机变量是否满 足幂律的依据。
图2 双对数坐标下一个幂律分布
幂律分布是自组织临界系统
幂律分布是自组织临界系统在混沌边缘,即 从稳态过渡到混沌态的一个标志,利用它 可以预测这类系统的相位及相变。
bar([1:npm],rkzb,"r") hold on plot(rkljzb, "-og") xlabel("pm") ylabel("city size %/ cumulative size") hold off
else
bar([1:100],rkzbp,"r") hold on plot(rkljzbp, "-og") xlabel("pm %") ylabel("city size %/ cumulative size %") hold off
乎是一个常数(constant,简称C)。就是
r×f=C
Or
f = C/r^1
Zipf定律是文献计量学的重要定律之一,它和洛特卡定律、布 拉德福定律一起被并称为文献计量学的三大定律。
汉字使用频率统计
1. 使用频率排名前5个汉字(使用频率之和为10% ):
的一是了我
2. 使用频率排名第(6~17)个汉字(使用频率之 和为10%):
figure 1 loglog([1:npm],rk,"or") %bar([1:npm],rkzb,"r") %hold on %plot(rkljzb, "-og")
%%%%%%%%%%%%%%%%%%%% %城市人口(按排名百分数) xscale= npm/100 rkp(1) = sum(rk(1:1*xscale)); rkzbp(1) = rkp(1)/zrk; for j = 2:100
它认为,由大量相互作用的成分组成的系统 会自然地向自组织临界态发展;当系统达 到这种状态时,即使是很小的干扰事件也 可能引起系统发生一系列灾变。著名的“沙 堆模型”形象地说明了自组织临界态的形成 和特点(如图):
沙崩~金融市场中泡沫崩溃
设想在一平台上缓缓地添加沙粒,一个沙堆逐渐形成。开始时,由于沙堆 平矮,新添加的沙粒落下后不会滑得很远。但是,随着沙堆高度的增加 ,其坡度也不断增加,沙崩的规模也相应增大,但这些沙崩仍然是局部 性的。到一定时候,沙堆的坡度会达到一个临界值,这时,新添加一粒 沙子(代表来自外界的微小干扰)就可能引起小到一粒或数粒沙子,大 到涉及整个沙堆表面所有沙粒的沙崩。
幂律分布
幂律分布的示意图如右图所示,其通式可写成
y=c*x^(-k),
其中x,y是正的随机变量,c,k均为大于零的常数。 这种分布的共性是绝大多数事件的规模很小,而只 有少数事件的规模相当大。
洛特卡定律
洛特卡定律
是由美国学者A.J.洛特卡在20世纪20年代率先提出的描述科 学生产率的经验规律,又称“倒数平方定律”
Zipf 模型 模型模拟3000个城市的人口数据
clc; clear all %用Zipf 模型模拟3000个城市的人口数据,放入gm变量中 npm=3000 gm1= 30000000 pwr= 1
for i = 1:npm gm(i) = gm1/i^pwr;
endfor
plot(gm,"ok") figure %建立新图画面 loglog([1:npm],gm,“-or”) %画双对数点线图
rkp(j) = sum(rk((j-1)*xscale+1:j*xscale)); rkzbp(j) = rkp(j)/zrk; endfor
%人口累计占比(按排名百分数) for j=1:100
rkljzbp(j) = sum(rkzbp(1:j)); endfor
figure 2 if xscale < 1
幂律
齐普夫定律 Zipf's Law
Zipf定律是美国学者G.K.齐普夫提出的。可以表述为:在自然 语言的语料库里,一个单词出现的次数与它在频率表里的 排名成反比。
上个世纪30年代,Zipf对此作出了研究,并给出了量化的表达 ——齐普夫定律(Zipf's Law):一个词在一个有相当长度的语
篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为 rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几
从US人口局下载到的资料有 2000至2008年10年间的普查资料
宁夏回族自治区2010年第六次全国人口普查主要数据公报 区统计局 2011年5月10日
/link?url=FEIb_yYlwNjgA6IR1xnZyJwe-TxbCHzA5h5q7M2gmrAOxfp_MnYC4V4-vUfYmXpjIcc7QIBy-4SxwBk31AfKIa
endif
百分累积占比线
详细: 19%城市聚集了80%的人口
Zipf应用: 20/80原则
你一定听过这样的说法: 80%的财富集中在20%的人手中…… 80%的用户只使用20%的功能…… 20%的用户贡献了80%的访问量…… ………… “二八原则”或“20/80原则” 如果把所有的单词(字)放在一起看呢?会不会20%的词(
这时的沙堆系统处于“自组织临界态”,有趣的是,临界态时沙崩的大小与其 出现的频率呈幂律关系。这里所谓的“自组织”是指该状态的形成主要是 由系统内部各组成部分间的相互作用产生,而不是由任何外界因素控制 或主导所致,这是一个减熵有序化的过程;“临界态”是指系统处于一种 特殊的敏感状态,微小的局部变化可以不断被放大、进而扩延至整个系 统。自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日 辉耀斑、物种灭绝、交通阻塞、以及金融市场中泡沫崩溃的现象。
字)占了80%的出现次数?答案是肯定的。
《链接》
《链接》提出了清晰无疑的观点:在互联网上我们 不是随机链接在一起。“互联网是由少数高链接性 的节点串联起来的,极少数的几个点拥有海量点 击,而绝大多数网站只有寥寥可数的人造访。
管理创新:冥律分布
管理创新遵循着冥律分布原则:有少量根本改变管 理实践的突破性想法,也会有大量价值不高、影 响力弱的主意。
布拉德福( S.C.Bradford )定律
布拉德福定律是由英国著名文献学家S.C.Bradford于1934年 率先提出的描述文献分散规律的经验定律。
其文字表述为:如果将科技期刊按其刊载某学科专业论文的 数量多少,以递减顺序排列,那么可以把期刊分为专门面 对这个学科的核心区、相关区和非相关区。各个区的文章 数量相等,此时核心区、相关区,非相关区期刊数量成 1:n:n^2的关系。
%总人口 zrk=sum(rk) zrk20p=sum(rk(1:0.2*npm)) rkzb20p= zrk20p/zrk
%人口占比 for i=1:npm
rkzb(i) = rk(i)/zrk; endfor
%人口累计占比 rkljzb(1) = rkzb(1); for i=2:npm
rkljzb(i) = rkljzb(i-1) + rkzb(i); endfor
100个城市, 3000W, plot(gm)
相关主题