当前位置:文档之家› P2P文件共享系统行为特性模型分析

P2P文件共享系统行为特性模型分析

第2 9卷 第 5期
21 0 2年 5月
计 算 机 应 用 研 究
Ap l a in Re e r h o o u e s p i t s a c fC mp tr c o
V0 . 9 No 5 12 . M a 2 1 v 02
P 件 享 系 2 P文 共 。 , , J统行 为特 性 模 型分 析 、 一、
作 者简 介 : 宝钢 (9 3 ) 男 , 南 荥 阳人 , 师 , 士 , 要 研 究 方 向 为 网络 测 量 、2 网 络 、 线 传 感 器 网 络 ( ghn su.d .n ; 勇 陈 17 。 , 河 讲 博 主 PP 无 bce @ cteu c ) 许
( 9 1 ), 教授 , 17 一 男, 博士, 主要研究方向为网络流量分析、 图像识别和处理 ; 胡金龙 (9 7 ) 男, 师, 17 . , 讲 博士 , 主要研 究方向为网络监控和管理.
C HE o g n N Ba — a g ,XU n 2 HU Jnln 2 Yo g i— g o

( .C lg fr tn&Ma a e et c ne Hea gi l r nvrt Z egh u4 00 C ia; .C mm nctn&C m ue 1 ol efI omai e o n o n gm n i c, n nA r u ueU i sy, hn zo 50 2, hn 2 o u i i Se ct ei ao o p t r
连接相融合的 P P文件共 享 系统 , 中国教育 科研 网上 最大 2 是
0 引言
文 件 共享 是 目前 It n t 最 主 要 、 成 功 的 P P应 用 , ne e 上 r 最 2
的非商业性 、 以科研为 目的 的 P P系统。由于 Mae系统 的客 2 z 户端实现了在结束一个下 载或上传后 向 日志 服务器报告 其结 果的功能 , 些 日志记录了用户的请求时 间 、 这 下载方的系统 I D 和被下载 方的 系统 I 下 载开始 时间 、 载结束 时间 、 D、 下 开始排
识别 随机变量所服从 的分 布族主要 是通过探 索性数据 分 析来完成 的。对数据进行多种 可视化检查 和摘要 统计可 以实
1 Ma e系统 及其 日志 z
Mae z 是北京大学 网络实验室开发的一个 中心索引与对等
收 稿 日期 :2 1 —82 0 lO —4;修 回 日期 :2 1 -0 1 0 1 1-4
Ne okL brtr u nd n rv c, o t C iaU i rt o cnlg , un zo 6 1 C ia t r a oao o G ag ogPoi e S uh hn nv syf T h ooy G agh u5 04 , hn ) w yf n e i e 1
第 5期
陈宝钢 , :2 等 P P文件共 享 系统行 为特性 模型 分析
・1 4 8 3・
分布能不 能符合需要 。当一 个单 分布不能满足要求时 , 需要 就 考虑选择混合 分布。 2 2 参数估计 . 极大似然估计是一 种常见 的参数 估计方法 , 它以观测值 出 现 的概率最大作 为准则 , 其基本思想是建立似然 函数并求解似 然方程 。设 为连续 随机变量 , 其分布密度 函数为 P l , ( 0) 并 完全 由参数 决 定这个密度函数 。 已知 Ⅳ个 观测 值 一 , , 假设 它 们是 从 分布 密 度 为 P 一 } 则 , ,
() 1

参数 估计方法 比单分布要复杂一些。E ei 和 H n vrt t ad提 出了使 用 E 算法来拟合混合分 布 。其 基本思 想是首 先在 给出缺 M 失数据的情况下 , 估计模 型参数 的值 ; 再根据参 数值估 计 出缺 失数据的值。根据估计 出的缺失数据的值对参数值 进行更新 , 如此 反复迭代 , 直至收敛 。文献 [ , ] 8 9 则提 出了利用 函数最小 化方法来计算混合 分布的参数 , 这种方法 比 E M算法更 快也更 稳定 。本 文使用 函数最小化方法来计算混 合分 布的参数 。
so tme o e s c n be fte u ig t e l g o ma it bu in;whie te n mbe fr qu ssa d t e e t d nu e f in i fus r ’ a td sn h o n r ld sr to i i l h u r o e e t n he rqu se mb r o u es’ a e mo e e y t e mi d e po e ta iti u in a r t it bu in. sr r d ld b h xe x n n ildsrb to nd Pa eo d sr to i
这种 性质 , 用统 计方 法研 究 了 M z 利 ae系统 用户行 为特 性 分布 模 型及 特 点 。结 论表 明, 户上 传 流量 和 下 载流 用
量、 上传 带宽和 下载 带宽可 以使 用对数 正态混合 分布 来描 述 , 跃 时间和 传 输 时间 可 以使 用对数 正 态分 布 来拟 活 合, 而请 求 次数和被 请 求次数 可 以使 用指 数分布 和 P rt ae o分布 的混合 分布 来表 达 。 关键 词 :P P文件 共 享 系统 ; z ; 为特性 ; 型 ;混合 分布 2 Mae 行 模 中图分 类号 :T 3 3 0 P 9 .7 文献标 志码 :A 文 章编 号 :10 - 6 5 2 1 ) 5 14 —4 0 13 9 (0 2 0 - 8 2 0
d i1 .9 9 ji n 1 0 —6 5 2 1 .5 0 4 o:0 3 6 /.s .0 13 9 .0 2 0 .6 s
M o ei g a d a ay i n b h vo a haa trsiso 2P f e s a ig s se d ln n n lss o e a ir lc r ceitc fP l —h rn y tm i
现探索性数据分析 。可视化检 查的主要 工具是柱 状 图和分 布 图, 利用可视化检 查能够 消除很 多候选分布 , 并且 判断一个 单
基 金项 目 : 国 家“ 7 ” 划 资 助 项 目( 0 C 3 4 0 ,0 9 B 2 5 5 93 计 0 2 3 B 18 52 0 C 30 0 )
Ke r s P P f e s a n y tm ;Ma e e a irc a a tr t s y wo d : 2 l—h r g s s i i e z ;b h vo h r ce si ;mo e s i c d l ;mi tr i r u in xu e d s i t s tb o
陈宝钢 许 ,
504 ) 1 6 1
勇 胡金龙 ,
( .河 南农 业 大学 信 息与 管理科 学 学院 , 州 400 ; .华 南理 工 大学 广 东省计算 机 网络 重点 实验 室 , 州 1 郑 502 2 广

要 : 由于 PP文件 共 享 系统具 有 自组 织的特 点 , 为特 性很 大程度 上影响 了系统 可靠性 和性能 。为 了解 2 其行

队时 间 、 求文件 的路径 和文件 名 、 求文件 长度 、 际下载 请 请 实
量、 文件 下载者 的 I P和端 口等信息 。因而 Mae系统可 以记 录 z 整个系统 的所有在线用户的文件请 求和下载情况 , 这对 准确理 解和分析 P P文件共 享 系统 的用 户行 为 和 特点 提供 了极大 2
Ab t a t Du e p o e t so ef0 g n z t n, e a irc a a t r t safc h eib l ya d p r r n e i 2 l — sr c : e t t r p r e fs l ra i i oh i - a o b h vo h r cei i fe t e rl i t n e f ma c n P P f e sc t a i o i s ai g s se sg i c n l .I r e n e sa d t i n t r ,t i p p r n e t a e r p r e n i r u i n mo e fu — h rn y t m i nf a t i y n o d rt u d rtn s au e h s a e v s g t dp o e isa d ds i t d l s o h i i t tb o o
e s be vo h r ce si n MAZE y tm h o g ttsia eh ds And t e r s lsi ia e t tu o d a o l a r ’ ha irc a a tr t i i cs s se t r u h sa itc lm to . h e u t nd c t ha pla nd d wn o d
帮助 。
2 模 型过 程
随机变量 的模型过程可 以大致分 为分布选择 、 参数估 计 、
拟合 优 度 检 验 。 2 1 分 布 选 择 .
些 特点和分布 特征 。根 据 M z ae系统 用户 日志 中的数 据 内
容, 本文分析 了用户的上传 流量和下 载流量 、 用户 上传带宽 和 用户下载带宽 、 用户 的请求 次数和被请 求次数 , 以及用户 的活 跃时间和传输 时间情况 的统计分 布模 型。
t f c, po d a d d w la a d d h o s r ’c n b d ld b o n r l x u ed sr u in:a t e t n a s s r f u l a n o n o d b n wit fu es a e mo ee yl g o ma t r i i t ai mi tb o ci me a d t n mi— v i r
3 用户 行为模 型 和分析
许多针对 P P文件 共享 系统 行为 的研究 , 2 没有分 析特 定 行为 的分 布特点 。而已有的针对 特定行 为的分析 只是近似 地
相关主题