网络流量分类算法比较研究
进行 Qo S调度 ; 为用 户提供 长期 有价 值 的分类 预测 ; 被 对 禁 的应 用或攻击进行检中建立一套分类规则 。聚类则是将具有 相似特征 的无 标识 的实例相 聚成簇 , 它是没有先验知识的分类 。 每个实例 即单 向流 , 由其特征 值 向量描述 。分类过程 的输入 是实例的特征 值 向量 , 出则 是通过 对给 定的 实例 输
能 达 到 分 类 准 确 度 要 求 的 特征 子集 。若 使 用 无 关 的 和 冗 余
最近邻算法[ ( —Ners ih os k 7k ] aet g b r,NN) Ne 是采用 欧 氏距离计算在 维特征空 间中每一个实例 与距 离它最近 的 k个数 据点之间的距 离。实例根据 其近邻 的类标号 进行分 类 。如果这个实例的近 邻 中含 有多个 类标 号 , 则将该 实例
指派到其最邻近的多数类 。 神 经 网络 ( e rl t是 高 度 互 连 的 由神 经 元 组 成 的 N uaNe)
的特征将大为降低分 类算法 的准 确率 , 同时随着 用来 描述 实 例的特征集维数 的增 加 , 需要 存储 和加工 的信 息量 也将
不 断地 增长 , 这使得 系 统更加 耗费 计算 资源 。因此理想 的 情况是选择 较小的且保 留 了相 关类 的最 基本 、 用信息 的 有
有 偏 斜 的 。过 滤 法 特 点 是 计 算 简 单 、 移 植 性 强 。 包 装 法 可
用 非线 性变换将 样本空间的分类问题转化为高维特征空 间
的分 类 问题 , 外 又 根 据 结 构 风 险 最 小 原 则 , 分 类 问题 转 另 将
特点是计算 复杂度 高 , 不适合高维特征 的计算 。
基 于 过 滤 方 法 又 分 为 基 于 相 关 过 滤 方 法 ( orl in C re t - ao
b sdFl r C S 、 于 一 致 性 过 滤 方 法 ( o s tny ae ie, F ) 基 t C n i ec s
化 为 在 特 定 约束 条件 下 寻 找 最 优超 平 面 的二 次 寻 优 问 题 l , 而避 免了分类 器对 样本 先验概率的依赖 , _ 从 g ] 有效提 高
1 )训 练过 程 , 检NCI J练数据 集并构 建分类器 模型 ; )测试 I 2 过程 , 使用 由训练过程得到 的模型对未知新实例进行分类 。
设T S表 示 训 练 数 据 集 , 由分 属 m 个 类 的 个 实 例 它
组成 :
T = { z , > , 2y > , , S < 1 1 < , 1 … < , > ) ( ) 1
前被加密和封装 的流 量 比例 在不 断增 长 。例 如 VP 和类 N 似 VP 的解决方 案、 N 数据包 加密 、 网络应 用 的端 口根 据需 要实行动态分配等 , 这使得 基于端 口号 匹配 和基于数 据包 检测的机制失灵 。第二 , 护特 征库需耗 费大量计算 资源 。 维
第 三 , 集 和解 析 载 荷 记 录 受 用 户 隐 私 权 等 法 律 问题 的 约 采
1 引 言
流 量 分 类 对 于 当 前 网 络运 营 的 优化 和未 来 网络 架 构 的 改 进 提 高具 有 重 要 意 义 。 流 量 分 类 的 主 要 目的 是 : 网 络 对 进 行 有 效 规 划 和设 计 ; 析 网络 中的 应 用 趋 势 ; 网络 资 源 分 对
向和后 向转发数据包 的总数 ) 数据包 长度 相关 属性 、 间 、 时
特征 子集 。 特 征选 择 方 法 分 为 过 滤 法 (ie) 包 装 法 ( a p r。 ftr 和 l wrp e)
网络 , 的输 出来 自其他 神经元 多权 重输入 的组合 。最简 它 单常用的是多层感知器 ¨ , 8 它是 由一个 神经 元 ( 征属性 ) ] 特 构成的单个输入层 , 一个 由神经 元 ( 类别 ) 成 的单个输 出 构
c ieL ann , hn er i ML) g 算法 , 使用 流特 征对 网络 流量进 行分
类 。其优点是不依赖 匹配协议端 口或解析协议 内容 的方式
来 识 别 网络 应 用 , 有 灵 活 性 和 可 扩 展 性 。 它 的 前 提 是 网 具
络层 的流应具有 可统计属性 , 诸如数据包数量相关属性 ( 前
束。
二元关系 TS中每一个 序偶 <z ,J Y >表示一个 实例 ( i
一
1… , ; , , 一1… , , 中 z是 对应 于第 i 实例 的输 z , m) 其 个
基于流特征统 计法 是利 用数 据挖 掘 中机器 学 习 ( — Ma
入特征值 向量 , Y则是输 出的类标 号 。分类过 程的 目标 是 : 从训练集 T S中找到这样一个 函数 一, z , ( )它对任意输入 未知 - z值输出类 的过程能达到最好 的预测效果 。其输 出 是预先定义 了类标号 的离散 值集 合 { Y , y } Y ,。 …, m 。分类 函数 , ) ( 是整个分类器模型的核心 。
了分 类 器 的分 类 准 确 性 和 稳 定 性 。
bsdFl rC ae ie , ON) 快速 相 关 性过 滤 法l ( atC rea t 和 _ F s orl— 3 ]
to - a e l r FC in b s d Fi e , BF) t 。
* 收 稿 日期 :0 1年 l 21 1月 1 7日, 回 日期 :0 1年 1 月 1 日 修 21 2 7 基 金 项 目 : 徽 医 科 大 学科 研 基 金 项 目 ( 号 :0 0 k0 0 资 助 。 安 编 2 1 x j4 ) 作者简介 : 勃 , , 士 , 彭 男 硕 工程 师 , 究 方 向 : 件 工 程 , 络 流量 分 类 。 研 软 网
结 点 , 根 据 测 试 结 果 将 样 本 划 分 到 该 结 点 中 。对 每 个 子 并 结 点 递 归 调 用 该 算 法 , 到 所 有 子 集 仅 包 含 同 一 类 别 的 数 直 据为 止。
特征选择是 流量 分类 的预处理步骤 。使用 特征选择 方 法可 自动地从初 始特 征集 中消除无关的和冗余 的特征_ 。 2 ] 特征子集 的质量对 于分类 算法 ( ML算法 ) 性能 而言 尤 为重要 。构建 ML分类器的关键在于能否找到 一个 最小且
Ab ta t Ae u aetafcca sfc to So u d me a m p ra c o n me o sn t r ciiisa di a e na h tt pci t src c rt r fi ls i a ini ff n a ntli o tn et u r u ewo k a t te n th sb e o o i nne— i v wor e s r me tf ralngtme km a u e n o o i .A o c mpaio fsx ag rt msO r fi lsiia in s do lw e t rsi o d td An lssa d rs n o i lo ih ftafcca sfc to bae n fo fa u e sc n uce . ay i n e p rm e ts o t tu ig faur eeinm eh d t e s p o tv co c ie( x ei n h w ha sn e t es lto t o h u p r et rma hn SVM ) meho a gh a c r c n te o t d h shi c u a y a d betrc mpua in l tto a p ro ma c o ewo k tafcca sfc to . e fr n efrn t r rfi lsiia in Ke o ds n t r r fi ls ic to y W r e wo kta f ca sf ain,ma hn er n c i c ielanig,fa u es lcin e t r ee to Cls a sNumbe TP3 3 r 9
集 探 测 和归 纳 而 构建 出来 的分 类 器 模 型 。模 型 可 表 现 为 流 程 图 、 策 树 、 经 网 络 图 等 。流 量 分 类 主 要 有 两 个 步 骤 : 决 神
2 基于流特征统计方法
早 期 网 络 流 量 分 类 使 用 基 于 端 口号 匹 配 方 法 和数 据 包 载 荷 特 征 检 测 方 法 [ 。前 者 方 法 简 单 、 件 实 现 容 易 , 者 1 ] 硬 后 则具有精度高的优点 , 这 些方 法均存 在局 限性 : 先 , 但 首 目
摘
要
准确的网络流量分类既是众多网络研究工作 的重要基础 , 也是网络测量领域 的研究热点 。基于流特征的六种分类算法进行 比
较分析 , 实验结果表明 , 特征选择方法 ,V 算法具有较高的整体准确率 和较好 的计算性能 , 使用 SM 适合用于网络 流量分类 。
关 键 词 网 络 流 量 分类 ;机 器 学 习 ; 征 选 择 特
2 1 年第 5 02 期
计算机与数字工程
1 3
3 特 征选择与分类算 法
3 1 特 征 选 择 .
2 )如果 中样 本分属 不 同的类 , 通过计算 , 择增 则 选 益 比例[ 最大的属性作 为分裂属 性 , 6 ] 以此 作为属 性测试 条 件将样本 划分为较 小子集。对测试条 件的每个输 出创 建子
相 关 属 性 ( 持 续 时 间 分 布 、 空 闲 时 间 、 据 包 到 达 时 间 流 流 数 间隔) 。 等 ML 流量 分 类 分 为 两 种 学 习 类 型 : 类 ( 监 督 学 习 ) 分 有 和 聚类 ( 监 督 学 习 ) 无 。分 类 是 从 一 个 预 先 定 义好 类 别 的实
中 图分 类 号 T 33 P 9