当前位置:文档之家› 基于流量特征建模的网络异常行为检测技术

基于流量特征建模的网络异常行为检测技术

第8卷第4期2019年7月Vol. 8 No. 4Jul. 2019网络新媒体技术基于流量特征建模的网络异常行为检测技术**本文于2018 -05 -09收到。

*中科院率先行动计划项目:端到端关键技术研究与系统研发(编号:SXJH201609)。

黄河▽邓浩江3陈君IC 中国科学院声学研究所国家网络新媒体工程技术研究中心北京100190 2中国科学院大学北京100190)摘要:基于流量特征建模的网络异常行为检测技术通过对网络流量进行特征匹配与模式识别,进而检测岀潜在的、恶意入侵 的网络流量,是网络异常行为检测的有效手段。

根据检测数据来源的不同,传统检测方法可以分为基于传输层信息、载荷信 息、主机行为特征等三类,而近年来兴起的深度学习方法已经开始应用于这三类数据,并可以综合应用三类数据,本文从技术 原理与特点、实验方式、取得的成果等方面对上述技术路线进行了综述,并分析了存在的主要问题和发展趋势。

关键词:网络异常行为,异常检测,模式识别,流量特征建模,深度学习Network Abnormal Behavior Detection TechnologiesBased on Traffic - feature ModelingHUANG He 1'2, DENG Haojiang 1'2, CHEN Jun 1(1 National Network New Media Engineering Research Center, Institute of Acoustics , Beijing, 100190, China ,2University of Chinese Academy of Science , Beijing, 100190, China)Abstract : The network abnormal behavior detection technology based on traffic - feature modeling can detect potential and malicious intrusion of network traffic by feature matching and pattern recognition of network traffic , and is an effective measure of network abnor - mal behavior detection. According to the different sources of detection data , traditional detection methods can be classified into three categories based on transport layer information , on load information , and on host behavior characteristics. In recent years , the deep learning method that has emerged has begun to be applied to these three types of data , and can be comprehensively applied. This paper summarizes the above technical routes in terms of technical principles and characteristics , experimental methods , and achievements , and analyzes the major problems and development trends..Keywords : Network abnormal behavior, Anomaly detection , Pattern recognition , Traffic - feature modeling, Deep learning 0引言“互联网是第一种由人类建造,但不为人类所理解之物,它是有史以来我们对无序状态最疯狂的实 验。

”⑴Google 公司前首席执行官Eric Schmidt 在2010年的这段公开谈话直观揭示了因特网的混沌性与复 杂性,其背后的逻辑在于因特网用户行为的多元化。

时至2018年,全球因特网的接入用户数量与数据总量 和2010年相比已经不可同日而语⑵,网络安全牵涉到信息社会中公共安全和个人隐私、财产的方方面面,网 络安全问题正成为学术研究和工程应用中亟待解决的难题。

本文涉及的是基于流量特征建模的网络异常 行为检测技术,这是网络安全技术的一个分支,它的核心思想是通过对网络流量进行特征匹配与模式识别,12网络新媒体技术2019 年进而检测出潜在的恶意入侵的网络流量。

Chandola 等人[3]在2009年将该类技术面临的挑战总结为以下 几个方面:①对入侵者的检测准确率往往不能适配应用的需求,这是因为一方面入侵者往往将自己伪装为 正常访问的用户,另一方面数据中所包含的噪音和异常入侵数据有一定相似性,这都影响了检测准确率的 提升;②在许多应用领域中,网络正常行为的定义不断变换,当前正常行为概念在接下来的时间段可能不再 具有典型性,需要提升检测技术对网络行为变化的快速适应能力;③定义一个涵盖所有可能的正常行为的 定义域是非常困难的;④对于不同的应用领域,异常的确切概念是不同的,需要根据具体领域设计功能细化 的异常检测器。

总而言之,以上4点可以依次归纳为异常检测的准确性、实时性、自适应性、兼容性等4个方 面,其中前两点是当前检测技术的研究重点。

Buczak 等人于2016年总结的一份近年来基于机器学习和数 据挖掘的入侵检测方法报告⑷指出,其详细列表比较的43项工作中,有39项重点在于检测准确性提升,14 项重点在于检测实时性提升,两点都涉及的有10项,两者都不涉及的为0项;而自适应性和兼容性在该报告 中没有体现。

在学术研究中,“准确性”的提高可以通过选择特定模型、特征工程、增加迭代深度来实现,但这些工作 会使得模型复杂度提升,反过来抑制了“实时性”的提高,两者相互制约,是该问题的技术瓶颈之一。

自80 年代以来,世界各地的研究者从传输层到应用层各种各样的数据入手,采用的工具从专家系统到深度学习, 逐渐提高了该类检测技术的各项性能。

近年来深度学习算法等自学习工具的应用,保障了准确性、实时性 的同时,也使得自适应性和兼容性得到了较大的改善。

1传统的网络异常检测方法对流量特征进行建模,研究的对象即为流量数据本身,需要根据合适的目标数据选用具体检测方法。

从目标数据的角度出发,国内外的传统研究可按提出的时间和性能的提升顺序,分为基于传输层数据、基于流量载 荷和基于主机行为信息3种循序渐进的方式。

1.1 基于传输层IP 、端口映射基于传输层IP 、端口映射检测方法将根据网包传输层的端口号映射到应用层协议类型⑸,也能把具体IP 与具体的服务提供者/攻击者相联系,它是最早被提出并投入应 用的检测方法。

最简洁的实现方式便是建立有关IP 信息和入侵可能性的映射的专家系统。

这一方法的首次实现在1988年, Lunt 等人[6]在此思想指导下,结合网络实时审计记录设计了实时的异常检测专家系统,这种使用预定义规则的方法能够实现实时检测以及精细到用户级别的调参,如图1所示。

系统会同步监听并保存每个用户的行为记录并定期更新,以此决定该用户的行为是否异常。

然而基于规则的专家系统的3个缺点:①规则之间层次关系不透明;②面 对大量规则时的低效搜索;③没有学习能力,制约了该方法的进一步发展,具体体现在当异常规则和用户数目过多 时,基于规则的专家系统面临的计算复杂度使得其难以应用。

为了对IP 信息的先验知识进行层次化梳理,Kumar 等 人[7]采用了 Petri 图进行表征学习,该结构不但能在一定程度上具有对未知流量的检测作用,也有利于设计异步的、多点并发的高性能检测系统,但其面对复杂特征异常行为检测监听得到原始数据解析出数据收器用户更新管理者界面二)异常行为记录-1 -监听记录用户记录显示器图1 Lunt的异常检测专家系统4期黄河等:基于流量特征建模的网络异常行为检测技术13的计算复杂度较高。

随着启发式算法在80年代的研究热潮,也被用到该类检测算法中。

Sinclair:8]采用遗传算法与决策树结合的方法,可从较为复杂的IP与端口数据集中学习出用于异常流量诊断的决策树。

Li的相关工作⑼只采用了遗传算法,但加入了网络日志中包含的流量时间特征,提高了检测能力。

然而这些方法的实验均集中在有限的实验室自身流量数据集上,在实时场景中的大多表现未予阐述。

采用基于传输层IP和端口映射的检测方法最大的优点是分类的快速,只需要根据网包包头的字段进行分类。

但随着网络应用的增加,基于Web的应用越来越丰富,企业和运营商也有将社会网络、网页邮件等基于Web的应用进行细粒度分类的需求,这都是基于传输层的方法无法满足的,也会给检测带来极高的时间复杂度。

根据Moore和Papagiannaki[10]在2005年的调查与对比实验,基于传输层IP和端口映射的方法只能达到不超过80%的准确率,长达十年,难以突破,网络异常检测需要引入对IP端口信息以外的非普适性的网络数据的分析才能进一步得到提高。

基于传输层IP 和端口映射检测方法准确率如表1所示。

表1基于传输层IP和端口映射的检测文献方法意义Lunt⑹基于规则的专家系统开创之作Kumar[7]Petri图引入了状态图方法,提升了自适应性Sinclair,厂遗传算法与决策树73%准确率,KDD口⑼遗传算法78%准确率,KDDMoore字符串匹配80.84%准确率,真实数据集1.2基于流量载荷信息随着网络用户在2000年之后的大幅增长,网络应用百花齐放,网络流量载荷中含有的信息也越来越丰富,一定程度上能够代表用户的行为特征,基于载荷信息的检测方法也应运而生。

基于流量载荷信息的分类方法将流量的载荷与预定义的一组特征规则匹配,每条特征规则代表一种应用层协议。

特征规则通常采用精确字符串、正则表达式以及协议解析器描述,通过流量匹配的特征规则可以判断流量的应用,并据此进行流量甄别I例如,匹配正则表达式规则“"ssh-[12]\.[0-9]”的是安全通道(secure shell,SSH)协议。

与特征已经预定义好的基于传输层IP和端口映射方法不同,基于载荷信息的网络异常行为检测可以解耦为应用特征提取和基于特征的流量甄别两个问题。

相关主题