2011.02/中国信息安全/ 41文/中国科技大学网络态势感知研究中心 王砚方态势感知研究的方法论“态势感知”是网络安全文献中使用频度相当高的一个术语,态势感知已成为研究网络安全所必需解决的问题,但业内的专家对此可能有不同的理解。
本文企望通过相关的介绍和分析提出一己的看法。
“态势感知”概念的来源由于人的因素在动态系统(如飞机驾驶、空中交通管制、电力网管理等)中彰显出越来越大的重要性,M.R.Endsley在1995年提出人类决策模型,总结出包括采集、理解和预测三个层次的态势感知模型。
此模型基于各元素间的确定关系,例如由飞机的航速、方位角及风速判断它的落地点和落地时间,机场的空中交通管理人员就可以按事先确定的方案引导飞机安全降落。
再如战斗机驾驶员根据空中环境的动态变化,按规定的程序作战场上的各种相应的战术动作。
在自动控制设备运行时,遇到异常时操作员如何介入,也可按专家事先制定的方案进行。
总之,Endsley模型是指导人——机器的互动的原则:如果用较多的人工,可以得到对机器设备状态的较多的感知,因而可使设备接近最佳的状态;而如果自动程度较高,可以节省人工,但操作员的感知较少,遇到不理想的情况就难以作出抉择,在这个问题上,Endsley模型就是要解决人工同自动化之间最好的折中。
这种模型适用于处理简单的系统,专家的先验的成分较多。
显然,它不适用于复杂网络。
事实上自这个模型提出的十五年来,在许多方面开拓了研究,如人员培训、设计、工作团队协调等方法有不少成果。
国内有学者把它作为通用的理论模型,提出基于流量和局域网的单机日志的数据融合,建立大规模网络安全的态势评估模型。
到上世纪末,已经有人意识到仅靠在单个计算机上的防入侵设备已不能解决网络的安全问题,出现了把网络上安全传感器和计算机上的防入侵等42 /中国信息安全/2011.02设备同网络流控和管理结合起来的需求。
1999年T. Bass提出了多台安全传感器和入侵检测设备的数据融合的原理和流程,称为Bass模型。
Bass模型没有从网络本身的特点出发,而只是在数据融合技术方面就事论事。
差不多从那时开始,已经有人认识到复杂网络中个体的非线性相互作用对于系统宏观行为的出现至关重要,它使得系统整体行为不能通过个体行为的简单叠加而获得。
通常一个传感器既不能发现也不能确认一次攻击,只能简单地对某一次事件进行确认,而这一事件很可能只是一次攻击中的一部分。
Bass模型显然没有达到解决网络安全问题所需要的理论的高度和深度。
有一些作者把自己擅长的数据库和模式识别等技术结合Bass的数据融合方法,试图用模型预测网络安全趋势。
自然这样的研究用到实际中的效果不容易令人满意。
态势感知“探针”网络态势感知需要对实际网络进行测量,为了了解网络态势的变化,需要有一种实时性好的检测设备作为探针。
因此,网络态势感知的必要条件是有一个符合要求的深度数据采集设备作为探针和分析器。
在下文中称这种设备为“原型机”,它的主要功能和技术指标包括:1.处理海量流的能力。
互联网通过各个节点传输数据流,对于一个端到端的数据流有可能是由一个乃至上千个并发连接(会话)组成,因此“连接”是检索网络数据传输中信息的最小的索引。
合格的网络安全设备就要把连接的特征和属性全部记录下来,这种检验能力的指标是“并发连接”的数量和完整性。
因为网络上的一些异常往往是由小概率事件引起的,这是复杂网络的一个特点,所以用采样方法是不合适的。
实践证明,千兆位链路上需要有双向400万个并发连接,所以在万兆位骨干网上有双向6400万个并发连接就能满足目前在网络上实时感知的要求。
2.精细分析的能力。
通过深度数据包检测,提取流和连接的参数,并加以检索和匹配。
重要的物理参数为源和目的地址、源和目的端口以及协议,即统称为“五元组”。
为了感知网络的微观状态,原型机要做到尽可能多的逻辑参数的识别。
目前我国自己制造的原型机已能标识19个参数,这也是国际业内的最好水平。
3.协议识别能力。
除了因特网的标准协议如TCP, UDP等外,对利用这些协议留出的协议段传播的非标准或私有协议是因特网繁荣发展的基础,但也往往是威胁网络安全的因素。
原型机提取这些私有协议的特征(即指纹),实时地同机内的指纹库匹配检索,如果协议是有害的,便可及时处置。
指纹库要有足够的容量,并需要更新维护。
现有原型机的指纹库可以保持4000种最活跃的私有协议,并至少每月更新一次。
4.灵活的配置和方便的部署方式,可靠的运行性能。
原型机可按用户的要求设定阈限策略处置,并有串联和并联(镜像)两种部署。
原型机的延迟、无故障运行时间等均应符合电信级设备的要求。
5.业务分流能力。
在精细地识别基础上,原型机可按预设的方式对流重定向,把相关的业务流分门别类地输送到后台处理。
这种办法能大大提高后台处理的效率,减轻对后台存储器容量的压力。
在进行关键词检索、敏感文字挖掘,以及图像、语音判别方面,经过原型机的协议过滤和网络态势感知的必要条件是有一个符合要求的深度数据采集设备作为探针和分析器。
它的主要功能和技术指标包括:处理海量流的能力;精细分析的能力;协议识别能力;灵活的配置和方便的部署方式,可靠的运行性能;业务分流能力。
2011.02/中国信息安全/ 43分类均衡,对后台的云计算能力的要求可减到未分流的50%左右。
以上是能满足网络态势感知要求的原型机的技术指标。
我国硬件和软件技术已经可以实现这样的设备,并已具备了产业化的必要条件。
但原型机的能力必须不断提高,即所谓“魔高一尺,道高一丈”,才能适应网络安全的态势感知的要求。
态势感知初解本文中的“网络”指互联网(Internet)或万维网(World Wide Web)。
前者是由计算机、连接媒介(如光纤、电缆)和路由器等传输管控设备组成的一种传输结构,用IP地址定位每一个独立的计算机终端。
而后者是由网页组成,以唯一的资源地址(URL)定位。
前者是实实在在的物理网络,后者是数字空间的虚拟网络。
互联网同万维网有许多共同的特性,如果把互联网中计算机终端和操控它的用户看成一个节点,把节点间的传输线看成“边”,则互联网是一个由节点和边构成的复杂系统。
同样万维网是由网页、超文本协议和访问构成的复杂系统。
我们在这里把互联网和万维网统称为“网络”,这是一种特指,是狭义的网络。
复杂系统科学研究中,往往把系统中的元素(或子系统)看成节点,把元素(或子系统)间的相互关系看成边,而不考虑节点和边的具体物理含义,这样就可用网络作为系统的模型,用网络的一般理论去研究系统,那里的“网络”是广义的网络。
互联网在其建立的初期就确定了去中心化的原则,以保证在受到外来攻击时的可用性和存活性。
互联网的开放特性逐渐引来了众多的用户,在自组织原理的支配下,形成了遍及全世界的庞大的结构。
这个复杂网络以小世界、无标度和聚集性为其特点,是一种非均匀网络。
互联网并没有从一开始就规范网民的行为,事实上要规范也是徒劳的。
互联网为非标准或私有协议留下了空间,这一方面成为互联网繁荣发展的技术基础,但也使网络安全问题逐步显现。
网络安全问题由滥用或恶意攻击引起,滥用和攻击造成了网络流量和网络行为的异常。
影响了网络的可用性、保密性和完整性。
互联网集成了人类的智慧促进社会发展,已成为人类社会不可或缺的资源,但其脆弱性是一个潜在的威胁。
网络的演化过程形成了网络元素(独立子网)之间的非线性关系,这是网络复杂性的根源。
网络安全表现在宏观的异常,而其底层是微观运动,比如涌现就是一种微观的集体行为。
涌现是没法计算,无法预测的,只有从微观态势感知和发现。
网络中数据传输是以包为单位的,在传输中包不能再被分拆,不同的包可以循不同的路径由源点送到目的,在那里按发送的顺序组织成连接。
连接传达了通信双方的信息,是网络中最小的信息单元,我们可以把连接看成是网络中的微观颗粒,对网络的微观研究必定需从对连接的研究开始。
这样一种思路是我们对“态势感知”理解的出发点。
下面我们分四个层次来解释:“态——状态”。
为描述网络这样一个复杂系统,需要尽可能了解它的微观状态,这些状态可以用流连接的参数描述。
连接的参数可以分为有关传输的参数(源和目的地址和端口、数据流方向等)、协议组参数(标准协议和私有协议标志、私有协议组标志等)、连接本身的参数(包的个数、包长度、首个包的标志等),以及连接时间和连接状态参数和有效传输时间参数等。
这些参数还远远没有穷尽流的全部信息,因为这些参数仅仅是包头的一部分,而包的静荷构成的内容还需要用更多的参数来表达,而内容的参数表达是难以量化的,深度包分析(DPI)技术的目的就是尽量挖掘流参数。
美国政府执行的“爱因斯坦-3”计划可以记录13个连接参数。
我们在上面提到的原型机可记录19个参数。
“势”——从字面上看是“趋势”,其物理意义是“关联”。
一个粒子在另一个粒子的作用场内,就有“势能”,代表这两个粒子的关联。
粒子网络安全问题由滥用或恶意攻击引起,滥用和攻击造成了网络流量和网络行为的异常,影响了网络的可用性、保密性和完整性。
互联网集成了人类的智慧促进社会发展,已成为人类社会不可或缺的资源,但其脆弱性是一个潜在的威胁。
44 /中国信息安全/2011.02之间有相互作用才有势。
在网络中,连接的关联可以用其参数为坐标。
例如所有源地址相同的连接就从同一源发出信息。
在这一组连接中,协议相同的连接表示由同个节点发出的使用相同协议的连接。
如果再把所有目的地址相同的连接相关联,就表示由同一源、用相同协议传输到同一目的的连接。
连接的信息越精细,可以做的到的关联就越复杂,层次也更多。
因此连接的关联就是一个多模匹配的过程。
连接的多参数匹配将流分成许多层,体现了复杂网络的分层特性。
“感——检知”。
对于“势”,必须有一种工具(算法或测度)才能检知。
例如一个容器中的气体分子,我们无法确定单个分子的位置和动量,只有容器中气体的温度、压力等宏观量才是能被测量的。
所以“感”是从微观到宏观的过程。
正如热力学系统在外界的温度和压力变化时会产生相变一样,复杂网络在一定条件下,外界信息的输入会产生突变,称为“涌现”,由一个状态变到另一个更有序的状态。
系统的熵就是用来把微观量表现为宏观的测度的。
熵有热力学表示,也有信息学表示,它们都是相通的。
“知——知识”。
宏观量的检知还不是知识,只有这些检知出来的量以某种方式联系起来,才能变成知识。
知识是人类思考的“规则”,大家都遵守规则,才可以交流,其累积的成果就是文化。
回到网络安全的问题,如果用熵(不管是哪种形式的熵)感知到某些异常,例如流量异常或行为异常(访问方式异常、协议使用异常)等,怎样才能知道是安全还是不安全的因素呢?这就需要有事前准备好的规则,用这些规则来判断是否安全。
连贯起来说,从网络安全角度看,我们可以对“态势感知”这样来理解:“网络态势是指网络连接行为的实时状态以及连接之间的关联,态势感知是用可测度的宏观量表示网络状态的突发变异,由此判断网络的安全趋势。