信息科学与技术学院本科三年级计算机前沿讲座读书报告课程名称:计算机前沿讲座院(系):信息学院年级:2009级专业:计算机指导老师:乔少杰等学生信息:张忠强(20092144)计算机前沿讲座读书报告------WEB数据挖掘1.摘要网络信息安全问题 , 已经成为制约网络经济进一步发展的重要瓶颈。
Web 数据挖掘技术是提升网络信息安全防范绩效的关键技术。
本文在构建基于Web数据挖掘的网络信息安全防范模型后 , 还对建立在 Web数据挖掘基础上的网络信息安全防范模型运行的基本原理、Web挖掘的数据资源、Web 挖掘的技术方法、防范模型的主要应用、模型运行的注意事项等进行了深入分析。
2.前言上了半个学期的计算机前沿讲座课程,不同研究领域的老师们从八个不同的方向,给我们讲解了八个不同领域的计算机前沿知识,其中我对数据挖掘比较感兴趣,课下从网上和图书馆看了一些关于WEB数据挖掘资料,并有写一点体会。
3.关键字网络; 信息安全; 数据挖掘; 安全防范模型4.读书体会近年来随着互联网的迅速普及 , 网络逐渐成为用户完成相关业务的非常重要的、不可或缺的手段。
诞生于网络经济基础之上的电子商务 , 无论是在国外还是国内 , 都得到了长足发展。
另一方面 , 当前网络经济所面临的网络安全现状不容乐观。
网络与信息系统自身存在的缺陷、脆弱性以及面临的威胁 , 使得网络安全已经成为国家与国防安全的重要组成部分 , 同时也是制约网络经济进一步发展的重要瓶颈。
金山公司发布的《中国互联网 2006年度信息安全报告》显示 , 2006年 , 电脑病毒呈爆炸式增长 , 共截获新增病毒样本 24万多种 , 几乎是 2003年至 2005年间病毒总和的三倍。
2007年度中国公安部全国信息网络安全状况调查的结果显示 , 信息网络安全事件的主要类型是: 感染计算机病毒 ,电子邮件 , 遭到网络扫描、攻击和网页篡改等。
根据 iResearch艾瑞市场咨询最新发布的《2007年中国个人网络安全研究报告》数据显示 , 以盗号木马、黑客后门和下载木马为代表的木马程序已经成为大多数职业病毒生产者的生财工具 , 不管是网银中真实的钱 , 还是虚拟财产 , 都成为木马程序瞄准的对象。
网络信息安全问题 , 无论是理论上还是技术上 , 都是不可能完全解决的 , 因此 , 能不能将网络信息安全防范技术与其他技术相结合 , 以现有的历史数据为基础 , 提升网络信息安全防范的针对性、时效性和有效性呢 ? 答案是肯定的 , 这种技术就是 Web数据挖掘技术 , Web 数据挖掘技术为提升网络信息安全防范绩效提供了可能性与可行性。
数据挖掘的基本过程有:问题定义、数据收集和数据预处理、数据挖掘、结果解释和评估。
5.Web数据挖掘是提升网络信息安全防范绩效的关键技术数据挖掘是指从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中的人们事先不知道 , 但又是潜在有用的信息和知识。
但是传统的数据挖掘方法大部分只能对同质、同构的数据进行分析 , 这对于互联网上的大量的异构的文本信息、日志信息、超链接等不太适用。
为了解决这个问题 , 人们将传统的数据挖掘技术与 Web结合起来 , 产生了一种新的挖掘技术 --Web数据挖掘。
Web数据挖掘的基本处理过程如图 1所示。
其中 , 资源发现是指从 Web获取并返回文本资源的过程 , 其所处理的对象包括静态网页、Web数据库、Web结构、用户使用记录等信息; 数据预处理是指根据挖掘的目的 , 对发现的原始资源数据进行提取、分解、合并 , 最后转化为适合进行数据挖掘的数据格式 , 并保存到关系型数据库表或数据仓库中 , 等待进一步处理; 模式识别是指运用各种算法对处理后的数据进行挖掘 , 生成模式 , 其主要算法包括访问路径分析、关联规则发现、序列模式分析、分类规则发现、聚类分析等; 模式分析是指进行用户访问模式的分析 , 从而将有价值的模式提取出来的过程。
图 1 Web数据挖掘的基本处理过程6.基于 Web数据挖掘的网络信息安全防范模型Web数据挖掘作为网络信息安全防范的综合分析工具 , 运行在网络的用户数据库和数据仓库之上 , 包括以下功能模块: ①过滤器: 用来从 Web数据库中抽取相关数据 , 进行二义性分析 , 消除不一致性。
②挖掘综合器:是一个挖掘驱动引擎。
根据挖掘要求和挖掘方法的知识库到 Web数据挖掘算法库中去选择合适的挖掘方法 , 并且使用该方法去执行挖掘任务。
③方法选择专家系统及知识库: 它是 Web数据挖掘的“大脑” , 是一个规则集合 , 能够根据不同的挖掘要求来选择最有效的挖掘算法或几种算法的序列组合 , 并且随着应用的深人 , 该知识库可以不断融入新的规则 , 以增加专家系统的智能性。
④Web数据挖掘算法库: 是一个数据挖掘分析方法的综合性算法库。
⑤用户评估界面: 提供一个和分析人员交互的友好界面。
如果本次的挖掘结果不能满足分析人员的需要或者还有进一步的猜想 , 就可以再次从这里输人挖掘需求。
⑥方法驱动模块: 它利用挖掘出来的有益信息 , 去进行相应统计与分析的工作。
据此分析 , 可以构建一种基于 Web数据挖掘的网络信息安全防范模型 , 如图 2所示。
图 2 基于 Web数据挖掘的网络信息安全防范模型该模型以 Web数据挖掘模块为中心 , 对多个数据源的信息进行处理 , 是一个将用户数据、信息转化为知识的过程。
7.防范模型的主要应用7.1安全审计安全审计就是对有关操作系统、系统服务和应用、用户活动以及网络行为所产生的一系列的安全事件进行记录和分析的过程。
Web数据挖掘方法来辅助网络安全审计 , 其主要思想是从“正常”的网络通信数据中发现“正常”的网络通信模式 , 并和常规的一些攻击规则库进行关联分析 , 检测系统还存在哪些潜在的漏洞 , 从中发现安全问题 , 进而可以采取一定的补救和惩罚措施。
安全审计系统中通过综合运用 Web数据挖掘中的关联、序列、分类、聚类等技术 , 可以实时地审计分析局域网内的 HF防火墙、 I DS入侵检测系统、 IPPS信息保护系统等安全产品产生的日志 , 能够实时或事后审计网络安全状态 , 为网络安全管理人员全面提供了一种审计、检查当前系统运行状态的有效手段。
7.2入侵检测入侵检测通过对网络用户的行为信息进行采集、分析和过滤 , 及时准确地向系统的管理者发出警报 , 它是目前维护网络安全的重要技术之一。
目前入侵检测系统中普遍采用的特征检测的方法是由安全专家预先定义出一系列特征模式来识别入侵。
这种方法的问题是模式库得不到及时的更新 , 这样在入侵检测的过程中系统不能自适应地识别出新型攻击 , 使误报警和漏报警问题不断发生。
另外 , 随着网络应用的普及 , 网络数据流量急剧增加 , 有些审计记录本身包含了大量的无关信息 , 引起数据过载与检测速度过慢等问题。
基于 Web数据挖掘的入侵检测方法 , 主要是利用数据挖掘中的数据分类、关联分析和序列模式挖掘 , 对安全审计数据进行智能化的分析处理 , 通过提取数据本身存在的规律性 , 帮助系统生成入侵检测规则及建立异常检测模型 , 使系统能自动地获取知识 , 实时地处理海量数据 , 最大限度地降低在处理安全审计数据时对先验知识的要求 , 及时发现攻击 , 并能使系统可以检测出以前从未出现过的攻击方法 , 而且大大减小了系统的误检率。
7.3恶意代码检测在反恶意代码研究中 , 最经典的是“特征码”检测技术。
但是特征码检测技术有着致命的弱点 , 它只能检测已知的恶意代码 , 对于新出现的恶意代码它便无能为力。
而利用 Web数据挖掘技术 , 可以有效地提高恶意代码检测的质量与效率。
首先 , 搜集大量的恶意代码 , 形成恶意代码库 ,在大量的恶意代码中加入一些正常代码 , 然后将其分为两部分 , 一部分称为训练集 ,另一部分称为测试集; 其次 , 利用各种算法 , 例如规则分类算法和贝叶斯算法等 , 对训练样本进行训练 , 使其正确地识别出恶意代码和正常码; 最后 , 用测试集来对其训练效果进行评估。
一般来说 , 经此处理后的恶意代码检测 , 都能取得较为理想的效果。
7.4恶意邮件检测随着信息技术的发展 , 许多新生的恶意程序代码是以电子邮件的附件形式出现的 , 对于这种恶意程序代码 , 目前通常的做法是通过邮件过滤器结合病毒扫描器来检测 , 而病毒扫描器都是基于签字 (特征码 ) 进行检测恶意代码的 , 对于未知的恶意程序没有相应的特征码 , 因此防范的代价高昂 , 而且效率较低。
建立在Web数据挖掘技术基础上的邮件过滤系统 , 以电子邮件为检测对象 , 通过对电子邮件样本进行分析 , 获得最能区分出是否为恶意邮件的特征模式 , 可以自动发现新生的恶意程序 , 再以该模式为基础 , 采用朴素贝叶斯分类器和增强型方法进行机器学习 , 最终获得一个邮件过滤器 , 过滤掉恶意邮件 , 得到有用邮件。
8.总结通过老师的讲解以及查阅有关论文,对WEB数据挖掘有了一定的了解。
在这个知识量爆炸的信息时代,如何获取我们需要的有用知识成了一个比较严峻的问题,通过数据挖掘,就可以较好地解决这个问题。
网络信息安全问题 , 无论是理论上还是技术上 , 都是不可能完全解决的 , 因此 , 能不能将网络信息安全防范技术与其他技术相结合 , 以现有的历史数据为基础 , 提升网络信息安全防范的针对性、时效性和有效性呢 ? 答案是肯定的 , 这种技术就是 Web数据挖掘技术 , Web数据挖掘技术为提升网络信息安全防范绩效提供了可能性与可行性。
9.参考文献【1】王岩.数据挖掘技术研究.沈阳理工大学应用技术学院,2005,1.【2】袁红军. 虚拟参考咨询复合系统协调发展探究.杂志, 2006 .7【3】李家清. 网络参考咨询服务模式研究 2004.10【4】初景利图书馆数字参考咨询服务研究 2004。