信息安全综合实践设计报告题目:网络内容安全过滤系统姓名:01 02 05 22 27班级学号:指导教师:***完成日期:2015年11月6日一、设计任务与要求任务:设计针对邮件、网页以及文件进行过滤的软件。
功能要求:(1)对文本内容、url、网址、ip进行过滤;(2)可以自动去一些网址下载黑名单;(3)软件本身设置一定的安全保护措施,防止被篡改、非法访问等;(4)可以根据需要增加其他的过滤和功能设置,比如限时上网、超时下线、黑屏警告一些非法行为等;(5)增加一定的自学习功能,通过非法信息的特征来升级特征库。
二、可行性研究报告1. 经济可行性2. 技术可行性3. 应用可行性三、系统设计Internet是全球信息共享的基础设施,是一种开放和面向所有用户的技术。
它一方面要保证信息方便、快捷的共享;另~方面要防止垃圾信息的传播。
网络内容分析是~种管理信息传播的重要手段。
它是网络信息安全核心理论与关键技术研究网络内容分析所涉及的新理论、新体系结构、新方法和新技术,是未来几年内容安全研究的重要挑战。
根据CNNIC在2007年1月的第19次中国互联网络发展状况报告统计,中国网民总人数为13 700万人。
这其中仅有8.4%的网民对网络内容的健康性非常满意。
也就是说有91.6%的中国网民(12 550万人)都或多或少地对网络内容的健康性不满意¨j。
网络内容传播以一种实时、连续的数据流(data streams)方式进行口1。
它不宜用持久稳定的方式建模,而适宜用实时动态的方式建模。
这类系统被称为数据流管理系统。
数据流管理技术具有非常广泛的应用领域,如网络内容安全、金融服务、电信数据管理等。
在这些应用中,数据通常以大量、快速、持续的数据流形式到达。
如何对这些数据进行有效处理将是~个具有挑战性的问题。
本文以互联网内容安全为背景,提出一种互联网内容安全检测过滤系统。
1相关研究方法STREAM项目由美国NSF(国家自然科学基金)提供支持。
其主要目标是研究一个通用的数据流管理系统,包括提供一个通用和灵活的体系结构、相关的理论结果和算法、数据模型、相关的语言和语义;探讨多个连续、快速、可变的数据流的连续查询处理、优化和资源分配问题;希望最后提供一个通用的数据流管理系统,使用户可以用类似于SQL的语言来指定查询。
目前其在DSMS的体系结构、数据模型和语义、语言、资源分配和查询优化等方面取得了部分成果,但是系统还没有真正完成。
NIAGARA项目也是由美国国家自然科学基金支持的,主要研究目标是在Intemet环境下的XML数据检索和过滤系统。
该系统从Interact上采集和监管信息,然后包装为XML数据流供检索和过滤使用。
这样利用XML的语义信息可以提供更加准确的数据流检索和过滤。
目前其研究目标主要集中在可扩展性和性能优化方面,主要技术是查询分组和增量维护。
但是收稿日期:2007—1I一25;修回日期:2008—01—11 基金项目:国家信息产业部重点基金资助项目(2007一R-103)作者简介:顾杨(1955·),女,北京人,工程师,主要研究方向为信息安全;李剑(1976.),男,陕西西安人,讲师,博士,主要研究方向为信息安全、电子商务(1ijian@bupt.edu.ca);景博(1980一),女,四川绵阳人,工程师,主要研究方向为信息安全、软件测试;王励成(1972一),男,讲师,博士,主要研究方向为密码学.万方数据第9期顾杨,等:一种互联网内容安全检测过滤系统·2835·在这个项目中,研究的数据仅仅限于XML数据,而没有考虑互联网上众多的其他信息,如HTML、OWL、语音图像内容等的过滤。
Berkeley的Telegraph项目的研究目标是对网络监听器的输出数据流和Web数据流等提供自适应的查询。
目前其特色是数据流的自适应查询处理,包括自适应连接和自适应操作调整。
另外MIT和Brown大学的项目Aurora,目标也是对各种各样的嵌入式设备产生的数据流进行监管和查询。
其研究的内容都没有应用在互联网上,并且也没有对于音/视频等信息进行检测。
四、系统实现1. 概要设计。
整个系统中过滤的信息全部来自互联网应用层的海量信息。
该系统可以分为以下四层:a)网络层。
此层是互联网上通过的文本、音频以及图像与视频信息等。
这一层网络中的信息可以通过网络抓包器来捕获网络数据包,并送给第二层信息识别层进行分类。
b)信息识别层。
在这一层主要是对从网络上来的信息进行识别,分清楚它们是文本、音频还是图像与视频信息。
e)信息流过滤层。
这一层主要任务是对信息识别层传来的信息进行多特征融合判定;对有用的信息进行过滤,对信息的格式进行标准化等。
d)内容检测层。
这一层是整个系统的核心部分。
其主要功能是通过模式匹配口1,检测过滤层传输上来的信息中是否含有特定的内容。
2. 详细设计文本识别技术主要表现在文本实时过滤与文本深度处理技术两方面。
图2为文本识别与处理子系统。
良平甲、 7。
国I≮迪懂南匝主 I币固1图1戛璧巴鬯窆曩全图2文本识别与处理子系统监测过滤系统一一……………2.2.1文本实时过滤技术文本实时过滤最主要的技术就是字符串匹配¨o,涉及以下主要内容:a)复杂规则的匹配技术。
由于过滤系统的功能不断增强,基于关键词匹配的简单规则已经不能满足需求,系统需要更复杂的规则支持更准确的判定和更快速的过滤¨1。
复杂规则匹配有近似、逻辑表达式和正则表达式等,它们的支持力度不尽相同。
在系统中,可以根据不同的应用场景采用不同的表达式匹配方法一o。
(a)近似匹配中大部分都是基于动态规划的。
本系统中采用最经典的Sellers算法。
Sellers算法是Sellers于1980年设计的近似匹配算法。
动态规划算法的时间复杂度为O(mn),但稍经修改便能适用于很多复杂的距离模型。
(b)逻辑表达式匹配是介于精确串匹配和正则表达式匹配之间的一种复杂规则匹配,它是在多个特征串之间增加“与”“或”“非”的逻辑关系以达到更强功能的过滤。
使用带条件的逻辑表达式匹配还可以解决定序、窗口中的复杂匹配等问题。
(e)正则表达式匹配的功能最强,相应的复杂度也最高。
在本系统中采用由Thompson于1968年提出的正则表达式的匹配技术,通过构建NFA自动机来识别正则表达式。
该算法空间开销为O(/?L),扫描匹配时间复杂度为O(mn)。
b)大规模串匹配技术。
本系统采用的是L.SMmema提出的方法,它基于模式串在文本中出现的概率较低的前提,将多个模式串合并为一个模式串,采用r位并行的方法进行匹配。
算法仅在万级规模下表现良好,但当命中率高时,其性能下降较快。
e)模糊匹配技术。
模糊匹配是为了实现一些在已有特征串之上进行扩展的功能。
这些扩展概括起来有字符组、限长空位、可选字符和重复字符。
使用扩展匹配可以实现很多功能,如大小写不敏感匹配、中文特征串的各种变形(拼音、拆分等) 匹配、限定长度的通配符匹配等。
扩展串匹配根据需求不同可以分别选择逻辑表达式、正则表达式、近似串等技术来实现。
d)硬件串匹配技术。
本系统采用N.Tuck的基于FPGA/ASIC的硬件串匹配技术,使用位图压缩和路径压缩两种方法来节省存储空间。
3. 数据库设计五、结果截图、编码清六、设计心得体会要求用手写八、参考资料[1]DAUGMAN J.High confidence cognition of person by rapid video analysis of iris texture[C]//Proe of European Convention on Security and Detection.Brighto.:INSPEC,1995:244·251.[2]DAUGMAN J G.Hish confidence visual recognition of persons by a test of statistical independence[J1.IEEE Trans on Pattern Analysis and Machine Intelligence,1993,15(11):1148—1161.(3]DAUGMAN J.Recognizing persons by their iris patterns[R].1nformation Security Technical Report,1998:33-39.[4]WILDES P.Iris recognition:an emerging biometric technology[J].Proceeding for IEEE,1997,85(1):1347.1363.[5]BOBLES W W.A human identification technique using image of theiris and wavelet transform[J].IEEE Trans on Signal Processing,1998,46(2):1185.1188.[6]应忍冬,徐国治.基于小波变换过零检测的虹膜识别技术[J].上海交通大学学报。
2002.36(3):355-358.[7]黄惠芳,胡广书.一种新的基于小波变换的虹膜识别算法[J].清华大学学报:自然科学版,2003,43(9):1200.1213.[8]王蕴红,朱勇,谭铁牛.基于虹膜识别的身份鉴别[J].自动化学报,2002,28(1):1—10.[9]范科峰,王美华,莫玮.一种新颖的基于小波变换的虹膜识别算法[J】.红外技术,2005,27(4):333—337.[10 1 MALl.AT S.Zero—cressing of a wavelet transform[J].IEEE Trans on lnformation Theory.1991:37:1019.1033.[11]王大凯,彭进业.小波分析及其在信号处理中的应用[M].北京:电子工业出版社.2006:42-49.九、教师评语。