当前位置:文档之家› 网络内容监管系统解决方案

网络内容监管系统解决方案

网络内容监管系统解决方案
尽管互联网给人们的生活带来了很多的便利,但也带来了很多冲击和污染。

除了病毒、恶意代码和恶意网络链接、垃圾邮件等严重干扰人们的正常网络活动外,令人担忧的问题还有互联网上流传的色情、赌博、毒品、暴力等不健康的信息,严重毒害了我们的青少年。

互联网上也不断出现恐怖、欺诈、盗窃机密信息等行为以及危害国家统一、主权和领土完整的;危害国家安全或者损害国家荣誉和利益的;煽动民族仇恨、民族歧视,破坏民族团结的行为;邪教组织也充分利用互联网等高科技手段来“武装”自己,建立非法社区和网站进行宣传。

这些都对国家的政治、经济等方面也造成了很大的冲击和影响。

由于网络非法信息的传播具有极强的隐蔽性和不确定性、手段多样性和超越时空性,其潜在的发展力和危害力极大,因此,各国政府都不断致力于互联网的内容监控。

项目的建设内容
网络监管系统实现对有限范围网站内容的有效监控,满足近期内我国网络内容监管工作的急需,能够针对指定范围内的网站,实时获取网站上发布的信息;采用高效的算法对从网络获取到的信息进行分析,实时地发现其中的非法信息,为采取行政或法律手段提供依据;针对获取到的信息、识别出的敏感信息和用户确认的非法信息提供完善的存储、浏览和管理方案;同时提供安全的网络环境和系统管理功能。

网络内容监管系统功能设计
1、信息获取
主要负责对网络出版信息的自动抓取。

包括网上的静态网页,各种可以下载的压缩文件、doc文件以及txt 文件等。

2、数据库平台
数据库平台主要包括各种数据库、文件库以及存储管理系统。

在系统中,需要建设四个数据库:网页缓冲数据库、训练信息库、敏感信息数据库、历史案件数据库。

3、内容处理平台
主要负责对抓取回来的信息进行处理,从而识别出哪些信息是真正有问题的信息。

需要具备敏感信息识别、关键词提取和摘要、报警、非txt文件预处理、等主要功能。

敏感信息识别:对采集到的信息进行分类,自动鉴别非法信息;
关键词提取和摘要:对敏感的网络出版信息进行关键字提取和摘要,有利于人工进行进一步的处理。

报警:当系统发现可疑信息时发出警告,提醒工作人员进行进一步的处理。

非txt文件的预处理:把doc文件,压缩文件转化为系统可以处理纯文本文件格式。

4、案件管理和Web服务
主要是提供用户对内容处理模块发现的敏感信息的进一步处理,包括敏感信息的分类查询、统计分析和操作用户的管理等,并以Web服务形式为用户提供这些功能,从而及时备案并协助工作人员组织相关的法律证据。

5.全文检索
主要是网页信息的全文检索。

6、系统管理及负载均衡
提供对整个系统的管理平台,包括信息获取平台、数据库平台以及信息处理平台的配置、参数管理等操作,并进行负载均衡,协调整个系统的运行。

总体逻辑层次设计
基础功能模块逻辑结构
网络内容监管系统中涉及网络信息的采集、存储、敏感信息识别、关键词和摘要提取、全文检索等多种功能。

1) 信息采集模块
信息采集事先从目标网站获取每个html页面或者txt、doc、压缩文件等文件。

由主控模块将要监管的网站信息传送过来,然后信息获取模块主动获取目标网站的每个页面,之后将抓取回来的网页由主控模块写入文件和数据库。

2) 主控和系统管理模块
主控模块的主要功能是协调信息采集模块和信息处理模块间的工作,传送两者之间的接口参数,并负责对文件和数据库的管理操作。

3)内容处理平台
信息预处理模块:负责网络信息的格式转换以及I/O操作;
报警模块:当某一信息经过敏感信息识别模块后被认为是非法信息或是可疑信息时,报警提示工作人员以做进一步处理;
案件管理模块:对于发现的非法信息,及时备案并协助工作人员组织相关的法律证据等;
敏感信息识别模块:它是内容处理模块中最为核心的部分。

分为关键字过滤模块和语义分析模块。

对某一网页信息,首先经关键字过滤模块处理,结束后判断是否含有用户所指定的某些关键字,如果是,提交给语义分析模块判断是否为非法信息。

如果判定为可疑信息,提示工作人员以做人工判断。

关键词和摘要提取模块:当用户人员对其历史信息进行复查或是对可疑信息进行分析处理时,为提高用户的工作效率,该模块负责提取其信息内容的关键词和摘要。

全文检索模块:提供对存放在文件和数据库中网页、识别出信息的全文检索功能。

4)文件和数据库
文件和数据库主要存储系统在运行过程中获取的网页信息、信息识别所需要的信息、识别出的非法信息和可疑信息,以及网站监管控制中所需要信息等,为日后的行政处罚做法律证据。

相关主题