当前位置：文档之家› 25.网络信息过滤技术

25.网络信息过滤技术

GFW的主要技术
域名劫持 IP封锁关键字过滤阻断 HTTPS证书过滤
对破网软件的反制

内容安全分级审查是一种主动的安全技术。旨在内容发布前，在内容中嵌入分级标识，随后的各种审查措施基于分级标识进行。这种监管技术可以对信息提供的过程（信源、信息服务和信息的中转等环节）实施主动的审查，以避免不必要的信息及不良信息的传播，通过监管来净化网络环境。

应用层阻塞技术的部署方式
旁路式（Passby） ▪ 监听网络上所有信息，并有选择的对基于TCP的连接（如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等）进行阻断 ▪ 旁路式过滤的原理基于TCP的连接性：跟踪所有TCP 连接，阻断时以服务器身份向客户端发送HTTP ACK PSH FIN，同时以客户端身份向服务器发送HTTP RST。穿透式（Passthrough） ▪ 依赖于代理服务器或应用层网关，直接禁止通信过程
URL阻塞 ▪ 制定不能访问URL地址，以黑名单的形式存放在代理服务器或应用层网关中。在进行HTTP请求的时候，代理服务器或应用层网关会对URL进行审查，如果在黑名单中将予以阻塞关键字审查 ▪ 在互联网出口网关处收集信息，过滤、嗅探制定的关键字，针对包含关键字的通信过程进行阻断 ▪ HTTP报文头部关键词 ▪ 数据流内文关键词

按照从用户获取信息的方法分类
显式过滤 ▪ 用户直接填表 ▪ 用关键词表达用户过滤需求 ▪ 用文档集表达用户过滤需求 ▪ 通过用户交互提供的这些显式信息可以快速、明确描述用户的信息需求，减少系统学习的负担。 ▪ 但是这种显式的获取用户信息需求的方式会增加用户的负担，加重用户使用系统的困难。

什么是信息过滤？
是指计算机根据用户提供的一个过滤需求（User

近义术语
Profile），从动态变化的信息流（比如Web）中自动检索出满足用户个性化需求的信息 Profile：一组对用户过滤需求的描述，这种“profile” 描述了用户长期的、稳定的兴趣爱好
信息的选择分发（Selective Dissemination of
网络层阻塞
应用层阻塞

部署位置
互联网骨干节点
企业网/园区网出口

网络层阻塞技术
DNS过滤（DNS劫持） ▪ 指在特定的网络范围内，拦截域名解析的请求，分析请求的域名，把审查范围以外的请求放行，否则返回假的IP地址或者什么都不做使请求失去响应，其效果就是对特定的网络不能反应或访问的是假网址。 ▪ 一般部署在互联网骨干节点 ▪ 可以通过指定DNS服务器来绕过审查

信息过滤技术的研究现状
当前信息过滤的研究以TREC会议为核心，主
要是文本过滤。国内有关信息过滤的研究以核心算法为主，主要集中在特征抽取、学习算法和过滤算法上。出现了一些过滤软件，但存在较多问题，过滤效果不佳。

目的
对不良信息从源头进行控制，阻塞这些信息的
传入通道

两种方式

PICS
PICS提供了对互联网上信息的内容进行标记的
一个开放平台 PICS提供了有关内容分级的元数据和一种方便于任何独立群体开发自己元数据词汇的机制元数据包括PICS标记词汇和PICS分级服务描述词汇

RSACi分级系统
类似于电影分级制度，原先由娱乐厂商向购买
者提供产品的等级信息在互联网内容等级协会（Internet Content Rating Association，ICRA）倡导下，形成了 RSACi分级服务（ Recreational Software Advisory Council on the Internet）将互联网上的信息大致分为性、暴力、语言和裸体4个方面，每个方面的信息又分为0～4级。 0级表示无害，级别越高，危害越大。

按照从用户获取信息的方法分类
隐含式过滤 ▪ 无需用户直接参与，通过观察用户的动作行为判断用户需求 ▪ 用户在指定页面的停留时间、用户访问页面的频率、是否选择保存数据、是否打印、是否转发数据等对信息项的反应都能作为用户兴趣的标志。 ▪ 采用隐含式获取用户信息需求的方法容易受到干扰的影响，所以这种方法通常用作显式方法的补充。

PICS技术的实现
资源描述框RDF（Resource Description
Framework）
▪ 同时携带多种元数据在网络上传播 ▪ 一个基础结构来支持彼此独立而又互补的元数据的共存 ▪ 可以满足许多不同信息提供者对元数据的要求 ▪ RDF的核心定义基于以下假设：任一个可被标识的 “资源”都可以被一些可选择的”属性”描述，每一个属性的描述都有一个“值”

PICS技术的实现
RDF的例子
<rdf : Description about=„http://www.textuality. com/RDF/Why-RDF.html‟> <Author> Liu </Author> <Home-Page rdf:resource='/'> </rdf: Description>

根据过滤系统的结构分类
基于协作的过滤
▪ 这种方法是“相似”用户间的相互协作过程。通过分析用户兴趣，在用户群体中找到与指定用户兴趣相同或相似的用户，综合这些相同或相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。 ▪ 由于不依赖于内容，这种过滤方法不仅适用于文本信息，也可以推广到非文本形式的信息。 ▪ 局限是活动用户只能获取具有相同兴趣的用户喜欢的信息，而不能获取不同兴趣的用户喜欢的信息。

根据过滤系统的结构分类
基于协作的过滤 ▪ 这种方法是“相似”用户间的相互协作过程。通过分析用户兴趣，在用户群体中找到与指定用户兴趣相同或相似的用户，综合这些相同或相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。 ▪ 由于不依赖于内容，这种过滤方法不仅适用于文本信息，也可以推广到非文本形式的信息。

按照从用户获取信息的方法分类
混合式过滤 ▪ 采用混合式方法获取用户信息需求的方法介于显式方法和隐含式方法之间，它要求尽量减少用户的参与。 ▪ 混合式获取用户信息需求的方法通常有两种
▪ 通过文档空间来获取知识（基于案例的方法） ▪ 通过原型参考来获取知识（推理，预先定义默认的profile，在扫描过程中再改变）

最典型的例子：GFW
Great Firewall，防火长城，也称“中国防火墙”
或“中国国家防火墙”，指中华人民共和国政府在其管辖互联网内部建立的多套网络审查系统的总称，包括金盾系统和相关行政审查系统。一般所说的GFW，主要指公共网络监控系统，尤其是指对境外涉及敏感内容的网站、IP地址、关键词、网址等的过滤。国家防火墙并非中国的专利。实际上，美国也有国家网络监控系统，对进出美国的每一封电子邮件进行内容扫描。不同的是，中国的国家防火墙会直接切断一些敏感连接，而美国的国家防火墙则只是做数据监控记录。

根据信息过滤的目的分类
推荐系统 ▪ 根据用户对信息的评价把信息推荐给合适的接收者，属于协作过滤系统的一部分。阻挡系统 ▪ 通过设置一定的条件限制用户获取某些信息，而其他信息可以利用。

根据过滤模板所在的位置分类
上游过滤 ▪ 又叫代理服务器过滤。用户需求模板存放在服务器端或者代理端。过滤系统也可能处在信息提供者与用户之间专门的中间服务器上，这种情况也叫做中间服务器过滤。 ▪ 上游过滤的优点是不仅支持基于内容的过滤，也支持协作过滤，缺点是模板不能用于不同的网络应用中。
经济过滤
▪ 这种方法依赖于成本和用户获益的计算，依赖于价格机制。

根据操作的主动性分类
主动过滤 ▪ 系统主动从Web上为其用户推送相关的信息。 ▪ 在有些主动信息过滤系统中，预先对网络信息进行处理，例如对网页或者网站预先分级、建立允许或禁止访问的地址列表等，在过滤时可以根据分级标记或地址列表决定能否访问。被动过滤 ▪ 系统不对网络信息进行预处理，当用户访问时才对地址、文本或图像等信息进行分析以决定是否过滤及如何过滤。
Information, SDI），来自图书馆领域路由（Routing），来自Message Understanding 最新资料公告（Current Awareness），来自数据挖掘

无结构的或半结构化的数据
文本数据
图形和图像数据大数据量

难点：对用户过滤需求的描述
信息检索用户需求表示

和信息抽取（Information Extraction）区别
信息过滤关心相关性
信息抽取只关心抽取的那些部分，不管相关性

根据过滤系统的结构分类
1987年，Malone及其同事把信息过滤方法分
为3类：
▪ 基于内容的过滤（Content-based filtering），也叫认知过滤（Cognitive filtering） ▪ 协作过滤（Collaborative filtering），社会过滤（social filtering） ▪ 经济过滤（Economic filtering）。
计算机网络安全技术

概述
内容阻塞
内容分级审查

背景
随着互联网内容的极大丰富，信息海量化正在
导致信息垃圾化

为什么要进行信息过滤
国家信息安全的迫切需求使网络用户尤其是青少年学生远离非友善信息
的侵扰，净化网络空间改善Internet信息查询技术的需要信息个性化服务的基础信息服务供应商（信息中介）开展网络增值服务的手段

e商务文档

25.网络信息过滤技术

相关文档推荐：