25.网络信息过滤技术
GFW的主要技术
域名劫持 IP封锁 关键字过滤阻断 HTTPS证书过滤
对破网软件的反制
内容安全分级审查是一种主动的安全技术。 旨在内容发布前,在内容中嵌入分级标识, 随后的各种审查措施基于分级标识进行。 这种监管技术可以对信息提供的过程(信 源、信息服务和信息的中转等环节)实施 主动的审查,以避免不必要的信息及不良 信息的传播,通过监管来净化网络环境。
应用层阻塞技术的部署方式
旁路式(Passby) ▪ 监听网络上所有信息,并有选择的对基于TCP的连接 (如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等) 进行阻断 ▪ 旁路式过滤的原理基于TCP的连接性:跟踪所有TCP 连接,阻断时以服务器身份向客户端发送HTTP ACK PSH FIN,同时以客户端身份向服务器发送HTTP RST。 穿透式(Passthrough) ▪ 依赖于代理服务器或应用层网关,直接禁止通信过程
URL阻塞 ▪ 制定不能访问URL地址,以黑名单的形式存放在代理 服务器或应用层网关中。在进行HTTP请求的时候, 代理服务器或应用层网关会对URL进行审查,如果在 黑名单中将予以阻塞 关键字审查 ▪ 在互联网出口网关处收集信息,过滤、嗅探制定的关 键字,针对包含关键字的通信过程进行阻断 ▪ HTTP报文头部关键词 ▪ 数据流内文关键词
按照从用户获取信息的方法分类
显式过滤 ▪ 用户直接填表 ▪ 用关键词表达用户过滤需求 ▪ 用文档集表达用户过滤需求 ▪ 通过用户交互提供的这些显式信息可以快速、明确描 述用户的信息需求,减少系统学习的负担。 ▪ 但是这种显式的获取用户信息需求的方式会增加用户 的负担,加重用户使用系统的困难。
什么是信息过滤?
是指计算机根据用户提供的一个过滤需求(User
近义术语
Profile),从动态变化的信息流(比如Web)中自动 检索出满足用户个性化需求的信息 Profile:一组对用户过滤需求的描述,这种“profile” 描述了用户长期的、稳定的兴趣爱好
信息的选择分发(Selective Dissemination of
网络层阻塞
应用层阻塞
部署位置
互联网骨干节点
企业网/园区网出口
网络层阻塞技术
DNS过滤(DNS劫持) ▪ 指在特定的网络范围内,拦截域名解析的请求,分析 请求的域名,把审查范围以外的请求放行,否则返回 假的IP地址或者什么都不做使请求失去响应,其效果 就是对特定的网络不能反应或访问的是假网址。 ▪ 一般部署在互联网骨干节点 ▪ 可以通过指定DNS服务器来绕过审查
信息过滤技术的研究现状
当前信息过滤的研究以TREC会议为核心,主
要是文本过滤 。 国内有关信息过滤的研究以核心算法为主,主 要集中在特征抽取、学习算法和过滤算法上。 出现了一些过滤软件,但存在较多问题,过滤 效果不佳。
目的
对不良信息从源头进行控制,阻塞这些信息的
传入通道
两种方式
PICS
PICS提供了对互联网上信息的内容进行标记的
一个开放平台 PICS提供了有关内容分级的元数据和一种方便 于任何独立群体开发自己元数据词汇的机制 元数据包括PICS标记词汇和PICS分级服务描述 词汇
RSACi分级系统
类似于电影分级制度,原先由娱乐厂商向购买
者提供产品的等级信息 在互联网内容等级协会(Internet Content Rating Association,ICRA)倡导下,形成了 RSACi分级服务( Recreational Software Advisory Council on the Internet) 将互联网上的信息大致分为性、暴力、语言和 裸体4个方面,每个方面的信息又分为0~4级。 0级表示无害, 级别越高,危害越大。
按照从用户获取信息的方法分类
隐含式过滤 ▪ 无需用户直接参与,通过观察用户的动作行为判断用 户需求 ▪ 用户在指定页面的停留时间、用户访问页面的频率、 是否选择保存数据、是否打印、是否转发数据等对信 息项的反应都能作为用户兴趣的标志。 ▪ 采用隐含式获取用户信息需求的方法容易受到干扰的 影响,所以这种方法通常用作显式方法的补充。
PICS技术的实现
资源描述框RDF(Resource Description
Framework)
▪ 同时携带多种元数据在网络上传播 ▪ 一个基础结构来支持彼此独立而又互补的元数据的共 存 ▪ 可以满足许多不同信息提供者对元数据的要求 ▪ RDF的核心定义基于以下假设:任一个可被标识的 “资源”都可以被一些可选择的”属性”描述,每一 个属性的描述都有一个“值”
PICS技术的实现
RDF的例子
<rdf : Description about=„http://www.textuality. com/RDF/Why-RDF.html‟> <Author> Liu </Author> <Home-Page rdf:resource='/'> </rdf: Description>
根据过滤系统的结构分类
基于协作的过滤
▪ 这种方法是“相似”用户间的相互协作过程。通过分析用 户兴趣,在用户群体中找到与指定用户兴趣相同或相似的 用户,综合这些相同或相似用户对某一信息的评价,形成 系统对该指定用户对此信息的喜好程度预测。 ▪ 由于不依赖于内容,这种过滤方法不仅适用于文本信息, 也可以推广到非文本形式的信息。 ▪ 局限是活动用户只能获取具有相同兴趣的用户喜欢的信息, 而不能获取不同兴趣的用户喜欢的信息。
根据过滤系统的结构分类
基于协作的过滤 ▪ 这种方法是“相似”用户间的相互协作过程。通过分 析用户兴趣,在用户群体中找到与指定用户兴趣相同 或相似的用户,综合这些相同或相似用户对某一信息 的评价,形成系统对该指定用户对此信息的喜好程度 预测。 ▪ 由于不依赖于内容,这种过滤方法不仅适用于文本信 息,也可以推广到非文本形式的信息。
按照从用户获取信息的方法分类
混合式过滤 ▪ 采用混合式 方法获取用户信息需求的方法介于显式 方法和隐含式方法之间,它要求尽量减少用户的参与。 ▪ 混合式获取用户信息需求的方法通常有两种
▪ 通过文档空间来获取知识(基于案例的方法) ▪ 通过原型参考来获取知识(推理,预先定义默认的profile,在 扫描过程中再改变)
最典型的例子:GFW
Great Firewall,防火长城,也称“中国防火墙”
或“中国国家防火墙”,指中华人民共和国政府在 其管辖互联网内部建立的多套网络审查系统的总称, 包括金盾系统和相关行政审查系统。 一般所说的GFW,主要指公共网络监控系统,尤 其是指对境外涉及敏感内容的网站、IP地址、关键 词、网址等的过滤。 国家防火墙并非中国的专利。实际上,美国也有国 家网络监控系统,对进出美国的每一封电子邮件进 行内容扫描。不同的是,中国的国家防火墙会直接 切断一些敏感连接,而美国的国家防火墙则只是做 数据监控记录。
根据信息过滤的目的分类
推荐系统 ▪ 根据用户对信息的评价把信息推荐给合适的接收者, 属于协作过滤系统的一部分。 阻挡系统 ▪ 通过设置一定的条件限制用户获取某些信息,而其他 信息可以利用。
根据过滤模板所在的位置分类
上游过滤 ▪ 又叫代理服务器过滤。用户需求模板存放在服务器端 或者代理端。过滤系统也可能处在信息提供者与用户 之间专门的中间服务器上,这种情况也叫做中间服务 器过滤。 ▪ 上游过滤的优点是不仅支持基于内容的过滤,也支持 协作过滤,缺点是模板不能用于不同的网络应用中。
经济过滤
▪ 这种方法依赖于成本和用户获益的计算,依赖于价格机制。
根据操作的主动性分类
主动过滤 ▪ 系统主动从Web上为其用户推送相关的信息。 ▪ 在有些主动信息过滤系统中,预先对网络信息进行处 理,例如对网页或者网站预先分级、建立允许或禁止 访问的地址列表等,在过滤时可以根据分级标记或地 址列表决定能否访问。 被动过滤 ▪ 系统不对网络信息进行预处理,当用户访问时才对地 址、文本或图像等信息进行分析以决定是否过滤及如 何过滤。
Information, SDI),来自图书馆领域 路由(Routing),来自Message Understanding 最新资料公告(Current Awareness),来自数据挖 掘
无结构的或半结构化的数据
文本数据
图形和图像数据 大数据量
难点:对用户过滤需求的描述
信息检索 用户需求表示
和信息抽取(Information Extraction)区 别
信息过滤关心相关性
信息抽取只关心抽取的那些部分,不管相关性
根据过滤系统的结构分类
1987年,Malone及其同事把信息过滤方法分
为3类:
▪ 基于内容的过滤(Content-based filtering),也叫认 知过滤(Cognitive filtering) ▪ 协作过滤(Collaborative filtering),社会过滤 (social filtering) ▪ 经济过滤(Economic filtering)。
计算机网络安全技术
概述
内容阻塞
内容分级审查
背景
随着互联网内容的极大丰富,信息海量化正在
导致信息垃圾化
为什么要进行信息过滤
国家信息安全的迫切需求 使网络用户尤其是青少年学生远离非友善信息
的侵扰,净化网络空间 改善Internet信息查询技术的需要 信息个性化服务的基础 信息服务供应商(信息中介)开展网络增值服 务的手段