当前位置:
文档之家› 【课件】25网络信息过滤技术PPT
【课件】25网络信息过滤技术PPT
分类
按照从用户获取信息的方法分类
隐含式过滤
无需用户直接参与,通过观察用户的动作行为判断 用户需求
用户在指定页面的停留时间、用户访问页面的频 率、是否选择保存数据、是否打印、是否转发数据 等对信息项的反应都能作为用户兴趣的标志。
路由(Routing),来自Message Understanding 最新资料公告(Current Awareness),来自数据挖掘
主要特点
无结构的或半结构化的数据 文本数据 图形和图像数据 大数据量 难点:对用户过滤需求的描述
与其它概念的区别
信息检索
信息过滤
用户需求表示 信息源 目标
和信息抽取(Information Extrac只关心抽取的那些部分,不管相关
性
分类
根据过滤系统的结构分类
1987年,Malone及其同事把信息过滤方法分 为3类:
基于内容的过滤(Content-based filtering),也叫 认知过滤(Cognitive filtering)
理,例如对网页或者网站预先分级、建立允许或禁止 访问的地址列表等,在过滤时可以根据分级标记或地 址列表决定能否访问。
被动过滤
系统不对网络信息进行预处理,当用户访问时才对地 址、文本或图像等信息进行分析以决定是否过滤及如 何过滤。
分类
根据信息过滤的目的分类
推荐系统
根据用户对信息的评价把信息推荐给合适的接收 者,属于协作过滤系统的一部分。
由于不依赖于内容,这种过滤方法不仅适用于文 本信息,也可以推广到非文本形式的信息。
分类
根据过滤系统的结构分类
基于协作的过滤
这种方法是“相似”用户间的相互协作过程。通过分析用户 兴趣,在用户群体中找到与指定用户兴趣相同或相似的用 户,综合这些相同或相似用户对某一信息的评价,形成系 统对该指定用户对此信息的喜好程度预测。
网络信息过滤技术
计算机网络安全技术
主要内容
概述 内容阻塞 内容分级审查
概述
背景
随着互联网内容的极大丰富,信息海量化正 在导致信息垃圾化
概述
为什么要进行信息过滤
国家信息安全的迫切需求 使网络用户尤其是青少年学生远离非友善信
息的侵扰,净化网络空间 改善Internet信息查询技术的需要 信息个性化服务的基础 信息服务供应商(信息中介)开展网络增值
阻挡系统
通过设置一定的条件限制用户获取某些信息,而 其他信息可以利用。
分类
根据过滤模板所在的位置分类
上游过滤
又叫代理服务器过滤。用户需求模板存放在服务 器端或者代理端。过滤系统也可能处在信息提供 者与用户之间专门的中间服务器上,这种情况也 叫做中间服务器过滤。
上游过滤的优点是不仅支持基于内容的过滤,也 支持协作过滤,缺点是模板不能用于不同的网络 应用中。
检索词(含组合条件)
兴趣模型
相对静态的结构化的 数据库
相对静态的结构化的 数据库海量,动态的 无(半)结构数据
选择相关条目 过滤掉不相关的信息
需求
动态变化
静态
需要了解用户情况
否
是
涉及社会背景
否
是
与其它概念的区别
和文本分类(Categorization)的区别
分类系统中的类不会经常改变 相对而言,User Profile会动态变化
分类
根据过滤模板所在的位置分类
下游过滤
又叫客户端过滤,用户需求模板存放在客户端上, 用户根据自身需要设置一定的限定条件,将不感兴 趣的信息排除在外。
优点是模板可用于不同的网络应用,缺点是只能实 现基于内容的过滤。
信息源过滤
又叫剪辑服务,用户将需求模板提交给一个信息提 供者,由信息提供者为用户过滤信息。
内容过滤能够监测现有信息的内容特征,为用户提 供与其曾经感兴趣信息相似的信息,但不能为用户 发现新的兴趣信息。
这种方法比较适合于分析文本信息,但对声音、图 像、视频等形式的媒体信息还缺乏有效的自动分析 方法。
分类
根据过滤系统的结构分类
基于协作的过滤
这种方法是“相似”用户间的相互协作过程。通过 分析用户兴趣,在用户群体中找到与指定用户兴 趣相同或相似的用户,综合这些相同或相似用户 对某一信息的评价,形成系统对该指定用户对此 信息的喜好程度预测。
协作过滤(Collaborative filtering),社会过滤 (social filtering)
经济过滤(Economic filtering)。
目前使用较多的就是基于内容的过滤和基于 协作的过滤。
分类
根据过滤系统的结构分类
基于内容的过滤
这种方法按照信息内容的特征作出选择,主要采用 自然语言处理、人工智能、概率统计和机器学习等 技术进行过滤。
服务的手段
定义
什么是信息过滤?
是指计算机根据用户提供的一个过滤需求(User Profile),从动态变化的信息流(比如Web)中自动 检索出满足用户个性化需求的信息
Profile:一组对用户过滤需求的描述,这种“profile”描 述了用户长期的、稳定的兴趣爱好
近义术语
信息的选择分发(Selective Dissemination of Information, SDI),来自图书馆领域
分类
按照从用户获取信息的方法分类
显式过滤
用户直接填表 用关键词表达用户过滤需求 用文档集表达用户过滤需求 通过用户交互提供的这些显式信息可以快速、明
确描述用户的信息需求,减少系统学习的负担。 但是这种显式的获取用户信息需求的方式会增加
用户的负担,加重用户使用系统的困难。
由于不依赖于内容,这种过滤方法不仅适用于文本信息, 也可以推广到非文本形式的信息。
局限是活动用户只能获取具有相同兴趣的用户喜欢的信 息,而不能获取不同兴趣的用户喜欢的信息。
经济过滤
这种方法依赖于成本和用户获益的计算,依赖于价格机制。
分类
根据操作的主动性分类
主动过滤
系统主动从Web上为其用户推送相关的信息。 在有些主动信息过滤系统中,预先对网络信息进行处