当前位置:文档之家› 基于内容的信息安全过滤技术

基于内容的信息安全过滤技术


息 的 文 章 而 导 致 整 个 网 站 被 封 ,或 者 非 法 网 站 可 以 通 过 改 变 I P 地址,使 之 能 够 在 一 定 时 期 内 避 免 被 过 滤; 二 是 基 于 关键词的过滤,但 基 于 关 键 词 的 信 息 过 滤 技 术 ,其漏报、错 报率高。而 且 关 键 词 是 目 前 人 们 常 使 用 的 词 ,有些信息内 容的发布者可能有意避开使用这些词,用其他的词替代, 使 得 基 于 关 键 词 的 信 息 过 滤 机 制 不 能 识 别 。因此,基于内 容的信息过滤是信息过滤技术的主要研究方向。
集 文 本 中 每 个 词 的 权 值 ,权 值 大 的 词 比 权 值 小 的 词 更 能
反 映 文 本 内 容 。最 后 可 根 据 需 要 提 取 特 征 词 的 数 量 ,设 置
一 定 的 门 限 值 ,将 权 值 高 于 所 设 门 限 值 的 词 作 为 特 征 词 ,
加 入 特 征 词 典 中 。特 征 词 典 将 作 为 文 本 的 属 性 词 典 ,在 文
模块中的特征阈值也可根据实际中对待分析文本的判 断不断的修正,作为反馈,以 提 高 过 滤 模 块 的 准 确 率 。或 者 可 根 据 用 户 对 信 息 的 安 全 需 求 ,增高或降低 特 征 阈 值 , 安 全 需 求 高 可 适 当 的 降 低 特 征 阈 值 ,反之矣然。如果特征 阈值设置较低,那 特 征 值 大 于 特 征 阈 值 的 文 本 数 增 多 ,被 过 滤 掉 的 文 本 数 量 也 增 多 ,容易造成误判,但大大降低了 漏判率,反 之 如 果 特 征 阈 值 设 置 较 高 ,则不满足过滤需求 的文本数增加,容易造成漏判,对 一 些 带 有 反 动 或 泄 密 信 息 的 文 本 不 能 按 需 求 过 滤 。因 此 特 征 阈 值 的 选 取 是 影 响 该 基于内容的信息过滤模型准确率的关键因素。
最大匹配算法其基本过程大致如下:(1)从被处理文本 中的起点取出不超过词典最大长度的汉字串作为匹配字 段;(2)在词典中查找该匹配字段;(3)如果找到该匹配字段, 则切分出一条词,设长度为 n ,并 后 移 n 个字作为下一次 分词的起点,再转到步骤( 1 ) ; ( 4 )如果未找到该匹配字段, 则 去 除 匹 配 字 段 的 最 后 一 个 字 ,作为新的匹配字段,并转 到步骤(2); 以上是正向最大匹配检索法。如果从被处理文 本的尾部向前处理,匹 配 不 成 功 时 去 除 前 面 一 个 字 ,就是 逆向最大匹配检索法。如果同时使用两种最大匹配检索 法,就 构 成 了 双 向 最 大 匹 配 检 索 法 。
征 词 典 作 为 属 性 词 典 ,以 此 来 定 义 文 本 中 各 个 词 的 属 性 因
子。将属性因子量化,加 入 特 征 值 的 计 算 中 ,将文本的统
计 特 征 和 知 识 特 征 结 合 起 来 。我们构造的文
本特征值计算函数如式(2)所示。
求 的 样 本 文 本 ,得 到 它 们 的 特 征 值 后 ,在 满 足 和 不 满 足 过 滤 需 求 的 文 本 的 特 征 值 之 间 随 机 取 值 作 为 特 征 阈 值 。将 得 到的文本特征值与特征阈值比较,如特征值大于特征阈 值,则 该 文 本 满 足 过 滤 要 求 ,说 明 该 文 本 含 有 与 样 本 文 本 相 关 的 不 安 全 内 容 ,如 宣 扬 法 轮 功 、台 独 的 反 动 内 容 ,或 个人企业,国 家 机 密 项 目 中 的 泄 密 信 息 等 ,如特征值小于 特征阈值,则 说 明 该 文 本 与 需 要 过 滤 的 内 容 无 关 ,无需过 滤。从 而 实 现 对 文 本 的 基 于 内 容 的 信 息 过 滤 ,保障了网络 信息的安全。
计 的 角 度 得 到 的 特 征 值 ,只 考 虑 了 词 的 词 频 和 词 长 特 征 ,
如果仅依据这两项特征对文本进行过滤分析,准确率较
低。因 此 我 们 加 入 属 性 因 子 ,从 知 识 的 角 度 进 一 步 分 析 文
本,以 提 高 过 滤 分 析 的 准 确 率 。在该模型中,将构造的特
47 N e t i n f o S e c u r i t y 2 0 0 4 . 4
应用技术
可 以 提 高 系 统 的 实 时 性 ,如决策树方法、N a ? v e B a y e s 、 k N N 最近距离法、支持向量机等。基 于 知 识 的 方 法 能更好 的 提 高 系 统 的 准 确 率 ,如 中 国 科 学 院 声 学 研 究 所 提 出 的 语 境框架模型,东北大学提出的 F I F A 算 法 等 。
基于内容的信息过滤的理论基础主要是人工智能的理 论 和 技 术 。目 前 基 于 内 容 的 文 本 分 析 方 法 主 要 有 基 于 统 计 、 基于知识和二者结合的方法。基于统计的方法速度较快,
信息过滤的相关研究
信息过滤是通过监控信息源以找 到 满 足 用 户 需 求 的 信 息 。在网络安全 领域,其 任 务 是 从 动 态 信 息 源 中 过 滤 掉在一段时期内比较固定的非需求信 息。目 前 网 络 中 的 信 息 过 滤 主 要 有 两 种方法:一是依据 IP 地址或 URL 来判 定 是 否 需 要 过 滤 掉 相 应 的 内 容 ,但这 种方法会因为出现几篇含有不安全信
基于内容的信息过滤已是目前网络安全领域的一大急需解决的问题。本文介绍了目前主要 的基于内容的分析技术及方法,并提出了一种基于内容的信息过滤模型,在基于统计的基础上, 引入词的知识属性特征,该模型可以有效提高信息过滤的准确率。
基于内容的信息安全过滤技术
杨晓懿 刘嘉勇
随着I n t e r n e t 的发展,网络上的信息浩如烟海,网络成 了 人 们 主 要 的 信 息 来 源 。其作为传播工具,为人们提供了所 需的信息资源,但 它 也 可 能 被 敌 对 势 力 所 利 用 ,成为传播反 动 言 论 和 思 想 的 武 器 。现 在 网 络 上 除 了 人 们 需 要 的 信 息 资 源 外,还 充 斥 着 大 量 的 垃 圾 信 息 ,如大肆宣传台独,法轮功等 反动政治言论的信 息 ,这 不 仅 威 胁 到 了 国 民 安 全 ,也给人们 带来了很多不便,同 时 大 量 传 播 的 黄 色 、黑色内容还侵蚀着 国 人 的 精 神 文 明 建 设 。如 何 防 止 这 些 不 安 全 信 息 继 续 在 网 上 传 播 ,并 保 护 个 人 隐 私 、企 业 机 密 资 料 、国 家 机 密 信 息 不 被 泄露,如何保护网络安全,防 止 网 络 成 为 反 动 势 力 可 利 用 的 工具,已 成 为 了 当 今 网 络 安 全 技 术 中 的 一 大 热 门 课 题 。而 其 最 有 效 的 解 决 途径是把内容识别和信息安全有机的 结合起来,将 基 于 内 容 的 信 息 过 滤 应 用于网络安全中。
图 1:基于内容的信息过滤模型
文本的预处理模块 网络中的信息资源大多是以超文本形式或其他形式存 在 ,要 对 信 息 进 行 基 于 内 容 的 分 析 首 先 需 要 对 信 息 进 行 预 处理,如去除 H T M L 标签等。 其次,词 是 文 本 内 容 的 最 小 单 元 ,是反映文本内容的 基 本 元 素 ,因 此 基 于 内 容 的 信 息 过 滤 首 要 工 作 是 对 文 本 进 行 分 词 处 理 。分 词 是 将 连 续 的 字 序 列 按 照 一 定 的 规 范 重 新 组 合成词序列的过 程 。我们知道,在英文的行文中,单词 之 间 是 以 空 格 作 为 自 然 分 界 符 的 ,而中文只是字、句和段 可 以 通 过 明 显 的 分 界 符 来 简 单 划 界 ,唯 独 词 没 有 一 个 形 式 上的分界符,因 此 中 文 比 之 英 文 分 词 要 复 杂 的 多 、困难的
多。而分词的正确率是基于内容的信息过滤准确率的基 础 。现 今 的 计 算 机 自 动 分 词 系 统 所 采 用 的 基 本 方 法 主 要 包 括 以 下 几 种 : 机械匹配法、特征词库法、约束矩阵法、语法 分 析 法 和 理 解 切 分 法 等 。因 为 对 网 络 信 息 的 过 滤 还 需 要 满 足实时性要求,为 了 满 足 实 时 性 的 要 求 ,一般不可能采用 很复杂的分词技术,而且也没有必要一定要引入高正确 率、大计算量的分词方法。综 合 考 虑 了 正 确 率 和 实 时 性 这 两个因素,可 采 用 最 大 匹 配 法 来 进 行 分 词 。
特 征 词 典 的 构 建 不 需 要 满 足 实 时 性 要 求 ,因此,特征词典
的构建可作为基于内容的信息过滤模块的前期工作。
我们先收集一部分含有不安全信息满足过滤要求的
文 本 作 为 样 本 文 本 ,经 过 文 本 的 预 处 理 部 分 ,对 收 集 的 文
档 进 行 预 处 理 和 分 词 。内 容 过 滤 模 型 中 ,综 合 考 虑 了 统 计 和 知 识 两 方 面 因 素 ,在 词 频 和 词 长 的 基 础 上 ,结 合 文 本 中 词 的 属 性 特 征 , 提 高 了 过 滤 模 型 的 准 确 率 。下 面 是 该 模 型 的 详 细 介 绍:
基于内容的信息过滤模型 基 于 内 容 的 信 息 过 滤 模 型 的 基 本 流 程 是 ,首 先 将 含 有 不 安 全 信 息 的 样 本 文 本 ,进行预处理,经过加权,计算出 文本中词的权值,根 据 权 值 大 小 构 造 特 征 词 典 。其次,计 算预先收集的满足和不满足过滤需求两类文本的特征值, 根 据 两 类 特 征 值 的 差 异 设 置 过 滤 模 块 中 的 阈 值 。第 三 判 断 待分析文本的特征值是否超过阈值,进行相应的过滤处 理。基 于 内 容 的 信 息 过 滤 模 型 主 要 包 括 五 个 部 分 。一是文 本 的 预 处 理; 二 是 加 权 ,计 算 出 词 的 权 值; 三 是 构 造 的 特 征 词 典 ; 四 是 文 本 特 征 生 成 器 ,计 算 出 文 本 特 征 值 ; 五 是 过 滤 模 块 。如 图 1 所 示 :
相关主题