当前位置:
文档之家› 最大熵算法在汉语拼音标注中的研究与实现
最大熵算法在汉语拼音标注中的研究与实现
实例 文 本 需 要 从 训 练 语 料 库 中 得 到,我 们 选 用 了《人民日报》汉语 拼 音 标 注 语 料 库,该 语 料 库 是 一 个已 经 拼 音 标 注 的 熟 语 料.算 法 建 立 过 程 可 分 为 4 个步骤:(1)扫描语 料 库 中 的 文 本,找 到 所 有 的 多 音 字及其出现的次数 及 在 文 本 中 的 出 现 位 置.这 样 就 形成了一个多音 字 集 合 W = {w1,w2,…,wm };(2) 构建特征集合.上下文特征函数为f(w,y)(x,y),x 是 输入的多音字 上 下 文 环 境,y 是 输 出 的 分 词 结 果.x 是出现 w 且 包 含n 个 字 符 的 文 本 串.由 此 看 出,样 本中出现多音字周围的所有包含n 个字符的串均可 作为模型的特征,但要注意x 中 w 读音一致的才认
{ f(x,y)= 1if y =luo'∧ next(x)='在' 0 x 表示上下 文 环 境,上 面 的 公 式 表 达 一 个 含 有 “落”字的句子,y 表 示 输 出,对 应 着 “落”字 的 发 音, 可看作是上下文环境x 的 一 个 函 数.表 示 x 中 跟 在 “落”字后面的一个 字 是 “在”.我 们 称 这 一 函 数 是 一 个特征函数 ,简 [8-10] 称特征. 根 据 以 上 关 于 特 征 函 数 的 概 念,在 文 本 中 需 要
The Research and Implementation of Maximum Entropy Algorithm in Phonetic Annotation
ZHANG Li-qing,SHOU Yong-xi,MA Zhi-qiang
(College of Information Engineering,Inner Mongolia University of Technology,Huhhot 010080,China)
最大熵方法是目前解决分词算法中一种比较有 效 的 算 法[6].最 大 熵 模 型 是 一 种 广 泛 应 用 于 自 然 语 言处理中的概率估 计 方 法,可 以 综 合 观 察 各 种 相 关 或不相关的概率知 识,对 许 多 问 题 的 处 理 结 果 都 达 到或 者 超 过 了 其 他 方 法 的 最 好 结 果.贾 丽 洁 对 [7] 最 大熵模型在分词中 的 技 术 进 行 了 研 究.构 建 了 一 个 中 文 分 词 系 统 ,使 用 语 料 库 进 行 最 大 熵 模 型 的 训 练 , 并 对 文 本 进 行 词 性 标 注 ,最 终 得 到 文 本 的 分 词 结 果 .
词算法.要对文本分 词 的 地 方 只 关 心 含 有 多 音 字 的 部 分 ,即 一 切 的 分 词 行 为 都 是 围 绕 着 多 音 字 展 开 的 . 其他非多音字不进 行 分 词 处 理.为 了 建 立 一 个 最 大 熵 模 型 ,需 要 有 大 量 的 实 例 文 本 来 训 练 我 们 的 模 型 , 目的是在实例中寻 找 多 音 字 及 其 上 下 文 信 息,建 立 一 个 特 征 集 合 ,然 后 把 不 满 足 约 束 条 件 的 特 征 去 掉 , 计算满足约束条件 下 的 概 率 分 布,最 后 形 成 具 有 最 大熵模型的特征库.
H(p)=- ∑p(x)p(y|x)logp(y|x) x,y
其 中 0≤H (p)≤log|y| 所以 最 大 熵 模 型 可 以 描 述 为:若 在 允 许 的 概 率 分布C 中选择模型,具有最大熵的模型p· ∈C 就认 为是所选模型, p =arg max H(p).
3 算 法 描 述
要利用最大熵原理实现一个适合拼音标注的分
1 引 言
当今使用计算机来实现汉语拼音标注的方法主 要 有 两 类 :(1)直 接 给 汉 字 标 注 拼 音 ;(2)分 词 后 标 注 拼音.直接给汉字标 注 拼 音 很 难 解 决 一 字 多 音 的 问 题 .如 果 没 有 上 下 文 关 系 ,我 们 在 拼 音 标 注 的 时 候 是 无法确定读音的.而 如 果 先 分 词 就 可 以 以 词 为 单 位 解决多音字读音的 问 题 了.但 是 这 样 的 标 注 依 然 有 其 局 限 性 ,因 为 很 多 词 是 以 单 字 为 词 的 ,或 者 很 难 给 予 拼 音 标 注 有 利 的 分 词 结 果 .缺 失 了 上 下 文 关 系 ,就 无法拼音标注了.
2920卷12 年第88月期
微电子学与计算机 MICROELECTRONICS & COMPUTER
Vol.29 No.8 August 2012
最大熵算法在汉语拼音标注中的研究与实现
张丽青,寿永熙,马志强
(内蒙古工业大学 信息工程学院,内蒙古自治区 呼和浩特 010080)
摘 要 :经 过 对 最 大 熵 模 型 的 研 究 ,找 到 一 种 适 合 汉 语 拼 音 标 注 的 最 大 熵 模 型 算 法 .利 用 该 算 法 解 决 了 多 音 字 单 字 成词的情况,从而使得所有包含多音字的词都是两字 或 多 字 词.使 用 该 算 法 随 机 抽 取 “读 者 文 摘”中 的 一 篇 文 章 进 行 标 注 实 验 ,实 验 表 明 拼 音 标 注 正 确 率 达 到 了 96.6% 以 上 . 关 键 词 :最 大 熵 模 型 ;多 音 字 ;拼 音 标 注 ;统 计 ;特 征 ;分 词 中 图 分 类 号 :TP391 文 献 标 识 码 :A 文 章 编 号 :1000-7180(2012)08-0120-03
为 了 解 决 上 述 方 法 标 注 拼 音 时 出 现 的 问 题.本 文提出了一种改进的适合于拼音标注的分词算法.
2 最 大 熵 算 法 原 理
பைடு நூலகம்
新 组 合 成 词 序 列 的 过 程 .在 英 文 中 ,单 词 之 间 是 以 空 格 作 为 自 然 界 符 的 ,而 中 文 只 是 字 、句 和 段 能 通 过 明 显的分界符来简单 划 界,唯 独 词 没 有 一 个 形 式 上 的 分 界 符 .由 于 中 文 在 基 本 文 法 上 有 其 特 殊 性 ,因 此 引 入分词技术.
汉语 分 词 是 文 本 挖 掘 的 基 础,对 于 输 入 一 段 中 文 ,将 其 成 功 进 行 分 词 ,可 以 达 到 电 脑 自 动 识 别 语 句 含义的效果.如 何 让 电 脑 自 动 识 别 语 句 含 义? 其 处 理过程就需要分词算法.
分 词 算 法 本 质 上 可 以 划 分 三 类 :(1)基 于 规 则 的 分 词 方 法 ;(2)基 于 统 计 的 分 词 方 法 ;(3)人 工 智 能 的 分 词 方 法 . [1-5]
Abstract:Through maximum entropy model study,a algorithm for maximum entropy model that is for pinyin marked must be founded.Using the algorithm put an end to the situation that polyphone word is considered to be a word,so that all words with multiple pronunciations are two or more words.Using the algorithm mark the article in Reader's Digest,the results show that pinyin marked rate has reached 96.6percent or more. Key words:maximum entropy model;polyphony;phonetic annotation;statistics;features;segmentation
其中基于统计的分词方法得到了越来越多的应 用 ,最 终 分 词 的 效 果 也 是 很 明 显 的 .它 是 一 种 通 过 统 计计算字与字之间相邻共现频率或概率来反映两个
汉语分词是将一个汉字序列切分成一个个单独 的词.分词就是将连 续 的 字 序 列 按 照 一 定 的 规 范 重
字之间成为词的可 信 度 的 方 法.这 其 实 就 是 分 析 一 个字上下文关系的 方 法.而 且 统 计 来 源 于 现 实 世 界
标注的字w 和在w 周围出现的字都可以作为一个 特征,但 是 这 并 不 是 说 只 考 虑 w 后 面 的 一 个 字,我 们考虑的也可能是 w 前面或后面的一个 字 或 者n 个字.
在实际应用中发现符合这样的特征集合会非常
大 .而 我 们 需 要 的 特 征 只 是 有 用 的 特 征 .所 以 必 须 再 引 入 一 种 约 束 ,使 得 有 用 的 特 征 保 留 下 来 ,无 用 的 特 征去除.约束的相关 概 念 如 下:假 设 有n 个 特 征,则 模 型 属 于 约 束 产 生 的 模 型 集 合 ,即
下面结合一个例子来说明本文如何在汉语拼音 标注中使用和建立 最 大 熵 模 型.例 如 在 汉 语 中 “落” 这个字有四个读音,分别是luò 、là 、lào 、luō.
(1)他 在 有 了 生 活 体 验 后 才 落 笔 画 画.落 字 读 luò.
(2)我忙着出来,把票落在家里了.落字读là . (3)他 因 睡 觉 时 受 寒 或 枕 枕 头 的 姿 势 不 合 适 ,以 致脖子疼痛.落枕了.落字读lào . (4)她 大 大 落 落 走 上 讲 台 .落 字 读luō. 我们看到“落”字 的 发 音 有 四 个,想 要 正 确 标 注 起 来 很 困 难 .我 们 已 知 的 落 的 发 音 只 有 以 上 四 种 .那 么就假设这四种发音存在如下关系. P(S1|w)+P(S2|w)+P(S3|w)+P(S4|w)=1 P(Si|w)(1≤i≤4)表 示 “落”在 汉 语 句 子 中 标 注为Si 的概率.在这种情况下我 们 认 为 每 个 发 音 的 概 率 是 相 同 的 ,也 就 是 均 等 一 致 的 概 率 分 布 .但 在 实 际 过 程 中 ,发 现 这 四 种 发 音 出 现 的 概 率 是 不 相 同 的 , luò的发音最多.也就 是 说 根 据 这 个 现 象,我 们 在 标 注拼音的时候 标 注 为luò 时 正 确 率 会 大 一 些,可 这 样 标 注 的 效 果 并 不 好 ,因 为 其 他 发 音 总 是 会 出 现 的 , 一 旦 出 现 就 会 标 注 出 错 .为 了 能 更 好 地 标 注 ,我 们 继 续对句子观察研究后 发 现,当“落”字 后 面 是 “在”字 的 时 候 发là 字 的 概 率 要 比 其 他 时 候 大 很 多 .这 说 明 该随机过程是受到 上 下 文 信 息 的 影 响 的,出 于 这 种 现象就可以引入一个二元函数来表达这种现象: