一种网页图像文字分割方法
柳培忠, 宁
欣, 李卫军: 一种网页图像文字分割方法
2014, 50 (10)
181
一种层次聚合聚类分类方法, 通过建立句子相似度矩阵 来确定最优边界。在基于颜色模型的方法中, 文献 [12] 假设文字像素分布符合高斯混合模型并且文字的局部 和全局部分符合同样的颜色分布, 然后用一种一维高斯 函数来模拟文字颜色分布。 上述方法对于普通图片和视频图片效果都比较好, 但是由于网页图片存在分辨率低、 噪声高、 字符颜色多 变等特点, 很多分割方法还不能直接应用于网页图片。 本文针对网页图片提出了一种有效的文字分割方法, 方 法首先对文字图像进行了反色判断、 中值滤波、 灰度拉 伸等预处理操作, 统一了分割后字符颜色标准、 去除了 大量噪声、 提高了图像对比度。然后采用了一种基于最 大类间差法 (OTSU) 的分割方法, 在全局阈值分割的基 础上确定了字符区域, 又分别对不同字符区域进行局部 阈值分割, 得到了较好的分割效果。
(1) 利用四个方向的 Sobel 算子求原灰度图像 I 所 对应的边缘图像 L 。 其 中 ,I ( x y) (2) 利用公式 (1) 可以得到临时值 t , 为原灰度图像 I 的各个像素, 图像 L 上像素点 (i j) 的 灰度大小为 L(i j) ,N x y 为 I ( x y) 相邻的区域;
2.3
灰度拉伸
网页中的一些图像对比往往比较低, 文字部分和背
3.2
连通区域分析
对预处理后的文字图像直接进行二值化势必会存
景部分区分不是很明显, 分割后容易导致笔画粘连, 本 文采用了文献 [14] 中提到的非线性灰度拉伸方法来提 高图像的对比度, 具体步骤如下:
在大量的噪声和非字符成分, 本文采用连通区域分析的 方法来过滤噪声, 具体步骤如下:
(b) 图像反相结果
2.1
反色判断
不同的网页图像背景及前景色深浅度不同, 因此二
(c) 中值滤波结果
值化后将形成不同的前景色, 为了使分割后图像的文字 部分统一为一种颜色 (本文为黑色) , 必须对原始文字区 域图像进行反色判断, 对于深背景浅字的图像要进行图 像反相处理。首先采用 OTSU 算法求取文字区域的一 个全局阈值 T , 假设 N d 为区域图像中像素小于 T 的像 素个数,N t 为区域图像中像素大于等于 T 的像素个数, 则认为此文字区域为深 如果 N d 与 N t 的比值大于 0.5, 背景区域, 对此块图像中的每个像素取反。图像反相效 果如图 1 (b) 所示。
1
引言
随着网络技术的发展, 互联网已经成为我们获取信
别的效果严重依赖于文字分割的好坏。基于以上考虑, 本文主要研究网页图片分割技术。 文字分割技术可以分为 3 类: 基于阈值的方法、 基 于聚类的方法和基于颜色模型的方法 [6]。在基于阈值的 方法中, 文献 [7] 提出了一种改进的 Niblack 方法对图片 进行二值化; 文献 [8] 对图片在 CMY 颜色模型中的各通 道的直方图进行了分析, 然后选取一个最优通道进行分 割。在基于聚类的方法中, 文献 [9] 将条件随机场应用 到了图片文字分割中, 通过设计分类器, 得到了较好的 首 分割结果; Zhan[10] 提出了一种基于聚类的分割方法, 先用 SRG 方法求取各连通分量, 然后用聚类的方法将 背景和文字分开, 最后将文字分割出来; 文献 [11]则提出
[4-5]
, 关于文字分割的研究相对较少, 然而文字识
基金项目: 华侨大学引进人才科研启动费 (No.12Y0316) ; 中央高校基本科研业务费资助项目 (No.JB-ZR1202) ; 泉州市资助基金 (No.24201305) 。 作者简介: 柳培忠 (1976—) , 男, 博士, 研究领域为图像处理、 仿生模式识别、 信息安全、 物联网技术; 宁欣 (1989—) , 男, 硕士, 研究领域 为图像处理、 模式识别; 李卫军 (1975—) , 男, 博士, 研究员, 研究领域为图像处理、 模式识别。E-mail: ningxin@ 收稿日期: 2013-08-13 修回日期: 2013-11-22 文章编号: 1002-8331 (2014) 10-0180-04 CNKI 网络优先出版: 2014-01-15, /kcms/doi/10.3778/j.issn.1002-8331.1308-0150.html
(2)
由图 1 (d) 可以看出, 灰度拉伸后图像的深浅色彩更 加突出, 图像对比度更强, 文字部分更加明显, 更有利于 后续的字符分割。
2
图像预处理
在字符分割前对文字区域进行预处理非常关键, 好
(a) 原始图像
的预处理可以有效提高字符分割的正确率。本文采用 的预处理方法主要包括反色判断、 中值滤波、 灰度拉伸。
进行预处理, 统一了分割后字符的颜色、 去除了大量的噪声、 提高了图像的对比度; 在全局阈值的基础上确定了各字 符区域的位置; 利用局部最优阈值对文础上, 提 升了分割后字符的效果, 具有较强的鲁棒性。 关键词: 网页图像; 最大类间差法 (OTSU) ; 文字分割; 图像预处理 文献标志码: A 中图分类号: TP391 doi: 10.3778/j.issn.1002-8331.1308-0150
[13]
3.1
全局阈值二值化
本文采用最大类间方差二值化阈值分割算法 (OTSU
算法) 对预处理后的灰度图像进行初步全局阈值二值 以类间方 化。 OTSU 算法 [15] 是一种全局阈值分割算法, 差作为判别依据, 方差越大, 说明构成图像的两部分差 别越大, 当部分目标错分为背景或是部分背景错分为目 标都会导致两部分差别变小。因此, OTSU 算法的准则 是选取一个全局阈值使得错分概率最小。
(d) 灰度拉伸结果 图1 预处理结果
3
文字分割
针对网页图像的特点, 本文算法的设计步骤如下:
(1) 采用 OTSU 算法求取一个全局阈值, 对文字区域图 像进行初步二值化; (2) 对二值图像求取连通域, 进行连 通分量分析, 去除部分噪声及非字符成分; (3) 用一种自 适应投影法切分出单个字符成分, 确定单个字符的位 置; (4) 根据单个字符区域在原灰度图像的灰度信息求 取局部最优阈值, 再重新对原灰度图像进行二值化, 得 到分割结果。以下为重要步骤的具体阐述。
2.2
中值滤波
网页图像包含各种情况, 其中有些图像存在较大的
噪声, 文字信息难以提取, 对后续字符分割部分造成了 很大的干扰。对图像进行中值滤波可以去除大量的噪 声, 降低噪声对字符分割的影响。 中值滤波首先通过从图像中的某个采样窗口取出 奇数个数据进行排序, 然后用排序后的中值代替将要处 理的数据 。通过中值滤波, 孤立的噪声点得到有效的 抑制, 并且文字的边缘信息得到了明显的增强。中值滤 波效果如图 1 (c) 所示。
较理想的分割效果。 假 令 T 0 为上述通过 OTSU 算法求得的全局阈值, 图像像素的总数为 N , 设原灰度图像灰度级数目为 L , 像 素 灰 度 为 i 的 个 数 为 ni , 则各灰度级的概率为 整 幅 图 像 的 灰 度 平 均 值 为 μ0 = p i = n i /N ,
t=
(i j) Î N X Y
å
I (i j) ´ L(i j) L(i j)
X Y
å (i j) Î N
(1)
(3) 用公式 (2) 求得一个新的灰度值 I ′( x, y) 。
I ′( x y) = t - (t - 0)2 - ( I ( x y) - 0)2 t - (255 - t )2 - ( I ( x y) - 255)2
180
2014, 50 (10)
Computer Engineering and Applications 计算机工程与应用
一种网页图像文字分割方法
柳培忠 1, 宁 欣 2, 李卫军 2
LIU Peizhong1, NING Xin2, LI Weijun2
1.华侨大学 工学院, 福建 泉州 362000 2.中国科学院 半导体研究所 神经网络实验室, 北京 100083 1.College of Engineering, Huaqiao University, Quanzhou, Fujian 362000, China b of Artificial Neural Networks, Institute of Semiconductors, CAS, Beijing 100083, China LIU Peizhong, NING Xin, LI Weijun. Approach for text segmentation in web image. Computer Engineering and Applications, 2014, 50 (10) : 180-183. Abstract: According to the features of complex web images, a text segmentation method is proposed based on the OTSU method. The image is preprocessed, thus to unify the divided character color, in addition to remove a lot of noise and improve image contrast. The position of each character area is determined based on the global threshold value. Using the optimal threshold for text image segmentation. Experimental results show that the method improves the segmentation character, based on the high accuracy, with strong robustness. Key words: web image; OTSU method; text segmentation; image preprocessing 摘 要: 针对复杂网页图像中文本的特点, 提出了一种基于最大类间差法 (OTSU) 的文字分割方法。对原文字图像