不同特征提取的手写签名识别方法研究
摘要
目录
引言
在当今社会的各种经济活动中,人们越来越多的用手写签名来代替印章, 尤 其是在办公自动化、邮政系统等诸多方面的信息处理中。 例如:各种文书、合同、 协议、支票等文件通常要求当事人亲笔签名;各国政府之间的协议和备忘录的签 订,官方文件以及法令和法规的颁布, 银行支票的签署和汇兑,都需要当事人亲 笔签名才能生效。签名鉴定在国外,尤其是在北美和西欧,是普遍接受的身份辨 识方法之一。在计算机安全领域中,基于人的行为特征的手写签名识别技术具有 方便、实用、低成本并符合人的生活习惯等特点,理所当然地受到了广泛的关注。
手写签名识别系统利用计算机自动识别手写签名样本是某个特定人亲自签 署的“真签名”还是别人模仿的“伪签名”。在办公自动化和公共安全方面,签 名识别的重要性日益明显,在大多数企业,尤其是经常需要颁布或签署文件的行 政部门来说,通过辨识签名的真伪来确定身份的方式易于被人们所接受。 由于签
名识别具有良好的应用前景和巨大的商业价值, 世界各国许多学者和研究机构都 已表现出极大兴趣,国内近几年也逐步开始了对中文签名认证的研究工作。
1绪论
1.1研究计算机识别签名的目的及意义
手写签名识别系统利用计算机自动识别手写签名样本是某个特定人亲自签
署的“真签名”还是别人模仿的“伪签名”。在办公自动化和公共安全方面,签 名识别的重要性日益明显,在大多数企业,尤其是经常需要颁布或签署文件的行 政部门来说,通过辨识签名的真伪来确定身份的方式易于被人们所接受。 由于签
名识别具有良好的应用前景和巨大的商业价值, 世界各国许多学者和研究机构都 已表现出极大兴趣,国内近几年也逐步开始了对中文签名认证的研究工作。
手写字符识别涉及模式识别、图像处理、数字信号处理、自然语言理解、人 丁智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术, 它在中文信息处理、办公室自动化、人工智能等高技术领域,都有着重要的实用 价值和理论意义D1。手写文本、信封、票据表格和签名等的计算机自动阅读都 具有十分诱人的应用背景,因此吸引了许多研究者的关注。手写字符和数字识别 技术一旦研究成功并投入应用,将产生巨大的社会和经济效益。
目前,人们在汉字识别领域己经取得了相当的成就, 但是由于汉字识别的复 杂性,其具体实现一直难以做到速度与效率的完美组合。 日前在国内外,多字体
印刷体字符的识别系统已达到相当高的识别率,不少 OCR系统已成为成熟的软 件产品。研究手写体字符识别就是为了使识别系统能够实用化, 并可以推广应用
到其他的字符识别领域中去。由于手写体汉字的随意性和不同汉字间相似性很 大,所以识别的难度很大,在整个字符识别领域中,最为困难的就是脱机手写字 符的识别。无约束手写体汉字识别一直是模式识别中的一个热点和难点, 到目前
为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就, 但距
实用还有一定距离。手写数字识别这个方向上,经过多年研究,研究工作者己经 开始把它向各种实际应用推广。然而,对于自由手写体汉字识别而言,任重道远, 仍需要科研人员不懈的努力,但是不应该就此悲观,随着计算机技术的突飞猛进 和人脑功能的进一步揭示,可望在不远的将来发现人脑的识字机理, 建立在此基 础上手写汉字识别的理论和方法将会有质的飞跃。
1.2签名识别的系统描述
一般情况下,签名识别系统构成如下图。其中任何一个环节的处理效果的好
坏,都会影响到最终的识别结果。最关键的换就是签名特征提取的设计。
1.3特征提取的基本思路
特征提取是指在原始数据集的基础上,通过变换或组合创建新的特征。它是 对提供的数据集进行变换和组合的操作,它产生的特征较原始数据集对模式具有 更明显的区别作用。在离线签名识别系统中,通过对签名的二维图像进行一定的 处理和变换以提取代表该签名的特征,这就是特征提取过程。
在签名识别中,特征的分类方式众多,常用的分类方式把提取的特征分为全 局特征、统计特征和形状几何结构特征三类。具体情况见下表。
表1-1脱机签名特征提取的主要方法
特征类型 具体特征 简要说明 全局特征 签名重心 求签名重心坐标
签名的倾斜特征 签名与水平方向的 整体倾斜特征
矩 该特征具有尺度、平
移和旋转不变性
数学变换后得到的系数
利用一些数学变换 对签名进行分析,提取特 征
统计特征 基于分割的统计特征 签名进行分割后,对
得到的每个区域或基元 提取统计特征
投影 中心投影,水平或垂
直投影
纹理特征 纹理提供了对线性、
方向性和周期性等属性 的度量,最通用的方法灰 度共生矩阵
形状几何结
构特征 形状描述子 利用描述子描述签 名的轮廓
几何结构特征
通过对签名的几何 结构进行量化来反映签 名形状结构及笔段的变 化
全局特征及整个签名作为特征提取单元, 把从整个签名中得到的表征整体特 征的参数作为特征。此类特征具有较强的抗干扰能力,匹配分类方便,速度也较 快,但由于对签名细节区分能力弱, 对签名的变形敏感,所以一般用于随机和简 单伪签名的检测。
统计特征用签名的像素值、特殊点、笔划或笔段的方向及位置分布等统计信 息作为特征。盖雷特征受签名的整体形变影响相对较小,在许多文献中经常使用。
形状几何结构特征既包括签名的全局特征, 又包括签名的局部特征,主要表 征签名的全局或局部的形状结构特征及相关笔段间的结构关系。 此类特征对签名 形变的容忍度最好,而且部分形状几何结构特征还有尺度不变性、平移不变性。
论文就基于MATLAB软件对手写体签名中特征提取进行了分析。获得的签 名数据一般是含有背景或噪音的灰度图像。 预处理阶段主要进行签名定位、去掉 签名的背景和签名归一化、去噪等操作。之后进行特征提取,尽量达到不仅能表 达出不同签名者的书写风格,又能容忍来自同一个书写着每次书写时产生的自然 差异,即尽可能加大类间距,减小类间距。特征提取后,签名图像则有一组特征 向量来表征。
1.4 MATLAB的基本介绍
MATLAB是矩阵实验室(Matrix Laboratory)之意。除具备卓越的数值计算 能力外,它还提供了专业水平的符号计算, 文字处理,可视化建模仿真和实时控 制等功能。
MATLAB的基本数据单位是矩阵,它的指令表达式与数学,工程中常用的形 式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完成相同的 事情简捷得多。
当前流行的MATLAB 7.0包括拥有数百个内部函数的主包和三十几种工具 包(Toolbox)工具包又可以分为功能性工具包和学科工具包。功能工具包用来扩充
MATLAB的符号计算,可视化建模仿真,文字处理及实时控制等功能。学科工 具包是专业性比较强的工具包,控制工具包,信号处理工具包 ,通信工具包等都
属于此类。
开放性使MATLAB广受用户欢迎.除内部函数外,所有 MATLAB主包文件 和各种工具包都是可读可修改的文件,用户通过对源程序的修改或加入自己编写 程序构造新的专用工具包。
数据获取与预处理
手写签名的随意性较大,又受环境、心情等因素影响,不可避免地出现签名 大小、方向等存在一定的差异,而这些差异会影响后续的识别结果。 本文中的预 处理就是对签名图像进行位置调整和大小归一, 为后面的特征提取与识别奠定基
础。
2.1数据获取
数据采集是指利用某种装置将签名样本的信息转化为离散的数字信息输入 计算机。所采用的数据采集装置根据在识别过程中所采用的信号而定, 采集到的
签名样本的质量对于后面的处理过程和识别性能具有重要的影响。
实验所用的样本是用普通钢笔自由书写在打印纸上的。 我们使用的图像输入
设备是microtek扫描仪。图像扫描仪的扫描精度和所能获取签名信息的大小直接 相关。签名识别时就是从预处理过的签名中提取特征, 对待识别样本进行识别真
伪。因此签名图像的清晰度是影响签名识别系统性能的重要因素, 也是离线签名
识别系统中的一个很重要的参数。 常用的图像扫描精度有200dpi, 300dpi, 600dpi
种。扫描精度越高,签 像的清晰度就越高,包 信息量就越大,这对签 识别应该有利。
随着清晰度的增
高,数据量也不断增大,同时所需内存和处理时间也增加, 识别速度受到明显的
影响,但是分辨率太低就会使我们得不到足够的识别信息、。综合各方面的因素, 我们选择了 300dpi的扫描精度,以256级灰度方式输入计算机,存为bmp文件。 每个原始签名图像经过手工分割去除,并按照一定的命名规则单独存为 bmp文
件。之后,签名系统针对这种 bmp图进行签名识别。
2. 2二值化
得到的原始签名图像都是灰度图像,其灰度信息会对签名形状的比较造成干 扰,所以需要对签名图像进行二值化,将背景与文字部分分割开。
观察采集到的签名图像,如图2-1所示,其直方图都具有比较明显的双峰性, 所以本文采用最大类内类间方差比法对图像进行二值化。
考虑到,当对象物和背景的灰度分布具有双峰分布的特性时, 最大方差比确 定阈值方法是很有效的。这种方法利用 Discrim inant An alysis的原理对灰度图像 进行二值分割。定义如下分离度 仃)为最大值的T即为最佳阈值。
(2. 1)
其中,、;(T)是类间方差(interclass varianee) }、W(T)是类内方差(intraclass
varia nee),它们可由以下的公式计算得到
类内方差:
(2.2)
类间方差:等几
名图
含的
名的 弗=①(A -旳F + 5(角-Ar)
这里4 ■ 4 =昇(为全局方差),和分别是Ci和C2的发生概率(标准化后的 像素数),和以及和分别属于累Ci和类C2的像素灰度平均值和灰度的方差。 用 该方法二值化后的效果图如图2-1的图(C)所示。
2.3 去噪
观察签名图像二值化后的图像可知, 如图2-4 (a)所示,签名图像的噪声点是
由于纸张粗糙程度不同或书写时不小心留下的墨水斑点。 为此本实验采用中值滤 波的方法进行去噪。
另外许多签名的区域会有一条竖线(如 图2-_5所示的签名的侧边),这些都
会对签
名识别带来影响,必
需消除
这些噪声。对于扫描
(或成像)
过程中引入的噪声
可以使
用空间域滤波、频率
域滤波
技术或者开闭操作
予以消
/、 , 、r 除。对于竖线,因为
i=r -r. r. 丄 rt “ 口 一1—- —r~-
它并不 是一种随机噪声,而
是印刷时为了标明签名区域加入的,对于这种竖线的消除为了尽量减小对于原始 签名图像的改变,不使用滤波技术,而是采用下面这种方法。通过观察,这样的 竖线通常只有一个像素的宽度,即位于竖线上的像素其八领域的像素点分布如图 2-6所示:因此,只需要消除签名图像中,其八领域满足 图2-6所示 的分布的像 素。
引值,如图 2-7
所示。那么对应于一个3x3的二值像素区域,其共有的29 = 512种像素分布方式 (2, 3)
厂坷)代+工3厂岛)F
JiES]
为了提 用一种称之
法,这种方
3x3像素区 0 0 0 0 0 0 0 0 0
1 1 1 ]1 0 0 1 1
0 0 0 0 0 0 0 0 0
国2-6 横线上像素的八领域像素点
高处理速度,采
为LUT的编程方
法,首先将一个
域的各个像素点
给定一个素