当前位置：文档之家› 数字图像处理案例

数字图像处理案例

手写数字识别
手写数字识别是光学字符识别技术的一个分支。
研究的对象：如何利用电子计算机自动辨认人手写的阿拉伯数字。
研究背景
手写数字识别的应用范围广泛，阿拉伯数字组成的各种编号和统计数据如：邮政编码、统计报表、财务报表、银行票据等等。
在整个OCR领域中，最为困难的就是脱机手写字符的识别。
这里我们取N=5，经实验证明能够满足实际需要。
特征提取的具体实现
1)搜索数据区，找出手写数字的上下左右边界。 2)将数字区域平均分为5×5的小区域。 3)计算5×5的每一个小区域中黑像素所占比例，第一行的5个比例值保存到特征的前5个，第二行对应着特征的6～10 个，依此类推。
构构造造样样品品特特征征库库
欧式距离
设有两个样品Xi、Xj的特征值分别为:
xi1
Xi
xi 2
xi1,
xi2 ,
xin
, xin T
x j1
X
j
x
j
2
x j1, x j2 ,
xjn
T
, x jn
若采用欧式距离法来计算的两样品之间的距离
，则两样品距离: Di2j
T
Xi X j
任务：对这个案例进一步分析
讨论一下 1）怎样找到数字的位置？ 2）提取哪些特征？ 3）怎样建立样品特征库？ 4）采用何种识别的决策？ 5）实现的流程的核心代码？
特特征征提提取取
样样品品特特征征库库的的建建立立
点击【训练样品设计】下拉列表框，为手写的数字选择其对应的类别。
简单手写数字识别系统设计
简单手写数字识别系统主要构成：
➢ 特征提取
➢ 识别（模版匹配法）
具体流程图：
特征库
手写输入或初步处理记录边界提取
打开图片点阵坐标
特征 25维
特征
识别结果
特征提取和选择
在模式识别中特征选择是个重要问题。直接从样品得到的数据量往往是相当大的。例如从一个图像中可以有几十万个数据，而一个卫星云图的数据量更多。为了对样品进行准确的识别，需要进行特征选择或特征压缩。
什么是监督学习？
分类器的设计方法属于监督学习法，在监督学习过程中，为了能够对未知事物进行分类，必须输入一定数量的样本来构建训练集，而且这些样本的类别已知，提取这些样本的特征，构造分类器，然后对任何未知类别进行模式识别。
机机器器学学习习
监督学习:给定训练数据集,从中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。输入和输出对应特征和目标。无监督学习：无训练集，采用聚类法。半监督学习：介于监督与无监督学习之间。增强学习：通过观察来学习，根据观察到的周围环境的反馈来做出判断。
样样品品特特征征库库的的建建立立
点击【训练样品设计】下拉列表框，为手写的数字选择其对应的类别。
手写数字识别
模式识别有多种方法如：模板匹配、判别函数、神经网络、规则推理等。模板匹配法：将训练样品集中的每个样品都作为模板，用测试样品与每个模板比较，看与哪个模板最相似,就按最近似的模板的类别作为自己的类别。
研究理论意义
阿拉伯数字是唯一的被世界各国通用的符号。
目前为止机器的识别本领还无法与人的认知能力相比，这仍是一个有难度的开放性问题。
手写数字的识别方法扩展范围广。
研究难点
➢不同数字之间字形相差不大，使得准确区分某些数字相当困难；
➢数字虽然只有十种，笔划简单，但同一数字写法千差万别，全世界各地区的人都用，书写上带有明显的区域特性，很难做到完全兼顾世界各种写法的极高识别率系统。
最近邻法
最近邻法：将与测试样本最近邻样本的类别作为决策的结果。
对一个C类别问题，每类有 Ni个样本，
i＝1,……,C,则第i类的判别函数为：
决策规则
最近邻法在原理上最直观，方法上也十分简单，明显的缺点就是计算量大，存储量大。
‖·‖表示某种距离（相似性）度量，常用欧氏距离作为相似性度量。
特征提取
特征提取：是模式识别的关键，直接影响其识别的分类效果。两种方法：
1)以框架的左边框到数字之间的距离变化。
2)将每个数字分成N×N等份，对每一份内的像素个数进行统计，除以每一份的面积总数。
特特征征提提取取
模模版板特特征征提提取取
分成N×N等份的好处是：针对同一形状、不同大小的样品得到的特征值相差不大。有能力对同一形状、不同大小的样品视为同类，因此这里要求物体至少在宽度和长度上大于N个像素，否则太小无法正确分类。
特征提取和选择
一个重要而困难的环节： ➢ 分析特征的有效性，选出最有代表性的特征是模式识别的关键一步。 ➢ 降低特征维数。
特征选择
特征形成：根据被识别的对象产生出来的一组基本特征。特征选择：对原始数据进行抽取，抽取那些对区别不同类别最为重要的特征，而舍去那些对分类并无多大贡献的特征，得到能反映分类本质的特征。
数字图像处理综合实验
案例分析一
手写数字识别
本章要点：
➢ OCR光学字符识别 ➢ 研究背景及意义 ➢ 特征选择和提取 ➢ 构建样品特征库 ➢ 手写数字识别
OCR光学字符识别
OCR （Optical Character Recognition ，光学字符识别）是对文本资料进行扫描，然后对图像文件进
2
Xi X j
n
2
xik x jk
k 1
距离越小，两个样品越相似。
手写数字识别过程
1)待测样品与训练集里每个样品的距离采用
d ( X , Xi ) | X Xi |2
2)循环计算待测样品和训练集中各已知样品之间的距离，距离最近的已知样品的类别就是待测样品的类别。
3)若样品未被识别，则可将样品加入样品特征库。
特N征值数选目择选择
Kanal.L曾经总结过经验：样品数与特征数之比应足够大，通常样本数是特征数的5～10倍左右。
取N=5，特征数N×N=25；每一种数字就需要至少125个标准样本，10 个数字需要1250个标准样本。
NN值值选选择择
N值越大，模板也越大，特征越多，区分不同的物体能力越强，但同时计算量增加，运行等候的时间增长，所需要的样本库也成倍增加。因此，需要选择合适的N值。

e商务文档

数字图像处理案例

相关文档推荐：