当前位置:文档之家› 13年碎纸片拼接复原数模论文

13年碎纸片拼接复原数模论文

承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): B我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):重庆XX大学参赛队员(打印并签名) :1. 武XX2. 蒋XX3. 邹XX指导教师或指导教师组负责人(打印并签名):张XX(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。

以上内容请仔细核对,提交后将不再允许做任何修改。

如填写错误,论文可能被取消评奖资格。

)日期: 20XX 年 9X月 XX 日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):摘要本文主要解决来自于碎纸机的形状规格相同的纵切、纵横切、单面、双面文档的自动或半自动化的拼接复原问题。

针对问题一,附件一、二中所给碎片,均由纵向切割而成,碎片数量少,非相邻碎片间差异度大,图像颜色黑白明显,因此提取碎片二值图的左右边缘链码作为特征向量,建立碎片边缘相似度模型。

运用n 维向量的欧氏距离公式刻画碎片边缘列向量的相似程度,取其中最小距离,返回对应碎片序号,从而找到与上张碎片相接的下一张碎片,完成拼接复原,复原后序号排列见模型一求解,复原后图像见附录9.1(1)(2)。

针对问题二,附件三、四所给碎片改为纵切加横切,碎片变小、数量增多,部分碎片之间的区别不明显,对碎片进行平滑去噪处理后,建立层次聚类模型,将碎片的二值码函数()y x w n , 延x 轴投影到y 轴建立一维函数)('y w n以描述每一行的像素特征。

对此像素特征进一步处理后作为碎片横向聚类的依据,在拼接过程中必然会涉及两个边缘同时匹配,因此构建相邻两边乘积最小模型,复原后序号排列见模型二求解,复原后图像见附录9.1(3)(4)。

针对问题三,附件五所给碎片数量庞大,且难以将正反面图片分开,故可利用像素灰度和梯度(边缘)构造灰度-梯度共生矩阵H ,以提取能够反映碎片纹理特征的向量{}U I L F E T n ,,,,=。

其中E,H,L,I,U 分别表示图像能量、灰度熵、逆差距、惯性和灰度不均匀性。

再以特征向量n T 作为纸片聚类依据,将正反面纸片分开。

对于单面纸片拼接问题,仍借助数值链码匹配模型进行拼接。

一旦一面拼接完成,另一面也自然拼接成功。

复原后序号排列见模型一求解,复原后图像见附录9.1(5a )(5b )。

为了提高解决问题过程中的准确性,不断改进刻画边缘列向量相似度刻画指标,同时考虑页边距、行间距的特征,模型及算法更加科学,使解题过程更加顺利。

关键词:碎片拼接 欧氏距离 碎片边缘相似度模型 层次聚类模型一、问题重述碎纸机已经成为办公室不可或缺的部分,我们使用碎纸机对需要保密的重要文件、单据以及材料进行销毁,而事实上,在许多情况下,需要将已经破碎的文档重新恢复。

传统的人工拼接复原工作量大,效率低,且通常结果并不能让人满意,该题要求我们考虑通过建立数学模型和编写计算机算法对碎纸片进行恢复,具体要解决:1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

2. 对于碎纸机既纵切又横切的情形,设计出碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

3.对于双面打印文件的碎纸片、既纵切又横切的情形,设计出相应的碎纸片拼接复原模型与算法,并就附件5给出的碎片数据进行拼接复原。

二、问题分析碎纸自动拼接技术是图像处理与模式识别领域中的一个较新但是很典型的运用,它是通过扫描和图像提取技术获取一组碎纸片的形状、颜色等信息,然后运用数学方法和计算机编程软件进行相应处理从而实现对这些碎纸片的全自动或半自动拼接还原。

此过程一般包括图像数字化、图像预处理和图像拼接三个解题步骤。

对于问题一,要求我们拼接复原的是来自同一页印刷文字文件的碎纸机纵切破碎纸片。

碎纸片是我们可以直接通过肉眼观察到的具象事物,要实现计算机自动拼接,首先,我们肯定要将碎纸片输入计算机(本题可省略)并将之转化成为计算机可以识别且量化处理的计算机语言,即将图像数字化,因为所给碎纸片为黑白规则图像,所以考虑将其转化成为二值图像,即利用Matlab软件通过图像平滑技术对边缘进行去噪声处理之后将碎纸片转化成为一个只由0和1构成的二维矩阵(纯黑:0,纯白:1)。

然后取出每个碎片矩阵的第一列列向量和最后一列列向量,进行匹配处理,此时会加入一次人工干预,人工找出排在文章开头的碎纸片,接着用该碎片矩阵最后一列列向量逐一和其他碎片矩阵第一个列向量进行匹配,以此类推,依次找到相互匹配的碎纸片,最后就可以解决问题。

图1-1利用计算机复原碎纸片流程图对于问题二,问题二是在问题一的基础上深入和推广,首先利用图像腐蚀技术对边缘碎片进行处理,删除图片边界上的某些像素从而实现去噪并达到改善图像质量的目的;然后考虑到左上角碎片具有左边、上边白的特点,右上角碎片具有右边、下边白的特点,左下角碎片具有左边、下边白的特点,右下角碎片具有下边、右边白的特点,所以此时会加入一次人工干预,人工找出排在左上角的碎纸片;并通过人工干预找出上侧、左侧两个方向的碎片,进行排序,用碎片矩阵最后一列(横向)列向量逐一和右边的碎片矩阵第一个列向量(横向)进行匹配直至右边边缘碎片或者相似度小于已确定的阈值才结束;同理,用碎片矩阵最后一列(纵向)列向量逐一和左侧的碎片矩阵第一个列向量(纵向)进行匹配直至左侧边缘碎片。

接下来可以利用二叉树搜索方法从左上角碎片开始往下(或者往右)进行匹配,用碎片矩阵最后一列(横向)列向量逐一和右边的碎片矩阵第一个列向量(横向)进行匹配直至右边边缘碎片或者相似度小于已确定的阈值才结束,这样也就确定了左上角、横m位置上的图片,因为与其相邻向的上边、纵向的左边对应位置上的碎片,接着考虑22m(记的共有2条边,记边长为L像素,那么就可以根据相邻两边乘积最小的原则匹配出22m列)位置上的图片。

第j:行第iij问题三中所涉及到的碎片来自于同一张纸的正反两面,碎纸片数量翻倍,数据量庞大,所以建立起分行匹配模型,先初步将处于同一行的碎片分在一起,首先从上往下读取黑或者白边缘距离,然后在分行匹配时,只要满足上下边距离或者下上距离二者之一匹配,我们就可以把这两张图片分为一组,这样就减少了许多不匹配的图片,再采用更强的相似度判断模型,使行与行拼接更准确。

三、模型假设1、附件涉及到的碎纸片大小一致、形状规则、边缘整齐;2、未碎纸张的内容仅含文字,文字行方向沿水平方向,文字仅为汉字或英文3、页边距、行间距、字符与字符之间间隔、字符的字体字号保持不变;4、题目所涉及到的碎纸片是黑白图;5、每个附件中所给碎纸片均来自同一页纸质文档;6、每个附件中所给碎纸片没有缺失、没有多余;7、碎纸片在扫描过程中未掺入噪声,未产生形变。

四、符号说明五、模型的建立及求解1.问题一模型的建立与求解1.1问题一的模型建立1.1.1图像预处理的模型建立在使用扫描仪即可对纸质文档碎片进行处理,并输出BMP格式的原始图像f(x,y),然后对原始图像f(x,y)依次进行直方图均衡化和图像滤波处理。

1.1.1.1直方图均衡化的具体方法为原始图像为f(x,y),直方图均衡化处理后的图像为g(x,y),两者尺寸均为m×n,g(x,y)的灰度级变化范围是0~255。

首先,求出原始图像f(x,y)的灰度直方图,用256维的向量H(k)表示,H(k)被称为累积概率函数,则:H(k)=P(fk)=nk/N,k=0,1,2···255,其中,k指具体的灰度级,其取值范围是0~255,fk是原始图像f(x,y)中第k级的灰度值,P(fk)是第k级灰度值在原始图像f(x,y)中所占的比例,nk为原始图像f(x,y)中灰度值为k的像素个数,M为原始图像f(x,y)的像素总个数,N=m×n;其次,通过累积概率函数H(k),对原始图像f(x,y)进行均衡化映射,当原始图像f(x,y)=s时,则:当f(x,y)≠0时,g(x,y)= ,s=0,1,2···255,当f(x,y)=0时,g(x,y)=0,其中,s指不同的灰度级数,其取值范围是0~255。

1.1.1.2图像滤波处理的具体方法首先,对图像g(x,y)进行二值化处理,通过选取合适的阀值,得到二值化后的图像w(x,y),1,g(x,y)≥ThW(x,y)=0,g(x,y)≤Th其中,Th为图像的阀值。

其次,经过二值化处理后,在图像的左右和上相边缘处噪声比较集中,对之后的碎片提取造成影响。

根据噪声的位置特点,通过图像垂直投影和水平投影的方法将噪声加以消除,得到去噪图像。

水平投影法是指图像按列向X轴方向投影,统计的X轴上的黑点数,根据设定的阀值,黑点数少的位置认为是噪声,其值赋为白色,从而消除左右边缘处的噪声;垂直投影法是指图像按行向Y 轴方向投影,统计Y 轴上的黑点数,根据设定的阀值,黑点数少的位置认为是噪声,其值赋为白色,从而消除上下边缘处的噪声。

即噪声信号为n(x,y),去噪图像为e(x,y),则:e(x,y)=w(x,y)-n(x,y)。

1.1.2碎片边缘相似度的模型建立图像拼接是整个破碎文档恢复的核心。

以每个碎片矩阵首尾列向量中的每个元素的统计特性为依据,通过这些元素建立不同碎片之间的相互关系。

最终,根据由欧氏距离表达的最大相关性原则,将碎片图像逐一拼接在一起,实现文档的恢复。

经过图像增强后我们得到更为准确的二值图像,现在要开始进行最关键的步骤——图像拼接,在此过程中,需要引入一个指标来刻画两个进行拼接的边缘列向量的相似程度,于是运用欧氏距离(D)来描述这两个向量距离的远近,通过距离来反映他们的相似程度,距离越近,相似程度越高。

相关主题