当前位置：文档之家› 基于规则碎纸片文字特征的拼接复原算法

基于规则碎纸片文字特征的拼接复原算法

承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》（以下简称为“竞赛章程和参赛规则”，可从全国大学生数学建模竞赛网站下载）。

我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛章程和参赛规则的，如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛章程和参赛规则，以保证竞赛的公正、公平性。

如有违反竞赛章程和参赛规则的行为，我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。

我们参赛选择的题号是（从A/B/C/D中选择一项填写）： B我们的参赛报名号为（如果赛区设置报名号的话）：所属学校（请填写完整的全名）：中国人民解放军第三军医大学参赛队员(打印并签名) ：1. 王家*2. 黄嘉*3. 邵*指导教师或指导教师组负责人(打印并签名)：周*（论文纸质版与电子版中的以上信息必须一致，只是电子版中无需签名。

以上内容请仔细核对，提交后将不再允许做任何修改。

如填写错误，论文可能被取消评奖资格。

）日期：年月日赛区评阅编号（由赛区组委会评阅前进行编号）：编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：基于规则碎纸片文字特征的拼接复原算法摘要目前对于碎纸片的拼接问题，大多数方法是基于不规则碎纸片的几何边缘特征进行拼接，而本题是基于规则碎纸片的文字特征进行的。

我们首先提取各碎纸片的像素边缘特征，然后通过寻找最大匹配率和少量人工干预，得到碎片拼接方案。

对于问题1，我们用一般匹配率算法对碎纸片拼接。

首先我们先对碎纸片进行二值法处理，将单位像素的颜色量化组成二值化矩阵，然后抽取二值化矩阵的第一列和最后一列，组成碎纸片的纵向特征矩阵。

然后计算匹配组合特征矩阵的一一对应比率，建立最大特征匹配模型，利用matlab7.0对该模型进行求解，得到附件1、2的碎纸片复原结果（见附录），最后我们用边缘强度算法对该模型进行检验，一致性为100%，并且不需要人工干预。

对于问题2，我们将问题1的算法进行细化处理，通过建立最大匹配率模型和人工干预对碎纸片进行拼接。

通过对二值化矩阵的观察，得到碎纸片边缘文字信息特征，因此我们对字符大小、行间距、笔画粗度及走向等条件进行约束。

然后我们根据行间距特征，用举旗法对碎纸片进行聚类处理，排除了不在同一行和同一列的错误匹配，再将一般匹配率拓展为横向匹配率和纵向匹配率，并根据约束条件进行优化，然后对每一个待配对碎片选取匹配率最大的前10张碎纸片，依次用Visual Basic实现人工干预，对10张碎纸片是否匹配进行判断，最终得到附件3、4的碎纸片编号序列（见附录），用Matlab 将序列组拼，得到完全匹配的图像。

对于问题3，我们仍然延用问题2的模型，但在对碎纸片匹配率的求解过程中，让一张碎纸片的a、b两面同时与其余碎纸片的a、b两面进行匹配，用四个匹配率中的最大值作为此匹配的匹配率，再选出匹配率最大的前10张碎纸片，用与问题2中类似的方法进行人工干预，进行半自动碎纸片拼接，最终得到附件5的碎纸片编号序列（见附录），用Matlab软件对两个面的序列进行组拼，无错误匹配。

本文借助匹配率这一简单的概念，很好的解决了基于规则碎纸片的文字特征（字符大小、行间距、笔画粗度及走向等条件）拼接复原问题，将自动拼接和人工干预进行有机结合。

此外，经过参量的设置，本模型在还可以在各种语言形式的碎纸片拼接问题领域推广应用。

关键词：匹配率二值法边缘强度检验像素边缘特征基于文字特征半自动人工干预优化一、问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。

传统上，拼接复原工作需由人工完成，准确率较高，但效率很低。

特别是当碎片数量巨大，人工拼接很难在短时间内完成任务。

随着计算机技术的发展，人们试图开发碎纸片的自动拼接技术，以提高拼接复原效率。

请讨论以下问题：1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片（仅纵切），建立碎纸片拼接复原模型和算法，并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预，请写出干预方式及干预的时间节点。

复原结果以图片形式及表格形式表达。

2. 对于碎纸机既纵切又横切的情形，请设计碎纸片拼接复原模型和算法，并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。

如果复原过程需要人工干预，请写出干预方式及干预的时间节点。

复原结果表达要求同上。

3. 上述所给碎片数据均为单面打印文件，从现实情形出发，还可能有双面打印文件的碎纸片拼接复原问题需要解决。

附件5给出的是一页英文印刷文字双面打印文件的碎片数据。

请尝试设计相应的碎纸片拼接复原模型与算法，并就附件5的碎片数据给出拼接复原结果，结果表达要求同上。

二、问题分析本题是一个基于文字特征的规则碎纸片拼接问题。

不同于许多不规则的图片拼接问题，可以根据残片的形状进行拼接，因此我们将各个碎纸片的像素进行量化，通过行高、字间距等一系列数据的特征对各个碎纸片进行匹配，把匹配程度最大的作为该碎纸片的相邻纸片，直至将所有的纸片匹配完。

问题1，对于中文的碎纸片，我们分别将19张碎纸片的图片单位像素量化构成19个矩阵，把有颜色定义为1，空白定义为0。

分别提取出每一个矩阵第一列和最后一列，建造一个新的特征矩阵。

由于原纸片单位像素的颜色量化后的第一列矩阵为零矩阵，故我们寻找第一列矩阵全为0的矩阵对应的纸片作为第一张纸片，以该纸片的最后一列矩阵为基矩阵，按照两个特征相应位置特征的值相等的匹配准则，依次与剩余纸片的第一列矩阵进行匹配，匹配最好的即为第二张纸片，又把该纸片的最后一列矩阵作为新的基矩阵，用同样的方法依次匹配，直至拼成完整的一幅图。

而对于英文的碎纸片，处理方法与中文的是一样的。

经过自动拼接后的图片，再由相关人员进行逻辑判断和文字内容主观匹配，检验此方法的可行性。

问题2，不同于第一问，此时有既纵切又横切的情形，我们考虑通过建立约束条件，来寻找最大匹配率的碎片。

此时第一问的模型就不在适用了，因为原文件被切割得更细了，每一张碎纸片经过单位像素的颜色量化处理后，每一张纸片所得到的的数据相比问题1的数据就明显减少了，纸条的边缘所包含的文字信息就减少了，就无法使用第一问的模型。

所以我们先对碎纸片进行单位像素的颜色量化处理后，经过统计发现中英文的文字特征规律，从字间距、行间距、边框碎纸片等一系列条件约束，对碎纸片进行拼接。

但是要完全的实现碎纸片自动拼接是不太可能的，纯手工的拼接也是不现实的，因此我们考虑从条件筛选出来的碎纸片中，加入人工干预，从而能省时、准确进行半自动碎纸片拼接。

问题3，相比于第二问，碎纸片的双面都有文字，假如我们能准确地拼接出一面，那么另一面只需将a换成b，并颠倒碎纸片序号即可。

但是要实现高精度的拼接，则必须要有更多的条件约束，计算任务也更加繁重，模型的求解和建立都会变得很复杂，因此我们继续延用第二问的模型，但在求解碎纸片的匹配率的过程中，让同一张碎纸片的a、b面与其余碎纸片的a、b面同时进行匹配，再选出匹配率最大的前10张碎片，进行人工干预，选择出匹配的碎片。

三、模型假设1.题目所给的数据真实可靠；2．原文件中没有瑕疵、污点；3．经过粉碎机粉碎的文件碎片是完整的。

三、符号说明i T ：第i 张碎纸片单位像素的颜色量化矩阵；i P ：第i 张碎纸片的横向特征矩阵； i Q ：第i 张碎纸片的纵向特征矩阵；m ：第i 张碎纸片的匹配累计数； n ：第i 张碎纸片的不匹配累计数；k ：对应最大特征值的碎纸片的序号；ij sum ：矩阵i T 第j 行的和；ij h ：第i 张碎纸片中的字符所对应的第j 个横向边界高度； i H ：第i 张碎纸片的字符高度矩阵i Hin ：第i 张碎纸片与第n 张碎纸片的横向匹配率五、模型的建立与求解第一部分：准备工作（一）图片特征的提取将每一个附件中的图片单位像素的颜色进行量化，即二值化，量化准则：有颜色——1，空白——0。

经过量化处理后得到碎纸片单位像素的颜色量化矩阵i T ，抽取矩阵i T 的第一列和最后一列组成碎纸片的纵向特征矩阵i P （图1-1），抽取特征矩阵的第一行和最后一行组成碎纸片的横向特征矩阵i Q （图1-2）111110110010000011000110⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⇒111100001000⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦图1-1 纵向特征矩阵的提取1011010110111101000100⎡⎤⎢⎥⎡⎤⎢⎥⇒⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦图1-2 横向特征矩阵的提取（二）图像边缘文字像素特征将图片像素读取成数据后，我们发现以下规律：1.不论是中文还是英文，每一个字符的笔画大多是连着的，即矩阵i T 中出现1的位置往右平移一个像素，绝大多数也会出现1，只有少数字符笔画错开一个像素； 2.每一个字符都是压着某一条线写的。

同行中文文字最下端可连成一条水平直线，而英文字母中的大多数都是压着网格线中的第3条线来写的；3.中文碎纸片特征：除了极少数笔画外，其余的每一个笔画最粗不超过3个像素，行间距为30个像素，字间距为6个像素，一个汉字占40个像素；4.英文碎纸片特征：大多数小写英文字母占25个像素，而一些较高的字母如f 平均占37-38个像素，但是t 只占32个像素，行间距平均为38个像素；第二部分：模型的建立与求解（一）问题1：最大特征匹配模型的建立与求解通过查阅大量文献资料，目前已经有一种比较简单的按照匹配特征寻找匹配碎片的算法[1]，我们在该种算法的基础上，提出改进并进行了创新，简化了计算，从而更高效、快捷地实现了碎纸片拼接。

1.文字边缘像素最大匹配算法Step1：确定原文件的第一张纸片和最后一张纸片基于一份纸质文件的常识，每一份文件的最左端即左边缘单位像素的颜色量化后构成0 矩阵，因此我们在所有矩阵中搜索第一列全为0的矩阵，那么该矩阵所对应的纸片即为原文件的第一张纸片。

同理，文件中最右端即右边缘单位像素颜色量化后也构成了0矩阵，也容易确定最后一张纸片。

所以得到第一张纸片序号为008，最后一张纸片的序号为006。

Step2：选定基矩阵已经确定了文件的两条边框，并且所有碎纸片全为纵切，不妨以第一张纸片为准，依次向最后一张纸片进行匹配。

e商务文档

基于规则碎纸片文字特征的拼接复原算法

相关文档推荐：