当前位置:文档之家› 浅析数据恢复技术

浅析数据恢复技术

中国科技信息2008年第3期 CHINA SCIB4CE AND TECHNOLOGY INFOI ̄IATION Feb。2OO8 浅析数据恢复技术 文光斌深圳职业技术学院计算中心 51 8055 鬟 羹蕤囊 露 蘑 FTA与NTFS两种文件格式,数据存储原 数据恢复技术是计算机安全与维护领域发展 理简单,数据恢复技术成熟,恢复成功率 最迅猛、最有活力的技术,具有广阔的市场 高,MAC OS系统拥有量小,数据恢复 和发展前景。本文从数据恢复的意义和作用 量不大。 出发,介绍了数据恢复技术的分类,时1 2.3按数据恢复的方法分类 Windows系统和UN1)(系统数据恢复的原理和方法 1 数据恢复技术按数据恢复的方法来分 进行了分析和讨论。 类,可分为软恢复法和物理恢复法。软恢 爨蘼爨 霞霪霾鳆 复法就是用数据恢复软件或手工编写恢复 数据恢复;存储原理;文件格式 程序和更改某些设置达到恢复数据的方 法。物理恢复法是数据的存储介质硬件发 生了物理损坏,必须更换或修复硬件才能 1.引言 达到恢复数据的方法。 数据恢复是指由于各种原因导致数据 3.常用数据恢复的原理和方法 损失时把保留在介质上的数据重新恢复的 3.1 Windows下的数据恢复 过程。从数据恢复的目的来看,它属于计 3.1.1硬盘的存储原理 算机安全,而恢复的手段又与计算机维护 硬盘是一种采用磁介质的数据存储设 有着紧密的联系,因此可以说数据恢复是1备,数据存储在密封于洁净的硬盘驱动器 从计算机安全与计算机维护发展起来的新 内腔的若干个磁盘片上。这些盘片一般是 领域。近年来信息化建设高歌猛进,办公 在以铝或玻璃为主要成分的片基表面涂上 电子化已经是大势所趋,潮流所向,不仅j磁性介质所形成,在磁盘片的每一面上,: 仅是IT企业,传统企业以及政府机关也开 以转动轴为轴心、以一定的磁密度为间隔 始全方位启用信息化存储技术,NI2.N ̄ 的若干个同心圆就被划分成磁道 的是数据恢复市场迅速发展、空前繁荣。 (track),每个磁道又被划分为若干个扇 受市场鼓舞,数据恢复技术研究也不断深{区(sector),数据就按扇区存放在硬盘 入,各种恢复方法层出不穷。因此有必要 上。在每一面上都相应地有一个读写磁头 对数据恢复技术进行分类,对数据恢复的 (head),所以不同磁头的所有相同位置 原理和方法进行分析和讨论。 的磁道就构成了所谓的柱面 2.数据恢复技术的分类 (cylinder)。传统的硬盘读写都是以柱 总观各种数据恢复技术可以归纳为三{面、磁头、扇区为寻址方式的(C HS寻 种主要的分类方法,按数据的存储介质来分, 址)。硬盘在上电后保持高速旋转(5400 按数据的文件的格式来分和按数据恢复的 转/min以上),位于磁头臂上的磁头悬 方法来分。 浮在磁盘表面,可以通过步进电机在不同 2.1按数据的存储介质分类 柱面之间移动,对不同的柱面进行读写。 数据恢复技术按按数据的存储介质来 3.1.2 FAT文件系统 分类,则可以分为硬盘数据恢复技术、软 FAT文件系统有FAT12、FAT16和 盘数据恢复技术、光盘数据恢复技术、U FAT32三种类型。FAT文件系统一般由 盘(闪存盘)数据恢复技术、数码卡;DOS引导扇区(DBR)、文件分配表区 (如:S D、C F卡等)数据恢复技术、 (F A T)、文件目录表区(F D T)和数 RAID(磁盘阵列)数据恢复技术和网络 据区组成。 存储设备(DAS直接附加存储、NAS网DBR是操作系统可以直接访问的第一 络附加存储、SAN存储区域网络)数据 个扇区,它包括一个引导程序和一个本分 恢复技术。 区参数记录块(BPB)。引导程序的主要: 2.2按数据的文件的格式分类 任务是当M B R将系统控制权交给它时, 数据恢复技术按数据文件的格式来分 判断本分区根目录前两个文件是不是操作。 类,可分为WindOWS下的数据恢复技 系统的引导文件。如果是就将其读入内 术、UNIX/LINUX系统的数据恢复技 存,并把控制权交给该文件。BPB记录 术、苹果MAC Os系统的数据恢复技术 着本分区的起始扇区、结束扇区、文件存 及数据库修复技术。windOws下只有 储格式、硬盘介质描述符、根目录大小、 78一 FAT个数、分配单元的大小等重要参数。 3.1.3 NTFS文件系统 NTFS文件系统由BOOT区、MFT 区、DATA区及MFT部分记录的备份区 所组成。其BOOT区功能与FAT的引导 区相似,在NTFS中把一些由格式化形成 的重要系统文件称为元文件,而主文件表 (M F T)是专门用来存储文件记录的一 个元文件,在MFT中前16个文件记录总 是为系统最重要的元文件。系统通过 MFT来确定文件在磁盘上的位置和属性。 3.1.4 Windows下数据恢复的原理与 方法 Windows下数据的恢复一般都是用手 工、工具软件和人工分析相结合的软恢 复,要视具体情况灵活运用。 3.2 UNIX系统的数据恢复 3.2.1 UNIX的文件系统 UNIX的文件格式有很多,较常用的 有ETX2、ETX3等,且UNIX版本众多, 不同的UNIX文件格式是有差异的,但至 少包括引导块、超级块、i一节点(索引 节点)表和数据区等几部分。引导块位于 文件卷的第一记扇区,是文件系统的引导 代码,为根文件所有。超级块位于文件卷 的第二记扇区,用于描述文件系统的结 构,如i一节点长度、文件系统中的数据 块数和最大文件数等。i一节点表含了文件 的属性、如文件的所有者、最后修改时 间、最后访问时间和文件数据块的指针 等。 3.2.2 UNIX系统下的数据恢复原理与 方法 UNIX下删除文件就是释放索引节点 表和文件占用的数据块,清空文件占用的 索引节点,但不清除文件的内容。虽然由 于清空了文件占用的索引节点,使恢复比 较困难,但是还是可根据被删除文件的特 征、内容和类型找到恢复的办法。 (1)、根据输入特征进行恢复 根据被删除文件所在的文件分区、被 删除文件的大小、删除的时间、删除文件 的用户名等特征找到相应的索引节点,然 后根据文件的分隔特征,即U NIX文件最 后一个数据块尾部多出的字节全部为0, 只要找到数据区中前一个全部为0的位置, 和后一个全部为0的位置,其两者之间的数 据就是被删除文件的数据了,恢复此段数 据就恢复了删除文件。 (2).根据被删除文件的内容进行恢复 如果知道被删除的文件内容中若干字 

下转第8O页 争 维普资讯 http://www.cqvip.com 中国科技信息2008年第3期 CHINA scI刚cE AND TECI4N ̄OGY INr-OBMA'rlON F曲.20o8 取特征值。神经网络识别整个流程如图7 8。 如数字3,首先可检测出点(1,1) 和点(7,1)为端点,点(2,5), 点(4,3)和点(6,5)为凸点,且 没有环笔画。点(1,1)与点(2, 5)之间的象素点构成笔画横,点(2, 5)与点(4,3)之间的象素构成笔画 撇,点(4,3)和点(6,5)之间 的象素点构成笔画捺,点(6,5)与点 (7,1)构成笔画横。按从上到下,从 左到右的笔画顺序,数字3的笔画(笔画 特征值)依次为横(2) 撇(3) 捺(4) 一横(2),因此神经网络输 入特征向量为【0,2,3,4,2,0]T。 为了获取收敛速度快且效果比较好的 训练网络,可采用多层BP网来实施。先 采用了1 0个并行的单输出BP网分别对 应0 9这10个数字,为了提高网络识别精 度,对同一个数字的多种不同手写体,如 果形体差别(特指特征量)比较大的,在 用神经网络进行识别的时候,先作为不同 的类别来处理,因而,需要增加并行的单 输出BP网的个数,这里只对数字2和数字 4的两个差别比较大的字体进行分辨,因 此单输出BP网的个数增加至12个。对这 12个输出结果,再用识别程序来识别出这 1 0个数字。 该BP网分为3层,其输入层有14 个输入点,分别对应特征向量的14个分 量,即一个端点数和4个端点位置,一个 凸点数和6个凸点方向,一个三叉点位置 和一个四叉点位置,其输出层有1个输出 

图7神经网络数字识别系统 1 1 1 1 1 1 1 1 1 1 1 1 1 图8数字3的笔画 点,它取值为0,对应该网络与训练样本 是同一类别的,取值为1,否则取值为0. 8,对应各个数字隐含层节点数目的选择 是一个十分复杂的问题,到目前为止,还 没有用数学公式来明确表示应该怎样确定 隐含层的节点数目。事实上,若节点数目 太少,可能训练不出来,或者训练的网络 不够强壮,不能识别以前没有看到的样 本,容错性差,但隐含层节点太多又导致 学习训练时间太长,误差也不一定最佳, 这里选择1 0个隐含层节点的网络。 本系统采用MATLAB语言编写,所 设计的神经网络需要6个输入节点和10个 感知器输出神经元。每个数字都用7× 5=35的元素组成一个数字的列矩阵,那1 0 个数字则分别由表示10个数字的输入的列 矩阵组成10×35的输入矩阵。因为目标 矢量是希望在每个数字输入时,在10个数 字中它所排顺序的位置上输出为1,而在 其他位置上的输出为0。因此,取目标矩 阵为对角线上为1的10×10的单位阵。试 验表明,系统对数字的识别率可以达到 97.5%。 4结论 参照汉字笔画的定义和数字的特点, 采用特征值1、2、3、4、5来表达环、横、 竖、撇、捺、竖5个笔画特征,并结合端点、 凸点、连点、三叉点、四叉点的定义可获得 一种脱机手写体数字的特征值提取方式, 该提取方式可减少后续网络规模,提高识 别速度。 结合上述特征值提取方案和B P神经 网络,用1 0 0个手写体数字作为训练样 本,5 0个不同的样本进行测试,网络收 敛后,用测试样本进行测试,识别率可达 95%。 [1】赵跃走。,金先级,张江陵.基于神经网络的 手写体数字识别系统研究[J],电子计算机 外部设备,1994,18(2):1—4 [2】邓丽华,崔志强,手写体数字识别系统中 一种新的特征提取方案[J],湖州师范学院 学报.2005,2 7(2):99-1O1 [j】陈友斌,丁晓青.一种手写特征提取新方 法[J].信号处理.1998,14(2)-117-122 [4]金连文,黄建成,尹俊勋.变形变换及其在 手写体汉字整形中的应用[J],中国图像图 形学报.2002,7(2):170-175 邓丽华(1 973-) 女 湖北松滋人 三峡大学电 气信息学院讲师.研究方向:神经网络.智能控 制。 《《上接第78页 节的内容,而且该文件长度又不超过一个 磁盘块,那么可以在整个文件系统中搜索 这一字节串,得出一个文件所在的数据 块,将它们的块号填人一个i节点,即可 恢复一个文件。如果知道被删除文件的精 确长度(字节数),那么可根据一个数据块 的大小,计算出文件的最后一个数据块中 数据的精确长度,该数据块中其他字节必 然是全0。根据这一条件,通过搜索整个 文件系统,找出其中符合条件的数据块。 如果知道文件内容中存在某种可实现的关 联,例如文件的校验和,或者文件内容的 某种上下文关系,那么也可通过搜索整个 文件系统,通过反复尝试寻找符合关联条 件的磁盘数据块,进而恢复一个文件。 (3).根据被删除文件的类型来恢复 很多专用类型的文件都有一个特定的 字符串写在文件的开始与结尾,分别叫做 文件头(Header)和文件脚(Footer),因 此可根据被删除文件的类型,用磁盘编辑 工具,找出此类文件的文件头与文件脚的 字符串,然后在硬盘上按扇区搜索此类文 件的文件头与文件脚,将找到的这些文件 的文件头与文件脚之间的硬盘扇区数据保 存到一个文件中即可。 以上所述的都是手工恢复的方法,同 样也可以用软件工具进行恢复,如用 Recover My Files等进行恢复。软件恢 复简单明了,按步操作就行了,但有时软 件恢复的成功率不高。 4.结束语 随着数据恢复市场的扩大,各国和大 公司都投巨资对数据恢复技术进行研发, 使数据恢复技术日新月异,新技术不断涌 现,特别是覆盖数据的恢复更成为各国争 夺的焦点,我国只有加强投入,迎难而上, 才能在数据恢复领域不至于落后太多,才 能保证重要部门的数据安全,减少数据灾 难的损失。 辫 鬻藿 霆 霆 [1]聂元铭,曾志,黄燕宏.计算机数据修复与 维护.北京:科学出版社.2006.8 [2】戴士剑,张杰,郭久武.数据恢复技术综 述,信息网络安全技术研究,2006.1 [s]刘三满.计算机数据恢复技术分析.山西 电亍挝术.2007.f 鞫豳豳豳豳豳豳豳豳霸豳豳黧 文光斌(1 961一).男,深圳职业技术学院计算 中心高级实验师。湖南益阳人.主要研究方 向计算机安全与网络。

 维普资讯 http://www.cqvip.com

相关主题