当前位置:文档之家› Simpana V10 重复数据删除(20130718)

Simpana V10 重复数据删除(20130718)


源端“去重”
当数据从“源端”传输到“目标端”的过程中,在源端先对被 传输的数据块进行哈希比对,如果该数据块先前已经被传输过 ,只需要传输哈希索引值;如果该数据块先前没有被传输过, 就传输该数据块,并记录该数据块的哈希值。
优点:可节约传输带宽 缺点:要占用源端资源进行去重处理
源端
传送的是新数据块 和老数据块的索引
Files
Content Alignment
具有内容感知的数据块传输
Databases
Content Alignment
Images
Content Alignment
Meta-data, tags, indexes
Segment – instance (hash)
Skip
Skip
Skip
1
• • • •
读取数据 压缩* 哈希比对* 加密*
4
MA
向MA传送数据
Check-Level 2 使用MA的DDB查找去重索引
MA
• 直接访问恢复 • 不需要读哈希表 • 支持GridStor备用访问路径
存储策略:
全局存储保留
Archive File / Offsets Mount path(s)
主副本: 存储在磁盘上,保留#天和周期 CV 目录 (索引)
在服务器应用 中有大量完全 相同的数据块
在连续的全备份 数据中,有 70%-90%的重 复数据
在归档文件中, 也有大量的数据 块是相同的
3
如何进行重复数据删除
节省大量 磁盘空间!
原数据集合
重复数 据删除 的过程
4
重复数据删除
逻辑视图
物理存储
对需要存储的数据,以块为单位进行哈希比对,对已经存储的数据块不再进行存储, 只是用索引来记录该数据块;对没有存储的新数据块,进行物理存储,再用索引记录, 这样相同的数据块物理上只存储一次。通过索引,可以看到完整的数据逻辑视图,而 实际上物理存储的数据却很少。
480 TB 10 TB/hr*
240 TB 5 TB/hr*
90 TB 2 TB/hr*
120 TB 2.5 TB/hr*
15 TB
30 TB
v7
v8
v9
v9 SSD
v10 2 nodes
v10 SP4 4 nodes
v11 16 nodes
并行去重
重新定义企业级去重规模
为满足大规模去重需求,把一组DDB及存储组合成一个集合,分段对齐,来获得最佳性能。 这样做的优势是能线性增加去重规模,对企业级去重或全局去重设计至关重要。
Retain 30 days
Cloud / Recovery Site
平台无关性: 可在不同的操作系统之间复 制
Deep Copy 3
DDB-3
Retain 365days
11
“在任何拷贝之间仅传输变 化的数据块”
DASH FULL
去重感知的合成全备
“标准合成全备”
读取, 重组数据和再次去重
目标端
5
目标端“去重”
当数据从“源端”传输到“目标端”的过程中,把数据块 传送到目标端,在目标端进行去重操作。
优点:不占用源端的资源 缺点:不能节省传输带宽
在目标端有两种处理方式:
在线处理方式(In-Line):在数据块存储之前进行去重处理,优点是占用存储空间较少, 缺点是要影响数据传输性能。 后处理方式(Post-Processing):先把数据块存储在缓存中,等系统空闲时再进行去重 处理。优点是不影响数据传输性能,缺点是需要额外的存储空间。
重复数据删除方案
2013年7月
目录
重复数据删除基本知识
CommVault 重复数据删除技术
Simpana 10 第四代重复数据删除技术 方案设计及最佳实践
竞争分析
2
为什么要进行重复数据删除
不同计算机中, 有许多完全相同 的文件,特别在 虚拟机中有80% 以上重复数据。
当进行集中数据备 份和归档时,重复 的数据块会导致存 储费用快速上升, 同时也会占用数据 传输带宽。
Remote Copy 1
DDB-1
Retain 5 days
DDB-2
MA Linux
DC Copy 2
高性能: 适用于快速网络环境的读优化模 式和基于窄带宽WAN环境 的网络优化模式, 使得各 种环境都能高效传输数据。 完整的拷贝管理选项: 独立的拷贝保留时间、 拷贝选择规则、作业过期控制、数据校验
metadata File data stream blocks
Compressed
重复数据删除
跨文件消除冗余的重复数据块 每个相同的数据块只存储一次, 后续的块以指针指向之前的物 理数据块 “去重比”= (数据量) / (在磁 盘上占用的空间). 不是最主要 需要考虑的因素
7
Week1 Week2 Week3
跨文件、备份集 跨客户端、备份代理
目录
重复数据删除基本知识
CommVault 重复数据删除技术
Simpana 10 第四代重复数据删除技术 方案设计及最佳实践
竞争分析
8
CommVault重复数据删除构架
支持备份和归档数据
Check-Level 1 (optional) 客户端使用本地去重缓 存SSDB判断数据块的 唯一性 SSDB Client Systems
高性能
2节点并行重删网格能支持存储180-240TB的唯一数据,备份速度 能达到4-5TB/小时,容量和性能是V9中单个重删节点的2倍。
高可靠
内置的故障切换能力能够使备份作业不间断,网格中即使有一个节 点不可用,剩余的节点可以继续工作接管备份。故障节点在后台自 动修复,然后加入网格继续工作。
DDB-G1
50 Mount Paths 2-8TB
• 算法保证同一HASH值会到同一 DDB中比对
1
4
2
DataMover
MediaAgent-1 (Primary)
DDB and Data Mover Role
2
5
DataMover
MediaAgent-2 (Primary)
DDB and Data Mover Role
5
3
如果数据已经存在,在所选择的分区中更新 DDB,在MA访问的装载路径上更新元数据 如果数据是新的,在所选择的分区DDB中插 入签名,数据写入MA能存取的装载路径
大规模
在低性能环境,可以结合多个重删节点提供高的重删容量。 如介 质服务器部署在云中,由于低的IPOS存储性能,每个重删节点容 纳的数据量不大,但多个节点通过并行全局重删可以实现更大的重 删规模。所以并行重删既可用于企业级环境也适用于云环境。
18
并行去重是如何工作的
1
2
客户端根据GridStor 存储策略选择 DataMover (MA), 发送数据到MA DataMover使用内部算法来选择哪个分区来 执行签名查找。如果所选的分区在其他MA上, 就通过网络上进行查找。
Store 2
MediaAgent-2 (Primary)
DDB and Data Mover Role
Store 3
MediaAgent-3 (Primary)
DDB and Data Mover Role
Store 4
MediaAgent-4 (Primary)
DDB and Data Mover Role
SILO 是将重复数据删除池里的数据 保持去重格式复制到磁带上,而不用
SILO to Tape
将老数据保持去重格式从磁盘复制到磁带做长 期保留—节约磁带空间 老数据从磁盘上过期,为新的备份释放出空 间—节约磁盘空间 – – SILO不适合短期的数据保留(几周) SILO 不适合恢复速度要求高的数据
F 12
In
Week 1
In
In
In
In SF In
Week 2
全局重复数据删除
全局去重存储策略:多个存储策略拷贝共享同一个DDB(全局 = 多个存储策略拷贝)
全局去重存储策略
多个不同存储策略的去重拷 贝使用相同的去重池作为备 份目标,使用相同的DDB、 磁盘库和去重属性,但保留 周期可以不一样 同一个全局去重存储策略可 以关联独立存储策略的主拷 贝和次级拷贝
备注: CommVault同时支持源端和目标端去重;支持在线处理方式,也支持后处理 方式(先备份到非去重拷贝,再辅助拷贝启用去重)
源端
传送的都是数据块
目标端
6
压缩与去重
压缩和重复数据删除都属于数据缩减技术
数据压缩
针对单个文件 采用空值压缩或缩短高频数据 表示值来缩小数据 15-20% CPU 开销 去重的补充手段
10
DASH 拷贝
随处移动去重数据块
描述 优势
使用DASH的方式能够更少的传输和处理已备 份数据,使得能够更快的创建去重拷贝。
高健壮性: 带宽控制、基于作业的复制,健 壮的网络选项,hppts安全传输协议,自动 重起,多流和报告
影响小: 不需要数据重组,快速的异步拷贝 变化数据块
MA
Windows
Storage Policy
Storage Policy
Storage Policy
Copy
Retention GDP
Copy
Retention GDP
Copy
Retention GDP
Block Size
Compression
DDB MA MA MA
Global Dedupe Store
13
去重到磁带-SILO
相关主题