当前位置:文档之家› 对深度学习自适应网络学习可迁移特征的理解

对深度学习自适应网络学习可迁移特征的理解


背景:
出版源 《Computer Science》, 2015:97-105 关键词 Computer Science - Learning 被引量 44
摘要:
最近的研究表明深度学习神经网络可以学习能够很好地泛化于域适应新任 务的可迁移特征。尽管如此,作为在网络中最终从一般迁移到具体的深度特征, 特征的可迁移性在高层中随着域差异的增加而显著下降。因此,正是减少数据集 偏差和加强特定任务层的迁移能力是非常重要的。在这篇论文中,提出了一个新 的深度学习域适应(Deep Adaptation Network,DAN)结构,这个架构能将深度学 习卷积神经网络推广到域适应情景中。在 DAN 中,所有特定任务层的隐藏表示 都可以被嵌入到 Reproducing kernel Hilbert space 中, 在这个希尔伯特空间中不同 域分布的嵌入平均值是明确的。 域差异可以通过使用平均嵌入匹配的最佳多核选 择方法来被进一步减小。 DAN 可以通过统计保证学习迁移特征, 并且可以通过核 匹配的无偏差估计来延伸线性。 大量事实数据表明我们提出的架构在标准的域适 应基准中可以产生最先进的图像分类误差率。
数字图像处理大作业
题目:Learning Transferable Features with Deep Adaptation Networks
姓名:王继天 学院:信息科学与技术学院 专业:通信工程 年级: 学号: 研究生-2016 23320161153434
Learning Transferable Features with Deep Adaptation Networks
调训练,这些步骤在 Caffe 中实现。大量事实表明,本篇论文所提出的架构比在 标准域适应基准上评估的最先进的结果表现还要好。
本篇论文主要贡献:
1. 提出了一种用于域适应的新型深度学习神经网络架构,在这个架构中对应于 具体任务特征的层都以分层的方式进行调整,从而受益于“深度适应” 。 2. 本篇论文为了适应深度表示探索了多核方法,多核与单核相比,适应的有效 性大大的增强了。本篇论文提出的模型产生了具有统计保证的无偏差深度特 征。 作者提出了新型的深度学习适应网络(DAN)架构加强了一般网络在具体任 务层的特征迁移能力。对于一般特征来说,推广到新任务上很容易,但对于针对 原始任务所学习到的特定特征,并不能很好的推广到新任务上。通过在重 Reproducing kernel Hilbert space(RKHS)中涉及两个域的多层表示的平均值嵌入 匹配, 可以显著加强特征迁移能力。最优多内核选择策略进一步提高了嵌入值匹 配效率, 而嵌入平均值的无偏估计使得线性时间算法对于大规模数据集的深度学 习特别实用。 大量实验经验证明了论文中提出的架构优于以往的方法。
d k2 ( p, q) E p [ ( x s )] Eq [ ( x t )]
2 Hk
(1)
k ( x s , xt ) ( x s ), ( xt ) , 最重要的特性是 p=q 时有 d k2 ( p, q) 0 。 与特征映射Φ ,
相关的特征核,被定义为 m 个 PSD 内核{ku}的凸组合
K {k u ku : u 1, u 0, u}
u 1 u 1 m m
(2)
其中对系数{β u}的约束加强可以保证生成比较典型的多内核 k。Gretton 等 人的一项研究显示,适用于 p 和 q 的 嵌入平均值的内核对于确定测试功率以及 低测试误差来说至关重要。多内核 k 可以利用不同的内核来增强 MK-MMD 测试, 这就是优化内核选择的原理方法。 控制域差异的一种可行方法是找到源域和目标域中相似的抽象特征表示, 这 个想法很早就提出了,本篇论文之前还没人尝试在深度学习神经网络中用 MK-MMD 来增强特征表示的迁移能力。 2.Deep Adaptation Networks(DAN) :这篇论文中,作者在深度学习网络中为了 学习可迁移特征而探索了基于 MK-MMD 的适应方法。作者用深度学习卷积神经网 络(CNN)作为开端,这种网络的特点是域不变而在适应到新任务上时很强壮。 可是目标域没有或只有很少的有标签信息, 因此直接将 CNN 通过微调应用到目标 域上是不太合理并且很容易过拟合的。受启发于域适应思想,作者想构建一个深 度学习适应网络(DAN) ,这个网络既可以利用有标签的源域数据,也可以利用无 标签的目标域数据,图 1 显示了 DAN 模型。
图1 从零开始的深度学习神经网络的训练是相当繁杂的,工作量代价过于庞大, 所以本篇论文采用已经存在预训练的模型来减少开销,预训练的模型来自于 AlexNet,这一模型包含五个卷基层(conv1~conv5)和三个全连接层(fc6~fc8)。每 个全连接层 fc 中有 l 学习非线性映射 hil f W l hil 1 bl .其中 hil 是点 xi 的第 L 层隐 藏表示。Wl 和 bl 是第 L 层的权重和偏置。而且 f 是激活函数,对于隐藏层选择作 为 整 流 器 联 合 f l ( x) max( 0, x) 而 对 于 输 出 层 选 择 作 为 最 大 平 滑 化 联 合
引言:
本篇论文是基于深度学习域适应方法进行的特征迁移改进方法, 这种方法在 图像处理中有非常重要的应用, 尤其是各类图像分类处理中,基于域适应方法的 知识迁移是未来图像分类处理的主流方向。 由于域适应方法是迁移学习的一种具 体应用方法,这里我们先简单介绍下迁移学习。 在当前的图像处理中, 机器学习和数据挖掘算法的应用已经越来越广泛了,但在 许多机器学习和数据挖掘算法中的主要假设是训练和测试数据必须在相同的特 征空间中并且具有相同的分布。然而,在许多现实应用中,尤其是图像处理中, 这种假设可能不成立。例如,我们在一个感兴趣的域中具有分类任务,但是在另 一个感兴趣的域中只有足够的训练数据, 其中后一个空间的数据可能在在不同的
异是不同域之间适应预测模型的主要障碍。比如,在手动标注的图像上训练出的 对象识别模型可能在姿态, 遮挡或者照明的变化下, 测试图像时不能很好的泛化。 域适应通过探索域不变结构来建立从有标签的源域到无标签的目标域之间的知 识迁移,这种域不变结构通过桥接存在大量分布差异的不同域实现。 建立知识迁移的主要方法是从数据中学习域不变模型, 域不变模型可以在同 构潜在特征空间中桥连源域和目标域。在这个研究方向上,先前工作的富有成效 的方向是通过联合最小化域差异的距离度来学习浅层特征。 然而最近的研究表明, 深度学习神经网络可以学习更多的有关域适应的可转移特征, 这些被学习的特征 可以在一些域适应数据集产生突破的结果。 深度神经网络能够释放潜在于数据 样本下的变化的探索性因素, 并且根据它们与不变因素的相关性分级地对特征进 行分组,这使得表示对噪声具有鲁棒性。 虽然深度学习神经网络对于学习一般的可转移特征相对于常规方法更为强 大, 但最新的发现还揭示了深层特征必须沿着网络最终从一般迁移到具体,特征 的可转移性随着域差异的增加而在较高层中显著下降。换句话说,在网络的较高 层中特征的计算极大地依赖于特定的数据集和任务, 这种特征被称为具体任务的 特征, 并不能安全的迁移到新任务中。另一个令人感兴趣的现象是解开网络中叫 高层的变分因素可能会扩大域差异, 因为具有新深度表示的不同域各自变得更加 “紧凑” ,并且更易区分。尽管深度特征对于辨别很显著,但是扩大的数据集偏 差可能恶化域适应性能,导致目标任务上出现统计无界的风险。 基于对一篇有关深度学习神经网络迁移能力的最新文献的理解, 我们在本文 中提出了一种新的深度学习适应网络(DAN)架构,这个架构将深度学习卷积神 经网络推广到域适应情景。 这项研究的主要思想是通过明确地减少域差异来增强 深度学习神经网络的具体任务层中的特征转移性。为了实现这个目标,所有具体 任务层的隐藏表示被嵌入到 Reproducing kernel Hilbert space,在希尔伯特空间中 不同的域分布的平均嵌入可以被明确匹配。 由于平均嵌入匹配对内核的选择很敏 感,所以设计最优多内核选择过程可以进一步减少域差异。此外,我们还实现了 内核平均嵌入的线性时间无偏估计, 以实现可扩展训练。 最后, 由于使用 ImageNet 等大规模存储库预先训练的深层模型代表了普遍通用的任务,所提出的 DAN 模 型通过从 ImageNet 中预先训练的 AlexNet 模型(Krizhevsky 等人,2012)进行微
特征空间中或遵循不同的数据分布。在这种情况下,如果能将从有训练数据的数 据集中学到的特征知识迁移到没有足够训练数据的数据集中进行应用, 即将已有 经验应用到新的任务中去, 这可以节省相当大的成本,这种学习方法就叫做迁移 学习,近年来迁移学习已经成为解决类似分类问题的新兴的学习架构。 对于迁移学习,我们给出两个主要的定义,一是域,二是任务。域即为数据 集, 在迁移学习中分为源域和目标域,源域可以理解为之前例子中有足够训练数 据的数据集, 而目标域则是我们感兴趣的但可能缺乏足够训练数据的数据集。任 务则是分为源域任务和目标任务。 迁移学习的方法各不相同的原因主要是因为这 域和任务之间的差异。 当源域和目标域一样, 源域任务和目标任务也一样时, 这是传统的机器学习。 当源域与目标域不同但是任务相同时,被称为转换迁移学习。当源域与目标域相 同而任务不同时,被称为引导迁移学习。当域和任务都不相同时,被称为无监督 迁移学习。
问题, 许多方法希望通过将源域误差加上源域和目标域之间的偏差度量来限制目 标域的误差。 探索了用于双样本测试的两类统计之后,在这双样本测试中对于零 假设 p = q 作出接受或拒绝决定,并对分别从 p 在本文中,我们专注于由 Gretton 等人提出的 MMD 的多内核变体(MK-MMD) 。 (2012b) ,MK-MMD 是联合最大化两个样本的测 试功率并最小化 II 类误差的正式表达,即拒绝假零假设的失败。 Hk 定义为具有特征内核 k 的 Reproducing kernel Hilbert space(RKHS,重构希 尔伯特空间) ,Hk 中分布 P 的嵌入平均值是唯一的,记为μ k(p),这使得对所有 f ∈Hk 的有 Ex~ p f ( x) f ( x), k ( p) H k 。概率分布 p 和 q 之间的 MK-MMD dk(p,q) 的值被定义为 p 和 q 的嵌入平均值之间的 RKHS 距离。 MK-MMD 的平方公式定义 为:
相关主题