当前位置:文档之家› 人体姿态估计论文解析

人体姿态估计论文解析


多层沙漏生成多分辨率的注意力地图。将多语义注意力地图应用于每一个沙漏,如堆栈1到堆 栈8。在堆栈5到堆栈8中,对局部区域缩放的层次注意机制进行了应用。
3
人体姿态估计新思路(怎么做?)
层级注意力机制
下层栈,使用两个整体注意力地图 和 来编码整个人体的构型。在 更高层堆栈中使用一个由粗到细的层级注意力机制来放大局部区域。
通过这种架构,我们可以丰富每个构建块的输出所接收到的信息,从而使 整个框架更健壮地进行伸缩。
3
人体姿态估计新思路(怎么做?)
多分辨率注意力机制
在每一个沙漏, 多分辨率注意力地图由不同尺度的特征生成,如图所示。
3
人体姿态估计新思路(怎么做?)
多分辨率注意力机制
然后,将注意力地图组合起来生成精炼的功能,进一步用于生成精细化的 注意力地图和进一步完善的功能图。
1
卷积神经网络用于人体姿势估计面临的问题(为什么做?)
卷积神经网络应用于计算机视觉方向成效显著,但是有以下局限性: 1、肢体关联性 2、身体自遮挡及被遮挡 3、服装影响
4、复杂背景影响 卷积神经网络面临以上问题时,将不能正确定位每一个身体部位我们观 察到,由于背景杂乱和自遮挡,卷积可能会产生错误的估计。
4
人体姿态估计新思路成效(结果)
结果
通过在每一堆沙漏(BL+MS)的末端添加整体注意力模型,得到87.2%的PCKh 分数,与基线模型相比,这是一个1.2%的改进。 使用HRUs来代替原来的剩余单元,将不同分辨率的特征组合在一起 (BL+MS+HRU) 。增加沙漏的残余单位,进一步提高1%。 通过多分辨率(BL+MS+HRU+MR)生成注意力地图的多分辨率关注,得到了进 一步的1%的改进。 在层次注意力模型中,将精细的整体注意力地图替换成一组,从4到8的部 分注意力地图,获得最高的平均PCKh分数89.4%。这些改进主要是由身体部位 的精细定位带来的。
★表示channel-wise Hadamard矩阵产品操作。 重新加权的特征,和f的大小相同。
是精细化的feature map,是注意力地图
3
人体姿态估计新思路(怎么做?)
多语义注意力机制
不同的栈有不同的语义:低层栈关注局部表示,而更高的栈编码全局表示。 因此不同栈产生的注意力地图也可以编码各种语义。下图为一个8层的沙漏网 络框架的基本结构。
5
总结
本文提出了将多上下文的关注和对网络的集成到一个端到端框架中。我们使 用视觉注意力来指导上下文建模。因此,我们的框架在上下文区域有很大的多 样性。我们不使用全局的Softmax,而是引入CRF来进行空间相关建模。我们在 三个组成部分建立了多上下文注意力模型。多分辨率、多语义学和分层式的假 期注意力计划。此外,还提出了一个沙漏单元来丰富传统残差单元的表达能力。 建议的多上下文注意和HRUs是一般的,并将帮助其他视觉任务。
视觉注意力是人类大脑有效理解场景的重要机制,计算机构建视觉注意力机制 来表达复杂语境。主要方法是通过注意力模型生成整体注意力图和部分注意力 图,注意力机制优点: 1、视觉注意力提供了一种明确的方法来模拟人体各部位之间的空间关系 2、部分注意映射可以通过解决重复计数问题来进一步细化部分位置。 3、注意力图由注意力模型生成,它依赖于图像特征,并提供一种有原则的方 法来聚焦于可变形状的目标区域 4、它有助于恢复丢失的身体部分,并将模糊的背景区分开来。这允许增加上 下文的多样性,因此上下文区域可以更好地适应每个图像 5、而是设计了一种基于条件随机场的新型关注模型,该模型较好地模拟了相 邻区域之间的空间相关性。利用条件随机场算法(CRF)对注意力图中相邻区域之 间的相关性进行建模
图,这使得多语义的注意力图具有不同层次的语义含义。
2、部分注意力模型 整体注意力模型对遮挡和杂乱的背景有很强的效果,但对不 同的身体部位缺乏精确的描述。为了克服这一局限性,我们设 计了一种分层次的视觉注意力方案,将整体注意力模型放大到 每个主体部分,即部分注意力模型。这有助于精确定位身体部 位,
3
人体姿态估计新思路(怎么做?)
空间CRF模型
使用条件随机场(CRFs)来模拟空间相关性。为了使其可微,利用均值-场 近似方法递归地学习空间相关核。
3
人体姿态估计新思路(怎么做?)
嵌套沙漏网络
我们将剩余的单位替换掉,它们沿着侧分支,通过建议的微沙漏单元 (HRUs),将多个分辨率的特征组合在一起,得到一个嵌套的沙漏网络,如图所 示。
Multi-Context Attention for Human Pose Estimation 基于多语境注意力机制的人体姿态估计
动画组
1
引言
为什么做
目 录
2 3 4
怎么做
总结
论文介绍:
论文提出了将具有多语境注意力机制的卷积神经网络结合到用于人体姿态估 计的端到端框架中。主要方法: 1、采用堆叠式沙漏网络,以多种分辨率和各种语义的特征产生注意力图。
2、利用条件随机场算法(CRF)对注意力图中相邻区域之间的相关性进行建模。
3、进一步结合整体注意力模型,构建全人体全局一致性;结合身体部位注意 力模型,对不同身体部位的详细描述。
4、设计了新的沙漏残差单元(HRUs)来增加网络的接收范围。
模型优点:我们的模型有能力关注从局部显著区域到全局语义一致空间的不 同粒度。
卷积神经网络、视觉注意力图和部分注意力图三者对于姿态估计的成效对比:
输入图像 整体注意力图 部分注意力图
部分位置热力图
可视化预测效果
(a)卷及神经网络对人体产生了错误的估计 (b)视觉注意力提供模拟人体各部位之间的空间关系,效果显著 (c)部分注意力图进一步优化部分位置,效果更为显著
2
构建Multi-context Attention模型(怎么做?)
粗到细的部分注意模型和可视化部分注意图标本
4
人体姿态估计新思路成效(结果)
结果
为了研究多上下文注意机制和沙漏残基的有效性,我们对MPII人体姿态数 据集的验证集[37]进行了消融实验。如果没有指定,我们使用8 - stack沙漏 网络[29]作为基准模型。整体结果如图8所示。基于基线网络(BL),我们分析 每一个建议的组成部分,即通过比较PCKh评分,将多语义注意力模型(MS)、沙 漏残差(HRUs)、多分辨率注意力模型(MR)和层次部分注意力模型(HP)进行比较。
1、整体注意力模型
堆叠沙漏网络是构建多情境的学习,具体方法: 在每一个沙漏的堆栈中,特征被汇集到一个非常低的分辨率,然后 被向上采样并结合高分辨率的特征。这种结构多次重复,以逐渐捕 获更多的全局表示。在每个沙漏堆栈中,我们首先从不同分辨率的
特征生成多分辨率注意力图。其次,为多个沙漏栈生成了注意力地
相关主题