当前位置:文档之家› 面向人机交互的三维人体姿态估计

面向人机交互的三维人体姿态估计


引言
基于人体姿态估计的人机交互技术一般由人体 检测和姿态估计两步组成。 人体检测的目的是判断视频图像中是否有人体 存在并定位人体所在的区域。姿态估计则要在 检测得到的人体区域上确定人体的各个部分的 状态以及关节的空间连接关系。
文献综述
运动人体的行为识别和理解是计算机视觉中的高层处理过程,同时 也是运动人体视频分析的终极目标。 人体运动的处理单元大致可分为三种级别:动作(movement)、活 动(activity)和行为(behavior)。其中,动作是人体运动中的基元,例 如跳跃和投掷都是运动的基本单元,很显然,动作识别不依核于序列 上下文或者运动相关的先验信息;活动是由一系列动作构成的运动 单元,例如篮球跳投由跳跃一伸展一投掷等一组动作构成,可以看出, 对活动的识别需考虑序列上下文的统计信息;行为则是尺度级别更高 的动作单元,涉及人与人或者人与环境之间的交互过程,例如篮球比 赛的盖帽有别于其他的起跳拦截,是因为它特指进攻球员投篮后防守 队员在空中将球打掉的动作,带有交互目的,因而行为识别需要融合 丰富的先验知识并对人体运动做有语义的辨识。
文献综述
单目视频的人体姿态估计是指仅使用单个设备捕捉人体运动视频, 并对其中的运动人体姿态进行估计。设人体姿态为x,视频图像观 测为Z,人体姿态估计算法即从z推理得到X。然而,这两者的处理 都存在难度:人体姿态x通常为高维空间,而图像观测z的计算也往 往带有偏差。 在单目情况下,由于观测维度太少,人体的遮挡和自遮挡问题突 出。虽然对人而言估计单目视频中的人体姿态轻而易举,对计算机 而言,z→x则是一个严重的问题。z→ X,从计算机视觉角度来看 是一个静态(Static)问题。
自组织映射算法
自组织映射算法是聚类分析中广泛使用的一种无监督学习的神经网 络算法。他通过自组织方式用大量的训练样本数据来调整网络的权 值。U矩阵是对自组织映射的可视化表示
数学概念介绍
高斯混合模型
高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化 事物,将一个事物分解为若干的基于高斯概率密度函数(正态分 布曲线)形成的模型。 高斯混合模型已经广泛应用于鲁棒的复杂场景背景建模,特别是 在有微小重复运动的场合,如摇动的树叶、灌木丛、旋转的风扇、 海面波涛、雨雪天气、光线反射等。基于像素的高斯混合模型对 多峰分布背景进行建模很有效,能适应背景的变化(如光线渐变), 并能基本满足实际应用中对算法的实时性要求
LOGO
C
l
i
c
k
t
o
a
d
d
y
o
u
r
t
e
x
t
Research on Human Pose Estimation for HCI Application
面向人机交互的三维人体姿态估计
Contents
1 2 3 4
引言 文献综述 单目三维姿态估计 实验讲解
5
6
数学概念介绍
世界最新研究成果
7
结论
引言
单目三维姿态估计
1)可将人体姿态全局空间划分为多个子空间, 每个类别对应一个子空间。类别内所有样 例均相似,故对应的子空间可通过高斯模 型表征,从而将复杂的高维非线性问题化 简为多个低维的线性问题.这种特性,使得 贝叶斯匹配成为可能. 2)可提高判别模型的识别速度。识别时,算 法可先对每个类别先行判断,进而判断类 中样例,有效降低匹配运算量
实验验证
数学概念介绍
贝叶斯网络
贝叶斯网络是一种概率网络。它是基于概率推理的图形化网络 ,而贝叶斯公式则是这个概率网络的基础。贝叶斯网络是基于概 率推理的数学模型,所谓概率推理就是通过一些变量的信息来获 取其他的概率信息的过程,基于概率推理的贝叶斯网络是为了解 决不定性和不完整性问题而提出来的,它对于解决复杂设备不确 定性和关联性引起的鼓掌有很大的优势,在多个领域中获得广泛 的应用
LOGO
ቤተ መጻሕፍቲ ባይዱ
文献综述
目前用到最多的也是无重建的行为识别技术。作为一种人体 运动分析技术,无重建的行为识别技术面临两方面的问题:观测和 状态的表达以及从观测变量到状态变量的推理模型.相对于运动 人体检测和姿态估计,人体行为识别除了需要利用静态图像特征, 还必须充分使用各种人体行为内在固有的动态运动特征,因而算 法多着重空间和时域信息的表达与融合。
单目三维姿态估计
判别模型和生成模型是统计学习模型的两种类别。判别模型是一 类有监督的学习方法,需要训练数据集中的状态值x有对应的观 侧值z;而生成模型则是无监督的,只需给一定数量的状态值x即 可用于模型训练。 判别模型的使用困难在于数据往往不够充分,尤其在观测具有噪 声时更加难以处理。相反的,生成模型的训练只需状态数据来估 计模型参数或采样,数据准备工作简单,一旦模型与所估问题匹 配,能够准确表述所有状态。生成模型由于很难获得描述问题的 准确模型,尤其是在高维空间内,参数估计或采样都是难以驾驭 的问题。
单目三维姿态估计
算法共由三部分组成: 1)判别式的人体部位三维姿态估计; 2)人体运动学约束的整体三维姿态合成: 3)生成式的整体三维姿态优化。
单目三维姿态估计
在第一阶段的判别式人体部位姿态估计中,这里采用的 是贝叶斯匹配法。将训练数据按照人体部位姿态聚类, 并对每一类别建立图像特征与人体姿态的对应。对于新 的观测,通过贝叶斯匹配法识别当前人体部位的姿态所 属类别。在第二阶段的整体姿态合成中,这里使用人体 运动的内在约束,通过人体运动学公式对三维姿态进行 合成。在第三阶段的生成式整体三维姿态优化中,这里 在人体姿态局部空间上建立高斯模型,并通过基于贝叶 斯EM算法求解最优姿态。
矢量量化
矢量量化是将若干个标量数据组构成一个矢量,然后在矢量空间 给以整体量化,从而压缩了数据而不缺失多少信息。基于其优良的 率失真特性,已经广泛的应用在信号和图像处理领域,例如模式识 别,语音和图像压缩编码
数学概念介绍
聚类算法
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种 统计分析方法。聚类分析是由若干模式组成的,通常,模式是一 个度量的向量,或者是多维空间中的一个点。聚类分析以相似性 为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间 具有更多的相似性
最新研究成果
美国康奈尔大学个人机器人实验室开发出一款机器人,能学习预测人类行为, 以便进一步在人类需要时伸出援助之手——更准确地说,是滚过来伸出援助之爪 。 这款新机器人用一个微软Kinect3D 摄像机和一个3D 视频数据库,紧密跟随盯 着“主人”,能识别出它所看到的行为,“思考”该环境中各种目标物的可能用 途是什么,并确定那些用途怎样才能与主人的行为相匹配。然后,它会生成一系 列的可能性——比如吃东西、喝饮料、做清洁、收拾物品等——最后选择最有可 能的一项。随着行为的持续,机器人也在不断更新和改善它的预测。 “我们总结提炼了人类行为的一般规则。”康奈尔大学计算机科学教授阿苏托 什· 塞克森纳解释说,“喝咖啡是一项‘大活动’,但它包含了许多小部分。” 机器人为这些小部分建立了一个“词汇表”,能将它们以不同方式组合在一起, 从而识别出多种“大活动”。 在测试中,当机器人预测未来1 秒钟要发生的事时,准确率达到82%;预测3 秒钟的事准确率为71%;而预测未来10 秒的准确率为57%。 “即使人类是可预测的,他们也只能预测一部分时间。”塞克森纳说,目前他 们的机器人几乎还是硬编码反应,但应该有一种机器人学习怎样反应的方式。未 来将会解决机器人怎样计划自己行为的问题。
文献综述
当处理对象为视频序列时,时域信息的引入将问题转变为动态过程。 时域信息的用法有多种: l)通过训练动态模型获得时域特征,加强估计模型; 2)通过简单的一阶或二阶时域低通滤波,使估计模型在时域平滑; 3)通过前帧模型估计作为初始条件,加速当前帧估计模型的速度。
单目三维姿态估计
在混合模型里使用人体姿态估计的层次结 构:先将整体姿态划分为几个部位姿态,化 繁为简,经过判别模型估计各部位的三维 姿态;将部位姿态合成为整体姿态,由简 入繁;最后通过生成模型优化三维姿态的 估计。
文献综述
文献综述
在图1展示的人机交互技术关系图中,视觉分析既是人类信息处理 模块(H1)的重要工具,也是机器输入设备模块(Cl)所需的必要技术。 面向交互的视觉技术主要包括生物特征识别、唇读、视线跟踪、人 脸表情识别、手势识别与合成、人体行为理解;涉及视觉技术的设 备则有数码相机、摄像头、监控摄像机、网络摄像机、红外摄像机 和摄像机网络等。 在智能交互环境下,人通过非语言方式(包括手势、姿态、注视、 表情等)同机器交流,达到人机交互自然和谐。总而言之,面向智能 交互的人体运动视频分析必须同时具备模型准确、鲁棒、实时以及 自动初始化四个要素,方能成为实用的智能交互核心技术。
最新研究成果
单目视频的三维人体姿态估计是计算机视觉研究中最具挑战性课 题之一。随着家用视预捕捉设备的普及,基于单目视频三维人体姿 态估计的人机交互系统引起了学术界和工业界的广泛关注。目前脑 神经科学、计算机视觉、机器学习以及人机交互等领域发展迅速, 单目视频的三维人体姿态估计研究及其在人机交互中的应用也面临 着新的发展机遇。
人机交互领域的研究者将计算机视觉领域的研 究成果视为多模态人机交互技术的突破口之一; 而计算机视觉领域的研究者则一直将人机交互 作为一个重要应用背景。利用计算机视觉技术 进行人机交互具有广阔的应用前景,并且取得了 一定的进展。但由于图像质量和硬件的计算能 力、存储资源等限制,基于视觉技术的人机交互 技术的普及还面临诸多困难。
最新研究成果
针对人体姿态估计,介绍了判别模型和生成模型相结合的三维人 体姿态估计数学模型。通过判别模型确定目标姿态的子空间,进而 通过生成模型求解目标姿态,充分发挥了判别式模型和生成式模型 各自的优势。通过使用该判别一生成混合模型。在判别模型中,采 用基于样例聚类的贝叶斯匹配法则,有效定位问题的局部空间。同 时,提出了使用贝叶斯期望一最大化(EM)算法进行局部空间上三维 人体姿态最优化。该算法通过多次迭代可有效的精细化姿态估计, 提高最终所得三维人体姿态的准确度。并且,通过实验,介绍了这 样一个面向人机交互的三维人体姿态估计的实际的实验,让大家更 加清楚明白。
相关主题