当前位置：文档之家› 自然的人体动作识别

自然的人体动作识别

自然的人体动作识别黄飞跃徐光祐清华大学计算机科学与技术系，普适计算教育部重点实验室，北京，100084

摘要：人体动作识别是计算机视觉的一个重要研究课题。目前大多数动作识别的研究都假设是在特定受限的场景下，即特定的视角、位置、对象、背景和光照条件下工作。其中，尤以要求特定的视角和位置对实际应用的限制最为严重。本文致力于研究能处理视角和位置变化并可用于非特定对象的人体动作识别方法。我们把它称为自然的人体动作识别方法。为此我们提出了"包容形状"的人体表示，这种表示不受视角、位置的变化影响，充分利用了两个正交摄像机拍摄的轮廓信息以去除由人的身体旋转引起的影响。利用包容形状，我们取得了非特定人、任意视角下的自然人体动作识别较好的实验结果。同时我们也介绍了该识别方法在实际智能家居——老人看护系统中的应用。关键词：自然动作识别；包容形状

1．引言

人体动作识别是计算机视觉里一个活跃的研究方向，有不少综述，力图把以前的相关研究方法进行总结和分类，比如[1], [2], [3], [4]。至今为止，关于动作识别的大多数研究工作都是在特定受限的场景下展开，比如特定的视角、动作人、背景和光照。在这之中，尤以视角和位置的限制最为突出。我们认为要实现自然场景下的动作识别，就必须消除应用条件中的这些限制。为此，我们在这篇论文中，重点研究了动作识别中与视角和位置无关的体态表示，以实现非特定人、任意视角下的自然人体动作识别。现阶段已经开展了不少视角无关的动作识别研究工作，比如Cen Rao [5]，Vasu Parameswaran[6]。但是还有很多问题亟待解决，大多数的方法依赖鲁棒的语义特征点检测或者是点对应，而这些是比较难实现的。在本文中，我们提出使用了一种“包容形状”的体态表示。在仿射摄像机投影模型的假设下，这种表示对于视角和位置的变化具有不敏感性，同时不需要依靠任何较难提取并且对误差很敏感的语义点检测和点对应。利用这种表示，我们开发了自己的动作识别系统并且把它部署到实际应用：智能家居—老人看护系统中。实验结果表明我们的系统对于非特定人、任意视角和位置下的自然动作有着很理想的识别能力。

资助项目：国家自然科学基金资助项目（60673189，60433030）联系作者：黄飞跃， Email：hfy01@mails.tsinghua.edu.cn

370 2．自然的动作识别在人体动作识别中，人体姿态(简称为体态)表示一直是基本而关键的问题。自然的人体动作识别要求体态表示具有良好的视角和位置不变特性。视角和位置的变换可以分成两个部分，平移和旋转。在动作识别中，大多数体态表示都已经有了平移不变特性，所以我们只需要考虑旋转不变量。旋转量可以拆分为绕着三个垂直方向轴旋转的分量。通常，对人体动作而言，如果只有绕着竖直方向轴旋转分量(称之为偏转)的话，我们把会这些体态归为同一个分类中；而如果还存在另外两种旋转分量的话，我们会把它们归为不同的分类中。例如，一个人直立站着和躺在地面上，这时候存在其余两种方向的旋转分量，那我们会把它们看成是两种不同的体态。当一个人仅仅是站立着把他的身体旋转到另一个朝向的话，我们可以认为他的体态还是同一种的。所以，在大多数动作识别中，我们只需要考虑视角绕着竖直方向轴旋转情况下(称之为偏转)的不变量。 2.1 “包容形状”的表示为了获得视角绕着竖直方向轴旋转情况下的不变量表示，我们采用了如图1的双摄像机配置方案。这两个摄像机的成像平面都和竖直轴Y平行，它们的光轴是正交的。在人体动作识别的实际应用场景之中，由于人体的深度变化相对于人体到摄像机的距离通常很小，我们可以采用仿射摄像机模型。现考虑人体的一个水平截面，在这个截面上的所有点到像平面1上的投影都在直线l上，而在这个截面上的所有点到像平面2上的投影都在直线l’上。直线l是点p’的外极线，而直线l’则是点p的外极线。为了发掘人体仅做偏转时的不变量，我们只需要分析人体二维水平截面在旋转时的变化即可。

如图2，假设有一个二维截面 “S”，它在原始的二维坐标系UV中的投影线段是AB和BC，那么“S”在矩形ABCD里面。在另外一个旋转了某个角度θ的坐标系U’V’

图1 双摄像机配置方案图2 二维水平截面旋转分析

371 中，它的投影在线段EF和FG中。这里，我们定义原始投影线段的长度为x和y，而新的投影线段的长度则是x’和y’。我们可以得到如下的关系式：

θθsincos'yxx+≤ θθsincos'xyy+≤

公式 (1)

让我们来定义“r”： 22yxr+=

. 公式 (2)

那么 rxyyxxyyxyxr222sin2''222222'≤++≤++≤+=θ 公式 (3)

取 r0 是所有旋转对应的各个“r”中的最小值，那么在任何的旋转下，相应的“r”值都会满足如下取值区间：

002rrr≤≤ 公式 (4)

和原始投影值x’ 与x或者 y’ 与 y的无限的比值范围区间相比较，这是一个相当小的取值区间，也就是说我们找到了一种视角不敏感的人体表示。对于每一个水平截平面，我们利用公式（2）来计算一个“r”值。这样，对于每一帧静态的人体体态，我们可以得到一个“r” 值的向量。由于r比轮廓投影x和y值都大，可以看成这个向量把人体的轮廓包围在内部，我们把这个“r”值向量称作为“包容形状”（“Envelop Shape”）。我们给出一些在不同视角下合成人体模型的包容形状图。如图3是两种体态围绕着竖直轴旋转了八个不同角度时的情况。每种体态前两行是两个正交摄像机拍摄的轮廓图像，而第三行则是包容形状图。从图中，我们可以看到在视角变化时，包容形状的变化很小。

图3 不同视角下和包容形状虽然我们提出这两个摄像机的摆放按照图1，需要保证成像平面和竖直轴平行同时光轴正交。但是，实际上并不需要严格的摄像机标定。摄像机的摆放大致满足要求即可。正如我们前面提出的，这种表示仅仅是视角不敏感，它的取值是被限制在一个较小的范围内变化。我们将在下一节中展示我们的实验。我们的视频数据都是利用两个大致摆放

372 未严格校准的摄像机采集的，而我们可以看到实验结果依然非常理想。 2.2 动作识别系统流程利用这种“包容形状”的表示，我们设计了一个自然动作识别系统。图4表示了系统的流程图。我们首先采用“PFinder”算法来提取人体外轮廓[7]。然后，由两个摄像机对应的轮廓序列作为原始输入，根据公式（2），我们为每一帧生成了相应的“包容形状”r向量。然后利用主分量分析（PCA）对r向量降维到10维向量。对于每一个视频段，经过如上的预处理和体态表示模块，我们可以得到对应的时序特征向量序列，然后再采用连续隐马尔可夫模型来进行动作的训练和识别。

图4 动作识别系统流程图 3．实验、应用和总结为了证明本文所述识别方法的可行性，我们做了一些识别实验。采集了七个不同动作者的动作，动作包括：走路、举手、拿东西、挥手、指向。动作者在三个任意朝向和位置时重复每个动作三遍。我们取五个动作者的数据作为训练集，另两个动作者的数据作为测试集，结果参见表1。可以看出我们很好的实现了任意位置下的非特定人动作识别。图5是一个实验数据示例，前两行是两个摄像机的原始图像，接下来的两行是利用“PFinder”方法提取得到的人体轮廓，最后一行则是正规化以后的“包容形状”向量生成的图像。（每一个实际的动作包含约30帧图像，这里只显示了动作序列的部分采样。）

图5 “走路”动作序列示例 373 由于本文中介绍的自然动作识别方法应用和部署简单，只需添加一对近似垂直的摄像机即可，因此可以应用于各种需要识别自然动作的系统中。目前，我们正在尝试把它添加和应用于原有的智能家居—老人看护系统中。该系统利用视频上下文信息，通过基于视频的人体动作识别为基础来提供在智能家居中的隐含监控。该系统可以自动判断和描述各种事件，然后利用先验情景模型，结合上下文信息进行融合，以达到在智能家居中对于老人的安全进行辅助的功能。智能家居—老人看护系统的布景如图6，实验场景实际示例参见图7。其中2号摄像机和3号摄像机照图1所示双摄像机配置方案部署摆放，用以获取包容形状数据。这样我们就可以用这种方法来识别老人看护系统中常见待识别的行为，例如：走路、挥手、摔倒、弯腰、躺倒、坐着、喝水等等。

表１：非特定人动作识别实验识别率集合走路举手拿东西挥手指向训练集 100% 100% 95.6% 95.6% 97.8% 测试集 94.4% 100% 94.4% 88.9% 100% 总的来说，通过“包容形状”的体态表示，我们实现了不受观察视角、动作者位置限制的自然的非特定人动作识别。实验表明，这种识别方法具有较好的识别率和容忍度。这种自然的动作识别方法具有很好的实用性。我们也介绍了在实际应用：智能家居——老人看护系统中的部署。当然在实际应用系统中还存在一些待解决的问题，其中包括遮挡问题、动作的自动分割等等，这些都是我们在下一步研究工作中需要完成的。

参考文献 [1] C. Cedras, M. Shah, Motion-based recognition: a survey, Image and Vision Computing, 13(2) (1995) 129-155. [2] J.K. Aggarwal, Q. Cai, Human motion analysis: a review, Computer Vision and Image Understanding, 73

图6 智能家居系统布景图7 智能家居实验示例图

374

e商务文档

自然的人体动作识别

相关文档推荐：