当前位置：文档之家› 基于手势识别的人机交互综述

基于手势识别的人机交互综述

基于手势识别的人机交互综述摘要：近年来，得益于虚拟现实、人机界面技术、计算机视觉等领域的发展，基于手势识别的人机交互技术得到大力的推动。

本文就基于手势识别的人机交互技术展开综述。

首先概括手势交互的涉及领域，回顾其发展史和国内外研究现状。

接着阐明它的基本界定和分类，并在此基础上分析其热点关键技术。

然后实例讨论了几种类型手势交互的典型应用。

最后给出了结论。

关键词：虚拟现实；手势交互；计算机视觉；手势识别；特征跟踪1．引言人机交互技术通过输入、输出设备，以有效的方式实现交互主体与交互客体的对话。

当前的人机交互技术已经从过去交互主体适应交互客体，发展为交互客体不断地适应交互主体的习惯和以交互主体为中心的新阶段[1,2,3,4]。

以用户为中心的，新型、自然的人机交互技术逐渐成为开发者和科研工作者的关注重点。

这类交互方式要求输入与输出能够最大限度地符合交互主体的行为习惯，并能够在交互主体的脑中顺利构建交互环路。

由于手势具有极强的信息表述功能，加之人手操作行为本身就是人与世界相互作用的主要方式，因此，基于手识别的人机交互技术相关研究有着重要的理论价值和应用价值。

基于手势识别的人机交互技术涉及计算机科学、认知心理学、行为学等诸多方面的知识。

本文不能面面俱到，仅就手势交互的基本问题：手势语义的分类，以及当前发展概况、研究热点技术和典型系统应用等相关问题进行综述。

2．研究现状目前，基于视觉的手势交互已被广泛的研究，由于手势本身的多义性及时空差异性，加之手形变的高维度及视觉问题本身的不适定性，基于视觉的手势识别一直是一项极富挑战性的究课题[5]。

需要解决的核心问题是对手形的识别，对手势的跟踪等。

传统的方法主要分为两大类：（1）基于模型（model-base）的方法；（2）基于表征(appearance-based)的方法[6]。

这些方法及其衍生算法极大程度地依赖于计算机科学中虚拟现实、机器视觉、模式识别、人机交互等多个领域的交流与合作。

相关的国际会议：CHI、ICCV、CVPR、ICAT、IEEE VR 为研究者提供了一个能充分交流的空间，并吸引了越来越多的研究人员共同参与合作。

此外，学科之间的交流也吸引了心理学研究人员的共同参与。

他们以从用户为中心出发，为基于手势交互研究和开发提出了宝贵意见[7]。

纵观手势交互的发展历程，其研究重点也从早期简单的系统框架、低层特征提取[8]、手形模板匹配[8]等问题转变到关节式物体跟踪[9,10, 11]、跟踪性能评价[12]、操作型手势解析[14]等问题上。

我国在基于手势识别的人机交互领域的研究近年来得到了长足的发展。

研究机构集中在国内的研究所和高校的科研单位。

目前国内手势交互的研究成果主要有：中国科学院软件研究所[15]的研究中，对二阶自回归过程动力学模型（Auto-Regressive Process, ARP）进行训练和学习，进而建立基于ARP 的预测模型，实现了人手运动的鲁棒性跟踪，在出现跟踪丢失的情况下在后续序列中可以自动恢复正确跟踪。

中国科学院自动化研究所模式识别实验室提出一种基于区域的多连接体(手指)的三维运动跟踪算法[13]，用多约束融合的方法以及手指的运动特性，建立多刚体的三维运动描述，通过三类基本约束条件，把跟踪问题归结为一个约束误差优化问题。

清华大学的崔锦实博士，提出一种基于回归－优化方法的关节式物体的姿态估计方法[16]。

该方法把回归分析与全局优化搜索相结合，保证了估计的精度和连续性；针对现有滤波器在高维非线性多峰跟踪问题上的困难，将粒子滤波器与全局搜索算法的演化粒子滤波器方法相结合，提高了高维跟踪的精确度。

其他高校与科研单位也做出了不少优秀的工作与关键的贡献。

3. 关键技术首先区分手势识别中的两个重要概念：手形(hand posture)与手势(hand gesture)[17]。

手形，是以手的一个特定姿势表示一个语义。

而狭义的手势，则是以手在时间轴上的连续位置构成的轨迹代表一个语义。

简单来说，我们可以理解手势为一段时间轴上连续的手形。

有的研究者也使用广义的手势涵盖这两个概念，即静态手势和动态手势，在这种理解下，手形也是一种特殊的手势。

对静态的手形进行识别，与对连续的手势进行跟踪，是手势识别中的关键问题。

3.1 手势交互的分类对手势的交互语义进行分类和界定，是手势交互的重要问题，是深入手势交互研究的基础工作，界定工作涉及人机界面、行为学、认知心理学等多个领域。

对于手势交互语义的分类，Pavlocvic.等人发表在1997 年PAMI 的文献[18]有着指导意义。

他们从行为学角度出发，将手的动作分为两类：无意识动作与手势；进而从认知心理学的角度，对实际生活中包含交互语义的手势再进行细分。

首先，将手势分为通信型手势与操作型手势。

通信型手势如手语，是一种天生的交互工具，具有强大的信息表述功能，借用到人机交互领域的此类手势交互正被广泛地研究。

而操作型手势，如在真实环境中对物体的操作，则作为人的一种自然行为，并不专为人机交互的应用而生，然而随着以用户为中心的人机交互研究的进一步深入，这类更贴近自然行为的交互方式具有深远的理论与应用价值，在虚拟现实和增强现实中具有极高的应用潜力。

接着，通信型手势又被分为符号与动作。

符号表示事先约定的语义，进一步被分类为指代型符号和模式型符号，指代型符号如“V 手形”字表示胜利，“W 手形”表示OK 等，通常是一种静态手势；模式型符号，如耸肩，摊手，挥手等，常用来表示某种情绪。

动作则通过连续的手形表达语义，包括模仿型动作和指示型动作，模仿型动作如手握方向盘驾驶的交互操作；指示型动作如手指指示方向等交互操作等。

具体分类方法见图1。

纵观整个问题领域，我们发现针对通信型手势的研究，发展地比较成熟。

其原因在于，一方面通信型手势天然的信息表达与交互优势，另一方面也在于这类方法实现起来的相对简单。

而操作型手势作为更加自然的手势交互模式，由于涉及到的识别问题与跟踪问题更加复杂，所以发展相对滞后。

目前尚处于亟待开发的状态。

3.2 手形的识别对手形的识别，基于表征的方法分为两个层次：（1）图像特征的提取，（2）语义特征的提取。

基于模型的方法则通过搜索匹配模型，获得手形的语义。

3.2.1 基于表征的方法基于表征的方法直接从观察到的图像推算出手势，需要计算的参数包括图像的几何信息、手掌和手指的位置信息、轮廓边界信息等。

目前来看，较之基于模型的方法，此类方法缺乏通用性，但优点在于速度快，能够满足实时应用的需求，具有较强的实用性。

这类问题主要涉及图像处理的系列操作，属于对手势低层次特征的提取。

在低层次特征被提取之后，可以由此分析得到包含手形语义的高层次信息，从而实现手形识别。

与手势识别相关的图像处理算法中，实时目标分割算法主要有肤色检测和背景减法（BGS）。

肤色检测算法优点是速度快，在运动摄像机的情况下也可以分割出人手前景，缺点是易受环境影响，应用领域单一。

操作型手势交互并不排除手持简单物体（小棒，笔等）对虚拟目标进行交互，在此情况下肤色检测方法失效。

BGS 算法不存在对目标颜色的限制，但计算量相对于肤色检测明显增大，并且尚未研究出运动视点下实时分割的优质结果。

手形的自然变化具有高维度的特征，加之手指间存在无法预测的遮挡，使得手特征提取以及基于特征提取的手细节结构的实时重建非常困难。

[19,20]将动态的手细节忽略，将之视为一个整体进行交互。

然而，在精细的交互应用中必须区分手的细节。

这就对基于手势识别的人机交互提出两个挑战：（1）如何有效提取细节特征；（2）如何有效获得交互信息。

提取细节特征时，传统研究认为，指尖点[21]、边界[22]和轮廓[23]是几种有效的基本信息。

基于表征的特征提取后，获取高层语义的方法可分为两类：（1）直接重建三维人手结构[21]；（2）匹配手形模板[24]。

第一类方法常结合多视几何的技术实现；而第二类方法则常用独立主元分析（PCA）的方法实现。

3.2.2 基于模型的方法基于模型的方法需要比较三维模型与当前图像来获得手的状态，然后对手和手臂的运动和姿势建模，最后通过它们模型的参数如关节角度、手掌位置等来推算手形。

这种方法计算输入手形与模板手形的距离，寻找最优的匹配结果[8]。

虽然精确度高、效果好，但由于手的形态变化维度极高，所以这是一个高维搜索的问题，目前来看计算代价过大，尚不能达到实时要求[25,26,27]，应用范围受到一定局限。

因此，各种手戴标记被广泛应用。

[14]使用打印了特定图案的棉质手套的实时投影图案，重建三维人手模型，取得了实时的结果，可用来进行操作型手势交互的应用。

3.3 手势的跟踪3.3.1 基于表征的特征跟踪实时鲁棒的跟踪到无标记的人手自然位置，可以用来协助手势识别并通过手的运动轨迹获得模仿型动作，从而实现使用模仿动作的通信型手势交互。

对图像特征的跟踪是机器视觉领域的传统问题，已发展的相对成熟。

然而随着手势交互领域相关应用的发展，对特征跟踪又提出了新的需求。

由于刚体的跟踪已经有了比较稳定的算法[28,29]，而手是一个高度灵活的非刚体物体，所以一般的特征匹配与跟踪算法无法达到较高的成功率。

[30]总结了人机交互系统中，手势跟踪算法应满足的三个要求：（1）实时性好，避免高维度特征矢量的计算和复杂的搜索过程。

（2）足够的鲁棒性，不受跟踪对象旋转、平移和比例改变以及摄像头视角改变的影响。

（3）跟踪的连续性和自动初始化，能够在跟踪失败后自动恢复跟踪，尽量减少人为干预。

鉴于手自身的高度灵活性，跟踪背景的复杂性，以及相机运动的不确定性，如果直接使用基于普通的肤色查找表的算法，背景减法，或自适应背景模型[31]等算法，不能满足应用的鲁棒性需求。

[32]提出了多线索特征流的概念，通过跟踪一系列特征点来对人手自然的整体进行定位。

但是[32]使用头戴，假设手与摄像设备距离相对固定，并且假设背景中没有较大肤色物体，而这对于一般面向用户的交互应用并不具有适用性。

[20]基于多线索特征流的思想，结合速度模型与贝叶斯肤色模型，采用基于速度权值的特征点流与肤色模型多模式的方法。

对于手的跟踪，可以满足上述的三个要求。

3.3.2 关节式物体跟踪作为蒙特卡罗( Monte Carlo)方法的一种实现形式，粒子滤波方法已经成为处理非高斯、非线性问题的有力工具而在关节式物体的跟踪领域得到了广泛的关注。

但是，粒子滤波方法需要大量样本来表示后验分布，对于以高维为特征的关节式物体来说，即使采用10 维变量，每个变量取20 个离散值，也至少需要320,000,000 个样本才能较好地表示后验分布的典型集[33]，这使得实时性跟踪变得遥不可及。

因此，很多研究者对如何降低状态空间的维数行了比较广泛的研究，除了利用人手的动态约束条件和静态约束条件所决定的变量之间的关联性和变量的变化范围，从而在一定程度上降低状态维数之外，人们采用了多种方法研究高维状态的处理方法。

e商务文档

基于手势识别的人机交互综述

相关文档推荐：