当前位置:文档之家› 回顾:人机交互中的手势的可视化解释

回顾:人机交互中的手势的可视化解释

本科毕业设计(论文)外文参考文献译文及原文学院机电工程学院专业数字媒体技术年级班别2008级(1)班学号3109000746学生姓名李林钢指导教师冯开平2013年6 月目录译文:回顾:人机交互的手势的可视化解释 (1)1 引言 (1)2手势建模 (3)2.1定义手势 (3)2.2手势分类 (5)2.3 手势的暂时性模型 (5)2.4空间建模手势 (6)3手势分析 (7)原文: Visual Interpretation of Hand Gestures for Human-Computer Interaction:A Review(见同名文献) .................................................. 错误!未定义书签。

1 INTRODUCTION .......................................................................... 错误!未定义书签。

2 GESTURE MODELING ................................................................ 错误!未定义书签。

2.1 Definition of Gestures .......................................................... 错误!未定义书签。

2.2 Gestural Taxonomy ............................................................... 错误!未定义书签。

2.3 Temporal Modeling of Gestures ........................................... 错误!未定义书签。

2.4 Spatial Modeling of Gestures ............................................... 错误!未定义书签。

3 GESTURE ANAL YSIS ..................................................................................... 错误!未定义书签。

译文:回顾:人机交互的手势的可视化解释1 引言随着计算机在社会的大量涌入,人机交互(HCI),已经成为我们日常生活中越来越重要的一部分。

人们普遍认为,计算,通信和显示技术的进步,甚至进一步,现有的人机交互技术可能会成为可用信息流的有效利用率的一个瓶颈。

例如,最流行的人机交互模式是基于简单的机械装置的键盘和鼠标。

这些设备已发展到很家喻户晓,但它有固有的限制,就是在我们跟计算机进行交互的速度和自然性方面。

随着新的显示技术的出现,例如虚拟现实[2] ,[78],[41],此限制已变得更加明显。

因此,近年来向新颖的设备和技术发展的研究已经有了一个巨大的推动,这将解决这个人机交互的瓶颈。

一个长期一直在人机交互的尝试就是要迁移到“自然”,也就是指人类借助人机交互与对方沟通。

有了这个动机,自动语音识别一直都保持着几十年来的研究课题的地位。

语音识别已经取得了巨大的进步,几个成功商业化的演讲接口的已经部署[75]。

然而,只是在最近几年来才增加了将人和人的交流方式引入人机交互中,这包括了以人的手臂,或手的运动为基础的一类技术。

人类的手势是人与人之间的非言语互动的一种手段。

它们的范围从简单的行动,用我们的手来指向和移动对象到更复杂的表达我们的感情,从而能够让我们与他人进行沟通。

为了在人机交互中利用手势,有必要提供方法,使手势可以被计算机解释。

手势的人机交互解释要求的人的手,手臂的动态和/或静态的配置,甚至是对人体的其他部分时,是可被机器所测量的。

第一次尝试来解决这个问题的时候引出了机械装置用来直接测量的手和/或手臂的关节角度和空间位置。

所谓的手套的是这一组设备表现力最好的[9],[32],[88],[70],[101]。

手套基于手势界面,要求用户穿戴笨重的装置,一般通过电缆将设备连接到一台计算机。

这阻碍了与该用户可以与计算机控制的环境中进行交互的易用性和自然性。

即使使用这种特定的设备可能是合理的一个高度专业化的应用领域,例如在一个虚拟现实环境中模拟手术,“日常”的用户肯定会对这样繁琐的接口工具望而却步。

这催生了活跃的研究朝着更“自然”的人机交互技术。

潜在的,任何的笨拙地使用手套和其他设备是可以克服的,也就是使用以视频为主的非接触式交互技术。

此方法建议使用一组的视频摄像机和计算机视觉技术用来解释手势。

在这方面所产生的基于视觉的接口的无阻碍性导致了在最近的活动的一个新突破。

在计算机视觉技术的最新进展中,可能促成这种兴趣不断增加的其他因素,包括快速计算的实现,使得实时视觉处理是可行的。

很多方法已被应用到人机交互手势的视觉解释的问题,如将在以下各节中看到。

许多这些方法已被选用和实施,使他们专注于一个特定方面的手势,比如,专人跟踪,手的姿势估计,或手的姿态分类。

在一些特定的应用程序,如用手指作为指针来控制电视,或美国手语解释的背景下,已经开展了许多研究。

直到最近,大多数基于视觉的手势人机交互工作一直侧重于静态手势或姿势识别。

多种型号,其中大部分直接取自一般物体识别方法,已被用于这一目的。

手的图片,几何矩,轮廓,剪影,3D手骨架模型是几个例子。

然而,在最近一年中,才产生了结合手势的动态特性的兴趣。

其基本原理是动态手势动作和手的运动传递尽可能多的意义,他们的手势一样。

已经提出了许多方法,包括从全局手动分析,独立的指尖运动分析,手势分析。

基于视觉的手势分析的推动下,需要开发更自然,高效的人机接口,有关的各种研究也因此获得了快速增长。

这些研究报告分布在不同的文献中,但是有时候他们的研究角度和阐述会产生一定程度的混乱。

因此,有越来越多的需要去调查最先进的基于视觉的手势识别,和去系统分析基于视觉的手势的人机界面的进展。

本文试图汇集在它作用的不同的人机交互背景下,视觉手势解释的最新进展。

我们以对手势识别系统的通常看法为基础,将后面的讨论分成了以下的几个部分,开展了调查:•手势建模(第2节)•手势分析(第3节)•手势识别(第4节)•基于手势的系统和应用程序(第5)识别任务(在一个研究中或清晰或隐约被考虑到)的第一阶段是选择一个模型的手势的数学模型可以同时考虑空间和时间特性的手和手势。

我们致力于手势建模问题深入讨论。

用于建模的方法,解释手势的性质和证明性能起着举足轻重的作用。

一旦决定了模型之后,分析阶段从单个或多个视频输入流中提取图像的特征,作为计算模型的参数。

这些参数构成手部姿势或轨迹,取决于所使用的建模方法的一些描述。

参与分析的重要问题是手势定位,专人跟踪,以及选择合适的图像特征。

我们在第3节中讨论这些和其他问题的姿态分析。

其次是手势识别模型参数的计算。

在这里,会有参数的分类和解释公共的模型,也许是一些语法规则约束。

语法可以反映的不仅仅是内部语法的手势命令,但也可能与其他通信模式,如讲话,目光,表情手势的互动。

评价中的一个特定的手势识别方法包括精确度,健壮性和速度,以及不同类别的手/手臂的动作,它涵盖变化的数量。

我们调查了在第4节的各种手势识别方法。

做手势识别的研究报告的一个主要动机就是去研究各种应用程序使用手势的可能性,旨在在人和各种计算机控制的监视器之间的一个自然的互动。

其中的一些应用已被用来作为定义手势识别的基础,因此可以有目的地,制定相关的计算机视觉问题。

在第5章中,我们将调查一些报告,以及其他潜在的可视化解译手势的应用虽然在手势识别中的目前的进展是令人鼓舞的,需要进一步的理论和计算的进步手势之前,可广泛用于人机交互。

我们讨论一些手势识别,包括在第6章提及的人机交互模式的整合与研究方向,以及第7章的结束语。

2手势建模为了系统地讨论本文提及的手势解释,重要的是要首先考虑的是什么类型的手势。

事实上,一个手势的人机交互界面的范围,直接关系到适当的手势建模。

如何模拟手势主要取决于预期的应用程序内的人机交互上下文。

对于一个给定的应用程序,非常粗糙和简单的模型,就足够了。

然而,如果目标是一个类似天然的交互则必须建立一个模型,它允许许多不是自然的手势来解释计算机。

以下讨论将围绕解决人机交互的手势建模的问题而展开。

2.1定义手势人机交互框架之外,手势不能很容易地定义。

如果它们存在,特别是关于对人的手和身体动作的通信方式。

在韦伯斯特的词典中,手势定义为“....的四肢或身体作为表达的手段的一种运用,即一个通常表达或强调一个想法,情绪,或态度的身体或四肢的运动”。

心理和社会的研究往往以缩小这种宽泛的定义,主要讨论人的表达和社会互动。

然而,在人机交互领域的手势的概念是有所不同的。

在一台电脑控制的环境中,要求使用的人的手来执行任务,模仿手的自然使用作为一个操作者,或使用在人机交流中(通过手势对计算机/机器功能的控制)。

以前定义手势,在另一方面,是很少的,如果有的话,关注同前所述使用人的手(所谓实用的手势[48])。

手势是一种通信手段,类似于口语。

对于生产和感知手势,可以因此使用常见的在口语语言识别领域的一个模型来描述[85],[100]。

该模型的解释,适用于手势。

根据该模型,手势起源于一个进行手势的人的心理概念,可能是在配合讲话。

手臂和手的运动,就像通过人的声道的气流变化——讲话一样,起到了表达的作用。

此外,观察者发现手势实际上是一种用来用已有知识解释事物的虚拟手势图像的流。

手势的生产和感知的模型也可以归纳成以下表格:H = T hg G (1)V = T vh H (2)V = T vh(ThgG) = T vg G (3)变换T.可以被看作是不同的模型:Thg是手或手臂的运动给定的手势G的一个模型,Tvh是一个可视化的图像的手或手臂动作的模型H,Tvg描述的是在给定手势G的条件下,视觉图像V的是如何形成的。

这些模型是参数化的,参数属于其各自的参数空间07。

根据这种记法,可以说,用视觉解释手势的目的是使用一个合适的手势模型,从可视的图像V去反推断手势,使用一个合适的模型T vg,或在视觉手势解释的背景下,在考虑下面的定义中它可能是有用的:每次手势的实现就可以被看作是一个模型参数空间中的轨迹。

例如,在执行一个手势的过程中,人的手的位置在3D空间中描述了一种在这样的空间中的轨迹图。

手势定义的随机属性的肯定他们的自然风貌:相同的手势不存在两个不同的表现,这将导致同样的手和手臂的运动或同样的的视觉图像。

时间间隔的呈现,暗示了姿态的动态特性。

相关主题