手势识别技术综述作者单位:河北工业大学计算机科学与软件学院内容摘要:手势识别是属于计算机科学与语言学的一个将人类手势通过数学算法针对人们所要表达的意思进行分析、判断并整合的交互技术。
一般来说,手势识别技术并非针对单纯的手势,还可以对其他肢体动作进行识别,比如头部、胳臂等。
但是这其中手势占大多数。
本文通过对手势识别的发展过程、使用工具、目的与市场等进行综述,梳理出手势识别发展的思路,让读者对手势识别有一个总体上的认识,同时也可以让读者在此基础上进行合理想象,对手势识别的未来有一个大体印象。
Abstract:Gesture recognition is an interactive technology using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, such as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall understanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future.1.定义说到手势识别,首先要对手势识别中的手势有一个清晰的认知。
手势在不同的学科中有不同含义,而在交互设计方面,手势与依赖鼠标、键盘等进行操控的区别是显而易见的,那就是手势是人们更乐意接受的、舒适而受交互设备限制小的方式,而且手势可供挖掘的信息远比依赖键盘鼠标的交互模式多。
在学术界,人们试图对手势定义一个抽象、明确而简洁的概念以为手势及其应用的研究提供依据。
1990年Eric Hulteen和Gord Kurtenbach曾发表的题为“Gestures in Human-Computer Communication”中定义:“手势为身体运动的一部分,它包括一部分信息,而且是一种能被观察到的有意义的运动。
挥手道别是一种手势,而敲击键盘不是一种手势,因为手指的运动没有被观察,也不重要,它只表示键盘被按下这一动作。
”从定义上讲,手势识别是一种利用数学算法,包括计算机图形学,辅以摄像头、数据手套等输入工具,针对收集到的信息,比如手掌、手指各关节的方位、角度等进行判断、分析并作出正确回复的技术。
许多测试品已开始使用三维手势识别来提升准确率及反应速度。
但是,分析手势的特点,回顾手势识别的发展历史,可以更好地把握其发展脉络,从而对未来手势识别的潜力与可能方向做出基本判断。
2.发展过程手势是任意的,手不同部位的方向、角度及弯曲程度等的不同信息可能会有实际意义上的天壤之别。
所以手势识别应该基于用户与程序、设备之间的约定。
针对手势的任意性,最初的手势识别主要使用各种与手及手臂通过直接的接触式有线机器设备进行数据采集。
它可以直接检测诸如手指、关节及手臂的方位、角度等。
典型的设备有数据手套等。
通过内含许多传感器的数据手套,可以十分精确地获取手势识别所需的各种信息,此外其反应速度、识别准确度、稳定性也得到了保障。
但是该设备在实际中的造价比较高昂,更重要的是会对手的灵活性有一定限制,因而没有得到有效推广。
此后推出的穿戴式光学标记可通过红外线将手指及手掌变化传输到屏幕上,也保持了数据手套的优点。
该设备虽减轻了重量,提高了手部的灵活性,但是仍需较复杂的输入输出转换设备,此外也会对手部动作的自然性产生影响。
【1】基于视觉的手势识别技术能够使手部动作的表达更加自然,同时也可以为未来其他的肢体识别技术所应用,因此成为了主流。
手型模型是通过计算机图形学对二维的手势图像属性,如手的颜色、纹理、边界、轮廓等进行分析。
【6】该方法主要使用三种组件:探测组件、运动轨迹组件、识别组件。
【6】探测组件负责有针对性地收集有特点的视觉信号并将手势信号整理成码。
运动轨迹组件负责实时定位,虽然它对于只需静态手势的设备并不是必要的组件,但是其可以优化手部中各部位的运动曲线,提升设备精度。
基于视觉的手势识别按手势的动态特点可以分为静态的与动态的两种,静态手势识别针对单个手型,主要包括手势分割及手势识别两部分,前者是后者的基础。
【3】静态手势识别方法难以识别区分度较小的手势、实时性差,因此向动态手势识别过渡已经成为一种趋势。
【3】大部分手势识别应用是将每个手势作为一个整体,之后通过计算相似度来进行模式匹配。
这种方法显而易见的缺点是只有当收集到的数据与预设模型的相似程度很高时才会比较准确,另外对于某些比较相似的手势区分效果不好。
【6】3.研究方法目前常用的手势识别研究方法主要有以下几种:(1)基于人工神经网络的手势识别神经网络基于统计和概率学方法的组织和判断具有抗干扰、自学习、易控制和处理高效的特点,可用于处理信息缺失的模式并进行模式推广。
如果整个神经网络包括的全部神经元都是时空效能好的算法,那就可以判断手势细微部分的运动。
但人工神经网络对时间序列处理能力不强。
在静态手势的识别中应用较多,动态手势识别中几乎没有应用。
此外,尽管对神经网络的相关研究及应用已经有了几十年,但是该方法本身的复杂性使成功构建一个效果良好的神经网络对大多数人比较困难。
【2】(2)基于隐马尔可夫模型的手势识别隐马尔可夫模型是一种能细致描述信号的时空变化统计分析模型,适用于动态手势的识别。
由于其分析复杂,计算量大,速度慢,故而大多采用离散马尔可夫模型。
(3)基于几何特征的手势识别,包括手势分割法与几何特征法手势分割包括2种方法:单目视觉和立体视觉。
基于单目视觉的方法又分为基于徒手的表观特征(肤色,轮廓);人为增加限制,如要求使用者戴上有色手套及各种光学标识;建立数据库的方法。
【12】手势的几何特征指手势的边缘(如轮廓)和手势区域特征(如手掌颜色、面积)。
【4】基于几何特征的手势识别技术,大多采用各种距离公式进行模板匹配,如量度度量空间中真子集之间距离的Hausdorff距离等。
几何特征识别方法主要有3种: 模板匹配法(自动提取每一帧特征图像与模板库匹配后识别手势,多用于静态手势识别);神经网络法,统计分析法(如隐马尔可夫模型法HMM)等。
动态手势识别的算法比较复杂。
除了进行手势识别的算法外,还需要其他辅助算法及过程。
某些具有手部整体运动轨迹的手势可以是肢体动作的一部分,比如挥手、打招呼等。
这些手势识别需要准确地从手腕部对手势及手臂进行识别并分割。
此外,在动态手势识别中还需同时进行方位定位及识别工作,其核心是动态时间空间跃迁算法(DSTW),一种可以在时间空间成对排列搜索请求及模型手势的算法。
【11】此外,涉及随机信号及过程的光谱分析法已经在大量科学学科中使用了几十年,尽管随机性会给时间域特性分析带来困难,像特征值及频率仍然是有价值的光谱信息。
傅里叶分析是频率域光谱分析的常见方法。
【8】尽管存在诸多的方法,而且手势识别仍在不断发展中,但是手势识别本身的特点在某些方面成为了障碍。
与人脸识别最显著的区别是,基于图像的手势识别与人脸识别虽然都是根据二维图像,但是手部没有类似人脸那样丰富的可以标记及区分的数据特征对象。
人脸的表情丰富,可以作为理想的数据库。
典型的人脸切尔诺夫模型拥有18个变量,而自1973年来经过几十年的发展,面部特征又得到了丰富,非对称的切尔诺夫脸可显示多达36维的脸部特征。
手部的特征明显要少得多,基本上就是各关节、手掌的坐标,指尖的朝向等。
而且脸部特征基本上是在一个平面上的,没有旋转特征,脸部的自由度小。
手部在手势定位及旋转上至少需要6维信息,包括手部的三维坐标及三维方向。
而完全对手势进行分辨需要超过20个的自由度变量,这使得手势的甄别十分复杂。
4.当前的应用(1)用于虚拟环境的交互手势识别可以用于虚拟制造和虚拟装配、产品设计等。
虚拟装配通过手的运动直接进行零件的装配,同时通过手势与语音的合成来灵活的定义零件之间的装配关系。
还可以将手势识别用于复杂设计信息的输入。
【9】(2)用于手语识别。
手语是聋哑人使用的语言,是由手型动作辅之以表情姿势由符号构成的比较稳定的表达系统,是一种靠动作Π视觉交际的语言。
手语识别的研究目标是让机器“看懂”聋人的语言。
手语识别和手语合成相结合,构成一个“人2机手语翻译系统”,便于聋人与周围环境的交流。
手语识别同样分为基于数据手套的和基于视觉的手语识别两种。
基于DGMM的中国手语识别系统选取Cyberglove型号数据手套作为手语输入设备,采用了动态高斯混合模型DGMM(DynamicGaussianMixtureModel)作为系统的识别技术,可识别中国手语字典中的274个词条,识别率为98.2%。
【9】(3)用于多通道、多媒体用户界面。
正如鼠标没有取代键盘,手势输入也不能取代键盘、鼠标等传统交互设备,这一方面由于手势识别的设备和技术问题,另一方面也由于手势固有的多义性、多样性、差异性、不精确性等特点。
手势识别要想取得比较高的识别率,仍有很长的路要走。
手势输入在人机交互中应用的精髓不在于用来独立地用作空间指点,而是为语言、视线、唇语等交互手段通道提供空间的或其他的约束信息,以消除在单通道输入时存在的歧义。
这种做法是试图以充分性取代精确性。
(4)用于机器人机械手的抓取机器人机械手的自然抓取一直是机器人研究领域的难点。
手势识别,尤其是基于数据手套的手势识别的研究对克服这个问题有重要的意义,是手势识别的重要应用领域之一。