当前位置:文档之家› 基于深度图像技术的手势识别方法

基于深度图像技术的手势识别方法

基于深度图像技术的手势识别方法曹雏清,李瑞峰,赵立军(哈尔滨工业大学机器人技术与系统国家重点实验室,哈尔滨 150001)摘 要:针对复杂环境下的手势识别问题,提出一种基于深度图像技术的手势识别方法。

利用深度图像信息从复杂环境中提取手势区域,综合手势的表观特征,建立决策树实现手势的识别。

对常见的9种手势在复杂背景条件下进行测试,实验结果表明,手势的平均识别率可达到98.4%,速度达到每秒25帧。

关键词:手势识别;深度图像;表观特征;复杂背景;决策树Hand Posture Recognition Method Based on Depth Image TechnoloyCAO Chu-qing, LI Rui-feng, ZHAO Li-jun(State Key Laboratory of Robotics and System, Harbin Institute of Technology, Harbin 150001, China)【Abstract 】Aiming at the problem of hand posture recognition from complex backgrounds, this paper proposes a hand posture recognition method based on depth image technoloy. The hand posture region is extracted from complex background via depth image. Appearance features are integrated to build the decision tree for hand posture recognition. Nine common postures with complex background are tested. Experimental results demonstrate that recognition rate is 98.4% and speed rate achieves 25 frames per second.【Key words 】hand posture recognition; depth image; appearance feature; complex background; decision tree DOI: 10.3969/j.issn.1000-3428.2012.08.006计 算 机 工 程 Computer Engineering第38卷 第8期 V ol.38 No.8 2012年4月April 2012·博士论文· 文章编号:1000—3428(2012)08—0016—03文献标识码:A中图分类号:TP3911 概述随着机器人技术的发展,智能服务机器人开始逐步融入人类的生活,人机交互技术的发展是智能服务机器人研究的重要组成部分。

人机交互的研究方向主要有表情、声音和手势识别技术。

其中,手势是一种自然直观的人机交流模式,在信息表达上比表情更明确、信息量更丰富。

在人机交互中,基于视觉的手势识别是实现新一代人机交互的关键技术。

基于视觉的手势识别通过图像信息,让机器人获取人的手势姿态信息,对不同的手势信息进行分类。

近年来,学者们对基于视觉的手势识别进行研究,文献[1]提出特征空间匹配法,文献[2]采用提取同类手势的SIFT 特征方法进行手势识别,文献[3]提出手势图解析分类法,文献[4]针对复杂背景采用空间分布特征对手势进行识别。

复杂背景下手势识别的研究[4-5]一般使用肤色模型实现手势区域分割,虽然可以区分肤色和非肤色区域,但是实际应用中图像都包含有肢体和面部肤色区域,它们对手势区域提取有着较大的影响,同时光线也直接影响肤色模型。

现有的文献中并没有考虑强光和弱光环境下的手势识别情况,在实际应用中往往伴随光线的变化问题,这些问题都直接影响了人机交互的实际效果。

本文提出一种基于深度图像技术的手势识别方法,从深度图像信息中提取手势区域,运用几何方法提取手势表观特征并分类,从而实现复杂环境下基于手势的人机交互。

22.1 手势识别系统基于深度图像信息的手势识别系统框架如图1所示。

深度图像的采集采用非接触测量方式,获取的场景中深度信息不受物体自身的颜色、纹理特征以及背景环境光线强弱的影响。

本文选用微软公司的Kinect 进行深度图像的采集,获取深度信息值,转换到灰度值图像,经过手势区域分割、特征提取、手势识别,转换为手势信息,提供人机交互使用。

图1 面向人机交互的手势识别框架2.2 手势区域分割2.2.1 深度图像成像原理深度图像技术在近年来逐步得到广泛的关注,Kinect 采集640×480像素的深度图像速度可以达到30 f/s ,深度的分辨率在5 mm 左右。

本文把Kinect 采集到的场景深度值转换到灰度值空间,实际场景的RGB 图像如图2所示。

在深度图像中像素点灰度值的大小对应于场景中点的不同深度值,如图3所示,图像中的灰度值越大,表明该区域距离深度摄像头的距离越近。

图2 场景RGB 图像 图3 深度图像基金项目:国家自然科学基金资助项目(61075081);机器人技术与 系统国家重点实验室课题基金资助项目(SKLRS200802A02)作者简介:曹雏清(1982-),男,博士研究生,主研方向:模式识 别,人机交互;李瑞峰,教授、博士生导师;赵立军,讲师 收稿日期:2011-07-11 E-mail :caochuqing@灰度值501001502002500.00.51.01.52.02.50图4 灰度直方图图5 手势区域分割效果2.3 特征提取2.3.1 手势的表观特征本文通过提取手势的表观特征,根据表征手势的指头数以及指间的夹角的不同对手势进行分类,实现手势在旋转缩放条件下的快速识别。

相比于其他的手势特征提取方法,手势的表观特征具有更加直观、无需训练样本、适应性强、运算速度快实时性好等优点。

手势表观特征的提取步骤如下:(1)通过数学形态学中的腐蚀操作[6]获取手势区域中心位置点。

由于手掌作为手势表观的主要组成部分,在手势区域中它占有最大的面积而且点较为集中。

通过连续的腐蚀操 作,可以消除手势区域的边界点,使手势区域逐步缩小,最终得到手势区域的中心位置点C 0,实际效果如图6所示。

图6 手势区域中心点(2)计算出中心点与手势区域边缘的最大距离值l ,对距离进行10等分,以d=l/10。

以手势区域中心点为圆心做出 圆轨迹,圆半径从d 开始到l ,每次递加值为d ,得到10个圆轨迹线,如图7所示。

C 0P 42P 41P 51P 52Q 41Q 51Q 42Q 52P 61P 62P 63P 64P 53P 54P 55P 56P 43P 44P 45P 46Q 43Q 53Q 63Q 64Q 44Q 54Q 65Q 55Q 45Q 66Q 56Q 46P 71Q 71Q 72Q 73P 72P 73P 31P 32P 33Q 32Q 31A 1A 2A 3A 4图7 手势表观特征提取ij ij 不能表现手指的实际宽度值,所以当D ij 小于阈值δ时,删除对应的P ij 和Q ij 点,由图2可以看出一些手指的指间处P ij 和Q ij 点被去除,根据经验设置阈值为δ=d /4。

(5)每个轨迹圆上获得的j 最大值,为与手掌相连分支数量总和N=max(j )。

由于分支中包含手指和手腕分支,则手指数量是N f =N −1。

(6)由每个分支的平均值计算得到分支的平均宽度W j =D ij 。

在手形上可知手腕宽度大于手指,在分支中手腕对应于最大宽度的分支。

由除手腕分支外的其他分支在各自截取的最大轨迹圆上取P ij 和Q ij 的中点与中心位置点C 0连线,得到指间夹角A j -1。

2.3.2 旋转和缩放不变性人机交互中需要自然的手势动作,而不局限于某些特定手势位姿或是特定手势区域大小。

距离的远近以及手势的位姿会造成图像中手势大小以及旋转的问题。

本文的特征提取方法,利用等分轨迹圆消除手势区域大小对特征提取的影 响,同时对轨迹上的变化点进行特征计算,提取的手指数量N f 和指间夹角A j -1特征都具有旋转和缩放的不变性,不受手势距离远近和旋转的影响。

2.4 手势识别9种常见的手势如图8所示。

图8 9种常见的手势18 计 算 机 工 程 2012年4月20日本文通过提取手势的表观特征,建立决策树模型,对手势进行识别分类。

决策树是通过对训练样本进行归纳学习, 生成决策树或决策规则,然后使用决策树或决策规则对新数据进行分类的一种数学方法[7]。

决策树通过把实例从根节点排列到某个叶子节点来分类,叶子节点即为实例所属的分 类。

构造好的决策树的关键在于如何选择恰当的逻辑判断或属性。

手势主要的提取特征是手指数量N f 和指间夹角A j -1特征,作为决策树的分类节点。

不同手势之间手指数量特征区分比较明显,建立的决策树首先以手指数量N f 作为决策树的根节点,对于手指数相同的手势,再建立子节点对各个指间夹角A j -1差异情况进行区分。

子节点上对于指间夹角A j -1, 通过小样本的测试训练获取分类条件,建立的决策树如图9所示。

图9 手势分类决策树手势1、手势3、手势4、手势5的手指数量特征具有唯一性,可直接通过根节点分类;手势2和手势6的N f =2,下一层子节点通过判断指间夹角A 1大小加以区分;手势7、手势8、手势9的N f =3,需要通过2层子节点判断指间夹角A 1和A 1大小进行区分。

3 实验结果及分析3.1 手势识别实验为验证本文采用的实验方法,基于机器人平台,Kinect 通过USB 口与机器人主机进行数据通信,机器人主机的配 置是2.0 GHz 的CPU 和2 GB 的RAM ,当采样图片大小为640×480像素时,识别速度可以达到25 f/s ,达到实时手势识别的要求。

实验针对9种常见的手势进行识别,由5个人在强光、弱光和普通光线的背景条件对下每种手势测试200次,共计1 800次测试。

手势识别结果如表1所示。

表1 手势识别结果识别次数 测试 手势 手势1 手势2 手势3 手势4 手势5手势6 手势7 手势8 手势9识别率/(%)手势1 200 0 0 0 0 0 0 0 0100.0手势2 0 200 0 0 0 0 0 0 0100.0手势3 0 0 200 0 0 0 0 0 0100.0手势4 0 0 0 200 0 0 0 0 0100.0手势5 0 0 0 0 200 0 0 0 0100.0手势6 1 5 0 0 0194 0 097.0手势7 0 0 0 0 0 0 190 10 0 95.0手势8 0 0 0 0 0 0 8 192 0 96.0手势9 023 19597.5从表1中可以看出,手势1~手势5的识别率都为100%。

相关主题