人眼数据采集方法
• Smith B A, Yin Q, Feiner S, et al. Gaze locking: passive eye contact detection for human-object interaction[C]. User Interface Software and Technology, 2013: 271-280.
EYEDIAP (ETRA 2014)
• 采集工具:深度相机Kinect + RGB相机 • 采集方法:志愿者坐在深度相机前,要求眼睛一直盯着运动的乒
乓球,同时用RGB相机记录这一过程。在采集到的视频中人工标 注眼睛中心点与乒乓球的2D坐标,映射到点云中得到对应的三维 坐标,做差得到三维视线向量 • 规模:94段视频,16位不同人种的样本 • 适用场景:视线估计 • 局限性:需要深度摄像头,数据量较少
合成数据集
• 采集工具:手动合成或自动合成 • SynthesEyes (ICCV 2015) • UnityEyes (ETRA 2016)
• 直接提供了自动生成工具 • 使用Unity引擎制作 • 可以自定义视线、头部姿态等
• SimGAN (CVPR 2017) 用GAN做视线迁移 • Unsupervised Representation Learning (CVPR 2020) 视线重定向
• RT-GENE(眼动仪+深度+RGB) • 视线追踪
• SynthesEyes(合成)
• GazeFollow
• UnityEyes(合成)
• VideoGaze
MPIIGaze (CVPR 2015)
• 采集工具:参数已知的单个RGB相机 • 采集方法:利用相机参数和镜面算法计算并校准人眼的3D位置,
• Mora K A, Monay F, Odobez J, et al. EYEDIAP: a database for the development and evaluation of gaze estimation algorithms from RGB and RGB-D cameras[C]. Eye Tracking Research & Application, 2014: 255-258.
RT-GENE (ECCV 2018)
• 采集工具:眼动仪眼镜 + 深度相机 + 多个运动捕捉相机 • 采集方法:眼动仪眼镜用于获取眼球凝视方向;深度相机获取头
部姿态;其他运动捕捉相机用于获取面部信息,用于生成语义信 息和在最终生成的图像中去除眼镜 • 规模:12.2万张图片,15位不同人种的样本 • 适用场景:大范围视线估计 • 局限性:需要设备太多,需要GAN网路清除照片中的眼动仪眼镜 • 扩充:RT-BENE (ICCV 2019) 添加了眨眼数据
• Recasens A, Vondrick C, Khosla A, et al. Following Gaze Across Views[J]. arXiv: Computer Vision and Pattern Recognition, 2016.
• Radford A, Metz L, Chintala S, et al. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks[J]. arXiv: Learning, 2015.
• Fischer T, Chang H J, Demiris Y, et al. RT-GENE: Real-Time Eye Gaze Estimation in Natural Environments[C]. European Conference on Computer Vision, 2018: 339-357.
TabletGaze (MVA 2017)
• 采集工具:三星平板 S Tab 的前置摄像头 • 采集方法:每次采集过程中,平板会以随机顺序显示35个红点,
并保证每个红点只显示一次,要求被采集者必须注视出现的红点。 每个被采集者分别以站立,坐下,弯腰,平躺姿势采集四段视频 数据。 • 规模:816段视频,51位不同人种的样本 • 适用场景:较大屏幕的注视点估计 • 局限性:大部分视频中的人脸都是不完整的,无法获得有效的头 部姿态信息
列表
• Sugano Y, Matsushita Y, Sato Y, et al. Learning-by-Synthesis for Appearance-Based 3D Gaze Estimation[C]. Computer Vision and Pattern Recognition, 2014: 1821-1828.
人工标注面部特征点用于求解头部姿态,考虑复杂光照和角度 • 规模:21.3万张图片,15位不同人种的样本 • 适用场景:野外视线估计 • 局限性:部分数据,尤其是头部姿态的误差极大,很多后续工作
在用这个数据集的时候需要进行额外清理和矫正 • 扩充:MPIIFaceGaze 数据集在此基础上添加了全脸图,适用于以
GazeCapture (CVPR 2016)
• 采集工具:iphone 的前置摄像头(普通RGB相机) • 采集方法:在手机屏幕上随机出现红点,被采集者需要一直盯着
不断出现的红点,并且需要在不同的背景、光照、头部姿态等干 扰条件下重复采集 • 规模:约210万张图片,1500位不同人种的样本 • 适用场景:手机屏幕上的注视估计 • 局限性:应用场景单一
• Zhang X, Sugano Y, Fritz M, et al. MPIIGaze: Real-World Dataset and Deep Appearance-Based Gaze Estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(1): 162-175.
全脸图像数据作为输入的视线估计
UTMultiview (CVPR 14)
• 采集工具:8个RGB相机,头部姿态支架,LCD屏幕 • 采集方法:被采集者需要盯着LCD上显示的视觉目标,在目标消
失时会触发相机拍照,每次采集会获得(160个点*8个相机)张 图片。此外,需要手动标注6个面部关键点用于计算头部姿态。 • 规模:100万张图片,50位不同人种的样本 • 适用场景:大角度视线估计 • 局限性:需要手动标注6个面部关键点
人眼数据ቤተ መጻሕፍቲ ባይዱ集方法
2020-05-09
数据集种类
• 3D视线估计
• 视点估计
• MPIIGaze(单相机)
• GazeCapture(单相机)
• MPIIFaceGaze(单相机)
• TabletGaze(单相机)
• UTMultiview(多相机)
• ColumbiaGaze(单相机多视点)
• Eyediap(单相机 + 深度相机)
视线+视点数据集
• 采集工具:手动在图片中标注,Mechanical Turk • GazeFollow (NIPS 2015) 图片中标注 • VideoGaze (CVPR 2016) 电影中标注,跨帧标注 • 规模:两个数据集共45万张图片 • 局限性:都是第三人称视角下的数据,需要语义理解
Columbia Gaze (UIST 2013)
• 采集工具:单个RGB相机,多个采集点,头部姿态支架 • 采集方法:被采集者需要盯着黑布上的激光点,每次采集共五种
头部姿态,每个姿态采集21张不同视线。 • 规模:5880张图片,56位不同人种的样本 • 适用场景:视线估计 • 局限性:头部姿态的角度是离散的 • 只有预设的几个角度