数字图像处理问题:人为什么能分辨出见过一次的东西?眼睛是生物体上十分神奇的器官,人类的眼睛可分辨约一千万颜色。
他可以感知光线,是人们获得外界信息最主要的途径;同时,眼睛包括含心理意识在内的丰富信息。
一、人眼构造人眼是人身体中最重要的感觉器官,人获取的信息90%以上通过眼睛来获取。
人眼的构造决定了人眼成像的原理,同时决定了人眼的特性。
人眼相当于一架摄像机或照相机,但在构造方面有别于摄像机和照相机。
人眼的成像系统是由角膜、晶状体、前房、后房和玻璃体组成。
角膜——直径为11mm的透明膜,镶嵌于巩膜前面圆孔内,其中央部的曲率半径为8mm,周边部比较平坦。
晶状体——形似双凸镜的透明组织,由小带纤维悬挂于瞳孔后面,睫状肌收缩时小带松弛,晶状体依靠其本身的弹性而变厚,前后表面的曲度增加,整体屈光度增加,利用看清近处物体,称为调节。
在角膜和水晶体之间为虹膜,中间开有一个可以自动控制大小的孔,让适当的光线进来,称为瞳孔。
前方、后房——前房为角膜后面、虹膜和晶状体前面的孔隙,充满着房水。
后房为位于虹膜后面、睫状体、晶状体周边部之间的孔隙,也充满着房水。
房水的主要功能是维持眼内压,并维持晶状体的代谢。
玻璃体——一透明胶样组织,充填于视网膜内的空间。
占眼球4/5的容积。
具有保护视网膜、缓冲震动功能。
视网膜——是接近黑的深红色,反光很弱,其上面布满感光细胞。
正对眼球中心有一个直径约为2mm的黄色区域,称为黄斑,黄斑中心有一小凹,称为中央凹,面积为1平方毫米。
视网膜上面有两种感光细胞,一种叫做视锥细胞,另一种叫做视杆细胞。
视锥细胞是像一个玉米的锥形,尖向外,只对较强的光敏感,至少有分别感觉红、蓝、绿三种颜色的视锥细胞存在,因此能够感知颜色。
视杆细胞只有一种,因此没有颜色感觉,但灵敏度非常高,可以看到非常暗的物体。
视锥细胞在黄斑里面非常集中,尤其是在中央凹里面最为集中,是产生最清晰视觉的地方。
视杆细胞恰好在黄斑里面最少,除此之外分布的比较均匀,距离中心10~20度的范围内相对集中些。
在比较暗的情况下,视锥细胞就不再起作用了,只能是分布广而相对稀疏的视杆细胞起作用,一次人眼的分辨能力大大下降。
中心黄斑部分视力下降到0.05,反而不如黄斑以外,非黄斑区域视力基本不变,最好视力在黄斑附近,大约偏离中心15度左右,为0.1,这时的视力,称为暗视觉。
但由于视杆细胞只有一种,因此是分辨不出物体颜色的,因此我们观察星云时,看不出颜色。
二、人眼的视觉特征人眼的视觉系统是世界上最好的图像处理系统,但它远远不是完美的。
人眼的视觉系统对图像的认知是非均匀的和非线性的,并不是对图像中的任何变化都能感知。
例如图像系数的量化误差引起的图像变化在一定范围内是不能为人眼所觉察的。
因此,如果编码方案能利用人眼视觉系统的一些特点,是可以得到高压缩比的。
对人眼视觉特性的深入研究及由此而建立的各种数学模型,一直是各种图像数字压缩算法的基础。
人眼对380~780纳米内不同波长的光具有不同的敏感程度,称为人眼的视敏特性。
衡量描述人眼视敏特性的物理量为视敏函数和相对视敏函数。
1.1视敏函数在相同亮度感觉的条件下,不同波长上光辐射功率的倒数可以用来衡量人眼对各波长光明亮感觉的敏感程度。
称为视敏函数 K(λ)=1/pr(λ) 。
1.2 相对视敏函数实验表明,人眼对波长为555纳米的光最敏感,因此把任意波长的光的视敏函数与最大视敏函数值K(555)相比的比值称为相对视敏函数。
2.1对比灵敏度人眼对亮度光强变化的响应是非线性的,通常把人眼主观上刚刚可辨别亮度差别所需的最小光强差值称为亮度的可见度阈值。
也就是说,当光强I增大时,在一定幅度内感觉不出,必须变化到一定值I+ΔI时,人眼才能感觉到亮度有变化,ΔI/I一般也称为对比灵敏度。
因此恢复图像的误差如果低于对比灵敏度,即不会被人眼察觉。
此外,高频部分在相同的灵敏度阈值下,色差信号Y-R空间频率只有亮度Y的一半,色差信号Y-B空间频率只有亮度Y的1/4。
人眼对于运动图像的对比灵敏度与时间轴上信息的变化速度有关,随着时间轴变化频率的增加,人眼所能感受到的图像信息的误差阈值呈上升趋势,视觉上的这种动态对比灵敏度特性表现为图像序列之间相互掩盖效应。
可见度阈值和掩盖效应对图像编码量化器的设计有重要作用,利用这一视觉特性,在图像的边缘可以容忍较大的量化误差,因而可使量化级减少,从而降低数字码率。
2.2分辨率当空间平面上两个黑点相互靠拢到一定程度时,离开黑点一定距离的观察者就无法区分它们,这意味着人眼分辨景物细节的能力是有限的,这个极限值就是分辨率。
研究表明人眼的分辨率有如下一些特点:①当照度太强、太弱时或当背景亮度太强时,人眼分辨率降低。
②当视觉目标运动速度加快时,人眼分辨率降低。
③人眼对彩色细节的分辨率比对亮度细节的分辨率要差,如果黑白分辨率为1,则黑红为0.4,绿蓝为0.19。
2.3马赫效应当亮度发生跃变时,会有一种边缘增强的感觉,视觉上会感到亮侧更亮,暗侧更暗。
马赫效应会导致局部阈值效应,即在边缘的亮侧,靠近边缘像素的误差感知阈值比远离边缘阈值高3~4倍,可以认为边缘掩盖了其邻近像素,因此对靠近边缘的像素编码误差可以大一些。
三、视觉感知对时间频率的感知时间频率即画面随时间变化的快慢。
Kelly.D.H用亮度按时间正弦变化的条纹做实验,亮度Yt) = B(1+mcos2πft)。
改变m, 测试不同时间频率f下的对比敏感度。
实验表明时间频率响应还和平均亮度有关。
在一般室内光强下,人眼对时间频率的响应近似一个带通滤波器。
对15~20Hz信号最敏感,有很强闪烁感(flick),大于75Hz响应为0,闪烁感消失。
刚到达闪烁感消失的频率叫做临界融合频率(CFF)。
在较暗的环境下,呈低通特性,且CFF会降低,这时对5Hz信号最敏感,大于25Hz闪烁基本消失。
电影院环境很暗,放映机的刷新率为24Hz也不感到闪烁, 这样可以减少胶卷用量和机器的转速。
而电脑显示器亮度较大,需要75Hz 闪烁感才消失。
闪烁消失后,亮度感知等于亮度时间平均值(塔鲁伯法则)。
这种低通特性,也可以解析为视觉暂留特性,即当影像消失/变化时,大脑的影像不会立刻消失,而是保留一个短暂时间。
生活中常感受到的动态模糊,运动残像也和这个有关。
有很多电子产品设计利用了这一现象,例如LED数码管的动态扫描,LED旋转字幕等。
对运动物体感知观察一个运动物体,眼球会自动跟随其运动,这种现象叫随从运动(eye pursuit movement)。
这时眼球和物体的相对速度会降低,我们能更清晰地辨认物体。
例如观看球类比赛(如棒球),尽管棒球的运动速度很快,由于随从运动,我们仍够看得到球的大概样子(但会有运动模糊)。
如果我们把眼睛跟着风扇转动方向转动,会发现对扇叶细节看得较清楚。
眼球随从最大速度为4~5度/秒,因此我们不可能看清楚一颗子弹飞行。
空间频率即影像在空间中的变化速度。
用亮度呈空间正弦变化的条纹做测试,亮度Y(x,y) = B(1+mcos2πfx), 给定条纹频率f为一固定值(看作是宽度),改变振幅m(看作对比度),测试分辨能力。
显然m越大分辨越清楚,测试不同条件下(不同cpd)可分辨的最少m值,定义1/mmin为对比敏感度(contrast sensitivity)。
定义人眼的对空间感觉的角度频率:cpd: cycle / degree ,表示眼球每转动一度扫过的黑白条纹周期数。
对给定的条纹,这个值与人眼到显示屏的距离有关,对于同样大小的屏幕,离开越远,cpd越大。
通常人眼对空间的感觉相当于一个带通滤波器。
最敏感在2~5个cpd ,空间截止频率为30cpd。
比如我们看油画和电视机屏幕时,当距离离开一定远,cpd 增大,人的眼睛就分辨不了象素点细节,便感觉不到颗粒感了。
当人观察一个静止影像时,眼球不会静止一处(精神病人除外), 通常停留在一处几百毫秒完成取像后,移到别处取像,如此持续不断。
这种运动称为跳跃性运动(saccadic eye movement)。
研究表明跳跃性运动可以增大对比敏感度,但敏感度峰值却减少。
四、模式识别人们在观察事物或现象的时候,常常要寻找它与其他事物或现象的不同之处,并根据一定的目的把各个相似的但又不完全相同的事物或现象组成一类。
字符识别就是一个典型的例子。
例如数字“4”可以有各种写法,但都属于同一类别。
更为重要的是,即使对于某种写法的“4”,以前虽未见过,也能把它分到“4”所属的这一类别。
人脑的这种思维能力就构成了“模式”的概念。
在上述例子中,模式和集合的概念是分未弄的,只要认识这个集合中的有限数量的事物或现象,就可以识别属于这个集合的任意多的事物或现象。
为了强调从一些个别的事物或现象推断出事物或现象的总体,我们把这样一些个别的事物或现象叫作各个模式。
模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的范畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。
前者是生理学家、心理学家、生物学家和神经生理学家的研究内容,后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果80年代初(1982,1984,1985),陈霖提出视觉拓扑理论(visual topological theory)。
该理论认为,在视觉处理的早期阶段,人的视觉系统首先检测图形的拓扑性质;它对图形的大范围拓扑性质敏感,而对图形的局部几何性质不敏感。
图形的拓扑性质(topological properties):指在拓扑变换下图形保持不变的性质和关系,如连通性(connectedness)、封闭性(closedness)、洞(hole),都是典型的拓扑性质,而大小、角度、平行性等几何性质则不是拓扑性质。
按照人们的直觉经验,圆盘、三角形和正方形是明显不同的图形;但按拓扑学的观点,由于它们都是实心图形,因而在拓扑性质上是等价的。
相反,圆盘和圆环按直觉经验是相似的,而按其拓扑性质讲,则是不等价的。
陈霖认为,图形的封闭性、连通性、洞都是图形的拓扑学性质。
图形的具体形状可能千差万别,但只要它们的拓扑性质相同,就可以说它们是拓扑性质等价的图形。
在视觉早期信息加工中,视觉系统对这些大范围的拓扑学性质更加敏感。
视觉系统先加工图形的拓扑性质,然后才加工它的局部性质。
近年来,陈霖用神经心理学和电生理学的实验技术,进一步证明了视觉系统的这一特点。