当前位置:文档之家› 物理空间与信息空间的对偶关系

物理空间与信息空间的对偶关系

第51卷第5期 2006年3月论坛物理空间与信息空间的对偶关系徐光祐①陶霖密①*张大鹏②史元春①(①普适计算教育部重点实验室, 清华大学计算机系, 北京100084; ②香港理工大学, 香港.*联系人, E-mail: linmi@, xgy-dcs@, csdzhang@.hk)摘要随着计算、通信和传感技术的迅速发展, 人类的生活环境已经由单纯的物理空间转变为物理-信息的共存空间. 基于这一事实, 本文在分析物理空间和信息空间的各自性质的基础上, 指出两者之间的关系为对偶关系. 建立对偶关系包括以下两个过程: 利用各种传感和信息处理、理解技术, 从物理空间到信息空间的信息获取、分析和结构化过程, 以及通过对用户意图、状态和命令的推理, 从信息空间到物理空间的信息服务过程. 对偶空间中的人机交互就是建立对偶关系, 这种对偶关系体现了以人为中心的人机交互, 即以人们所习惯的并且不需要用户分心的方式与信息空间的交互.关键词物理空间信息空间对偶关系人机交互嵌入式计算和无线通信技术的迅速发展, 促进了计算、通信和传感技术的融合. 以嵌入式处理器为核心的各种信息设备可方便地与其他的各种设备, 包括日常用品结合在一起, 并且它们可通过无线通信与互联网连接成为一个分布式系统. 这使得人们生活的物理空间中前所未有地充满了数据和信息, 从而使信息空间(cyberspace)逐渐融入人们生活的物理空间, 成为一个物理-信息并存的空间. 这样的空间有可能为人们提供前所未有的信息服务: 人们能随时、随地使用各种信息设备来获取信息和进行信息交互, 这也就是普适计算(ubiquitous/pervasive computing)要实现的目标. 对这样的物理空间的性质, 人们已从多个角度进行了探讨和描述. 其中有物理空间与信息空间的集成(integration of physical and informational spaces)[1,2], 增强空间(augmented space)1), 共享空间(shared space)2), 数字与物理的混合环境(mixed digital and physical environments)3)等. 与此同时人们也已提出了多种在物理空间中提供信息服务的新技术, 其中包括增强现实(augment reality, AR)[3] 4)、可触摸的接口(tangible bits)5)、可穿戴的计算机(wearable computers)6)和智能房间(intelligent room)7)等. 在传统的计算模式下, 用户与信息空间的交互需要到计算机面前才有可能实现, 这些技术有可能使得用户摆脱这样的约束, 在生活的物理空间中就能与信息空间交互. 这将给人机交互理论和技术带来重大的革新. 但目前研究的主要局限在于人机交互的接口技术, 缺乏对与信息空间集成、融合的物理空间(或称为共存空间)的性质以及在这样的物理空间中人机交互本质的研究. 这是目前阻碍普适计算以及相关领域研究健康发展的重要原因. 为此, 我们提出了“物理-信息对偶空间”的理论. 我们认为在共存空间中, 物理与信息空间之间存在着对偶的关系, 因此这个共存空间可称为“物理-信息对偶空间”(physical-cyber dual space)或简称为对偶空间. 这个对偶关系包括两个方向的关系: 从物理空间到信息空间的关系是通过各种传感器从物理空间获得原始数据, 并经过处理和分析产生与物理空间在各个层次上的对应关系; 从信息空间到物理空间的关系是通过建立不同层次的对应关系, 把信息空间中的相关数据和信息按照用户的需求发送到物理空间的物体上, 使用户在这些对应点就可得到所需的数据和信息. 因此, 物理空间与信息空间融合的本质就是发现和建立对偶关系.1物理-信息对偶空间1.1三维物理空间已成为与信息空间共存的“物理-信息对偶空间”当前信息技术的发展, 使得人们生活在一个由1) /sections/ideas/ideas_articles/pdf/manovich_augmented_space.pdf2) /projects/shared_space/3) /papers/pdfs/2.pdf4) /augmented-reality.htm5) /projects/Tangible_Bits/projects.htm6) /icwckeynote.html.7) /projects/iroom/projects.shtml论 坛第51卷 第5期 2006年3月计算与通信技术构成的信息空间与物理空间共存的空间中, 这两个空间不是简单地并列, 而是密切关联的. 我们把这种关联称为对偶, 把这个共存空间称为对偶空间(图1). 对偶空间中存在以下两个方向的数据和信息流动:图1 物理-信息对偶空间的对偶关系(1) 从现实物理空间中获取各种数据和信息. 现在各种用于监测的传感器已无所不在, 例如摄像机, 并且它们正朝着兼有计算、通信和传感功能的方向发展. 通过传感器采集得到的原始数据经过各个层次的处理成为结构化的数据, 供用户访问和检索, 成为用户可用的信息.(2) 向现实物理空间中的任何地方提供数据. 例如, 移动电话网(cell space)和互联网可随时、随地向用户提供数据和信息, 它代表了数据和信息从信息空间向物理空间的反馈流动. 物理空间中将充满数据, 而且这些数据可由用户通过个人的信息设备来检索.也就是说, 在物理空间与信息空间之间存在双向的数据和信息流动, 既有从物理空间中获取信息形成信息空间的组成过程, 即物理空间→信息空间; 也有从信息空间向物理空间提供信息的反馈过程, 即信息空间→物理空间. 这样的数据和信息流动不但是双向的, 而且如果要使它为用户提供有效的服务, 还需要利用这二者之间存在的对偶关系.1.2 什么是对偶关系?物理空间中的实体(物体)与信息空间中的实体(对象)各有不同的性质. 物理空间中的物体是物理的存在, 它的性质是: 物体具有空间的属性, 例如体积、重量、空间位置等; 用户可触摸物体, 即可利用人类的各种感觉进行交互; 物体之间的关系是蕴含的. 例如, 放在我办公室中的桌子归我使用, 即属于我, “桌子”与“我”是从属的关系. 但这种关系是蕴含的, 要根据其他相关信息和知识推理得到; 物理空间中发生的各种活动或事件只能保存它们的结果, 而对其过程则无法保存, 即时间不可逆. 与此相对, 信息空间是人工建立的虚拟空间, 其中的实体, 即对象的性质是: 对象本身没有物理属性, 用户无法直接通过感觉来与它们进行交互; 对象之间可方便地建立和表示各种关系; 信息空间中可方便地把动作和事件的过程记录为档案, 以备以后的检索.(1) 物理空间→信息空间的对偶是建立对应关系. 信息空间中所有数据和信息都来自物理空间, 是通过传感器或者人工(人机交互)输入完成. 信息空间中的对象与物理空间中的物体(或对象)存在各个层次的对应关系, 例如特征、表面、物体(包括物体之间的关系)、动作、事件、场景、描述、上下文等各个层次. 在这些对应的对象之间建立“对应”, 就是建立对偶关系. 通过建立对偶关系, 使得信息空间中的数据和信息结构化并建立相关的索引. 需要说明的是, 在实际的应用中并不一定能够或需要建立上述所有层次的对应, 但必须建立某种层次的对应, 以便达到数据和信息某种程度的结构化. 建立了这样的对应关系, 用户才能从物理空间直接向信息空间中的指定索引点发出信息服务的请求.(2) 信息空间→物理空间的对偶是提供信息. 人们建立这种对偶关系的目的是为了从信息空间得到信息服务, 或者通过信息空间的帮助, 得到物理空间中的一些智能设备, 例如智能家电的服务. 为了简化, 我们把这些都称为得到信息服务. 用户得到信息服务的必要条件包括: 信息空间知道用户的意图; 信息空间中信息的存储能支持用户所需要的信息服务, 信息空间中的数据(和信息)是有组织的、结构化的; 信息空间能在理解用户的命令、意图和用户当时所处计算环境的基础上, 按用户的要求对信息进行重新组织, 并以合适的方式返回到物理空间. 对信息的重新组织是因为用户的意图与实际存储的数据之间可第51卷 第5期 2006年3月论 坛能存在差别, 例如用户并不需要全部数据, 而只需要其中的一部分, 这时就需要对数据进行挑选. 在桌面计算的模式下, 这些信息都反馈到计算机的屏幕上, 由用户理解后操作或通过设备接口直接控制某种固定的设备. 而在对偶空间的情况下, 信息将直接反馈到物理空间中的物体上, 例如图1中右面的各种信息设备上.增强现实技术可用来说明上述对偶关系. 首先, 物理空间中的物体通过各种传感器的检测和数据的处理, 在信息空间中建立该物体的几何模型及其他相关信息. 该几何模型是信息空间中的实体, 它与物理空间中的物体是对应关系. 这是物理空间→信息空间的对偶. 在使用增强现实技术来帮助用户在物理空间中操作时, 系统利用位置检测和跟踪设备, 确定用户头盔的方位, 据此产生相应方位下的物体图形并叠加到用户看到的物体上, 从而向用户提供导引信息. 这就建立了信息空间→物理空间的对应关系, 从而实现了完整的物理-信息空间的对偶关系.2 物理-信息空间对偶关系的分类如上所述, 对偶空间中人机交互的本质是要发现和建立对偶空间中的对偶关系. 对偶空间的对偶关系可以有不同的分类方法. 在抽象层次上由低到高的分层, 即从底层的传感器数据到从传感器数据抽取的特征、表面、对象、动作、事件、场景和高层语义描述及上下文的不同层次; 从功能上来说, 可发生在接口、服务和系统三个不同的层次; 从对偶关系的动态特性看, 可分成静态和动态. 为了方便, 以下的分析我们以功能作为分类的主线, 同时结合其他的两种分类方法. 2.1 接口层次上的对偶通过建立接口层次上的对偶, 把传统的计算机的输入/输出接口从计算机的键盘、鼠标和显示器扩展到日常用品, 如家具、房间或用具, 使手机和PDA 等成为可能. 在接口层次上的融合又可进一步分成以下情况:(1) 物体的表面作为访问信息空间的接口. 计算机触摸屏使物体表面成为信息交互的接口. 显然, 这是一种简单和直观地把信息空间与物理空间建立对偶的方法. 利用计算机视觉等感知技术可识别和跟踪纸质的内容, 这样纸质文档及其内容就可作为检索的接口[4,5]. 从而把印刷文档上的区域与信息空间存储的文档内容建立对偶关系, 使得纸质的文档就可成为交互的接口.(2) 利用物体上的各种标记或传感器在信息空间中检索相应的信息. 这些标记可被用户的手持设备检测和读取, 从而用于检索存储在互联网上的相应信息. 例如, 在基于位置信息的导游系统中, 用户的手持设备可检测附加在展品上的标记, 从而获得对展品的介绍. 这样就在展品与互联网上存储的解说信息之间建立了对偶关系.(3) 物体及其部件都是交互的接口, 即都可建立对偶关系. 在增强现实技术中, 信息空间的三维模型来自于物理空间中的真实物体, 在实际应用中与物理空间中的相应物体保持动态的对准, 建立物体层次上的对偶关系. 对偶关系的结果, 可以为用户提供更多的关于物体的信息, 如其内部结构. 这样的对偶关系也可建立在物体的部件上.(4) 在物理空间中的物体之间建立超链(hyperlink). 超链是信息空间中对象之间的非线性链接关系, 可为用户提供方便的信息检索方式. 在对偶空间中, 通过建立对偶关系可使物理空间中的物体之间也建立类似性质的超链. 在文献[6]中提出了在多个显示器之间建立超链. 2.2 服务层次上的对偶从本质上讲, 用户在物理空间中的各种活动和事件是一个具有时间-空间特性的动态过程. 由于时间的单向性, 这个过程发生以后只留下了它的结果, 其过程及其事件发生前的状态, 在物理空间中难以保存. 如果在信息空间中建立这个过程的对偶关系, 就能把这个过程保存为信息空间中的多模态时-空流档案, 并且可在物理空间中进行检索. 这将为用户提供非常方便的服务. 对偶关系可建立在时-空流各个抽象层次的对应点上, 这取决于所使用的时空流信息处理方法所能达到的抽象层次. 信息空间中时-空流的原始数据通常是视/音频数据流. 对视频数据的低层处理是镜头检测(shot detection), 得到的结果是与每个镜头相关的关键帧. 这些关键帧可作为检索的接口, 也就是建立对偶关系的连接点. 由于通常的镜头检测只是根据视频特性的结构性变化, 而不是语义变化, 检测的关键帧不一定反映语义内容. 如果关键帧的检测是依据语义内容, 那么得到的关键帧就可作为高层语义的检索接口. 例如, 在数字会议记录中, 作为会议内容载体的共享白板与会议内容密论 坛第51卷 第5期 2006年3月切相关. 因此, 基于白板内容变化检测得到的关键帧, 就与高层语义相关, 这样就可建立高层的对偶关系. 更高层的对偶关系可以事件检测为基础. 例如, 足球体育视频分析中的射门、得分、犯规等事件的检测和检索[7,8]. 总之这类服务是把物理空间中的活动和事件自动生成信息空间中的电子档案, 并建立物理空间中的检索界面. 下面以足球视频分析为例, 说明数据的结构化及基于各个抽象层次的对偶关系.从足球比赛现场得到的是足球视频流, 这是典型的从物理空间向信息空间提供信息的过程. 这个原始数据经过视频分析后, 形成结构化的视频信息, 然后返回到物理空间里, 为人们提供信息服务. 这里的信息服务是多层次的, 我们研究的足球事件分析系统中的服务层次包括以下三个方面. (ⅰ) 基于对象: 这一级可以向用户提供基于对象的信息. 对象是指视频序列中的物体, 如球员、球门、球网、标题条、人脸等以及表征这些物体的特征, 如球员的球衣颜色, 球队的进攻方向等. 这些对象也可作为事件推论中所需的线索; (ⅱ) 基于镜头: 镜头是摄像机在做一次记录操作时得到的图像序列组成, 通常它记录了同一场景下的图像序列. 足球视频中, 在这一级可以向用户提供镜头尺度(远、中、近镜头)、是否是慢镜头等信息; (ⅲ) 基于事件: 将分析帧和镜头所得到的信息作为线索, 经过推理得到相应的事件, 如射门事件、换人事件等.线索是沟通底层特征与高层语义之间语义间隔的中间层信息. 线索本身是多层次的, 它可以是底层特征(如镜头频度、模糊度), 也可以具有一定的语义(如球门球网、人脸), 甚至是检测到的子事件. 从结构化的角度来看, 可以从每帧图像抽取线索, 也可以以镜头为单位抽取线索. 事件的检测是靠融合各线索进行推理来实现的, 为了选择合适的线索, 更好地进行事件推理需要通过因果分析, 与某一事件有较强因果关系的线索对该事件推理的帮助较大. 例如, 若检测到比分改变的标题条, 则必定有进球事件发生; 但有些线索与特定事件基本无关, 如球门球网对换人事件是否发生没有影响. 基于帧的线索包括: 球门球网的检测、标题条的检测和分类、人脸检测、服装颜色(区分双方球员和裁判)和进攻方向等等. 基于镜头的线索包括: 慢镜头检测、镜头尺度(远/中/近)、镜头频度(与镜头长度成反比)和镜头模糊度(是否有快速运动). 为了适应从线索到事件分析中的多层次的情况, 在我们的系统中提出了基于分层隐马尔可夫模型(hierarchical hidden Markov model, HHMM)的线索融合和事件推理的方法. 在文献[8~10]中介绍了对视频事件的分析方法, 这为在事件基础上的语义交互提供了可能. 2.3 系统级的对偶信息空间与物理空间在系统层次上的对偶关系,是建立在环境的上下文(context)信息基础上的对偶关系. 上下文中包含了关于用户、计算环境、物理环境以及历史等全面的信息. 信息空间在存储和管理上下文信息的基础上, 提供觉察上下文计算的服务, 也就是根据上下文信息对用户的意图做出判断并自适应地调整系统的性能, 以提供适合当前状态的服务. 这本质上就是建立系统级的对偶.智能空间是信息空间与物理空间在系统的各个层次上建立对偶关系的例子. 在智能空间中, 不但在环境中充满了各种信息设备, 而且在信息空间与物理空间之间, 从低层的传感器数据层次一直到高层语义以及在环境的上下文层次建立了对偶的关系, 也就是说信息空间能理解用户的需求或意图, 并根据当时的状态提供合适的服务, 因此有可能使用户得到透明计算(invisible computing)的信息服务. 以我们实验室研究和开发的Smart Classroom 系统为例说 明[11]. 在Smart Classroom 系统的教室前方是电子触摸式白板, 它是供本地交互的界面; 右方墙上由计算机控制的投影仪产生与远端学生交互的界面. 其中包括与远端部分学生交互的桌面会议的接口以及一个基于虚拟人像(avatar)技术的“虚拟助理”, 由它代表智能空间来协助用户与智能空间交互. 教师身份的识别是通过对人脸图像和讲话声音的识别来实现的. 在这个智能教室中, 教师就像在普通教室中那样, 通过语音和手势就可进行教学, 并且与远端的学生进行交互, 而无需坐在计算机面前. 教师的操作包括调用课件、在电子黑板上作注释、与远方的学生交流等.此系统建立了各个层次的对偶关系. 接口层次上的对偶关系是建立在以下接口上: 多媒体课件调用以及讲课用的电子白板; 供与远端学生交互的桌面会议和虚拟助理交互的墙面; 与登录系统交互的身份识别接口等. 功能层次上的对偶关系是系统把教室中发生的所有事件, 包括白板上的注释、教师讲解和动作、学生的提问等都记录为有结构的多媒体流, 并可供学生作为课件使用. 可根据所检测的各种事第51卷 第5期 2006年3月论 坛件在这个多媒体流上建立检索所需要的索引. 在目前的系统中只建立了基于镜头分割的索引, 对基于内容检索的支持有待下一步的工作. 系统层次上的对偶关系, 就是根据环境信息对用户的意图做出判断并自适应地调整系统的性能, 以提供适合当前状态的服务. 这本质上就是建立信息空间与物理空间在系统层次上的对偶关系. 如智能教室系统, “智能摄影师”模块可不需要用户的直接操作就可完成镜头的切换任务. 教师可以像是在普通教室中那样讲课, 系统中的计算机视觉系统能检测和跟踪他的运动并完成识别和理解. 这样系统就能推论和理解教师(即用户)的意图, 从而启动相应的镜头切换操作. 这个操作是用户进行某种动作的结果, 并且符合用户的需要. 这就是觉察上下文的计算服务, 它建立在系统级对偶的基础上.3 对偶关系的建立: 对偶空间中的人机交 互3.1 对偶空间中的人机交互对偶空间中的人机交互是对人机交互技术的全面革新. 从信息处理和交互技术的角度看, 对偶空间中的人机交互具有以下特点:(1) 用户是与信息空间进行交互. 对偶空间中的人机交互意味着, 所谓的“机”已不是单台计算机, 而是信息空间, 交互也不是发生在固定的桌面计算机面前, 而是在人们生活的三维物理空间中. 整个物理空间都可能是人机交互的接口, 同时, 用户可在三维空间中自由地移动. 在移动中使用计算机与得到计算和信息服务, 是现场工作用户对计算系统基本能力的要求. 因此, 对偶空间中的人机交互是动态的, 这与在桌面计算相对静止情况下的人机交互有很大不同. 移动环境下用户交互的特点包括动态的用户配置、有限的注意能力、高速的交互以及与上下文相 关[12].(2) 人机交互已不是桌面计算情况下的仅涉及接口数据/信息的输入/输出, 而是在各个层次上建立信息空间与物理空间的对偶关系. 建立了对偶关系, 才能完成从提出“信息服务请求”到提供“信息反馈”这样的全过程. 因为人们就生活在三维的物理空间中, 同时就在物理空间中获得计算和信息服务. 因此, 这种情况下建立人机交互环境的本质, 就是通过使信息空间与物理空间以各种方式建立对偶关系, 从而为用户提供更方便和多样的信息服务.信息空间与物理空间的对偶关系, 使得为用户提供个性化和适合当时情况的针对性服务成为可能. 人们是生活在物理空间中, 因此, 他所需要的服务是与物理环境密切相关的, 例如位置. 如果系统能检测到用户的位置, 就可能提供最适合当时地点的服务. 例如, 当用户在一个陌生的地方需要寻找餐厅吃饭时, 信息空间就可提供附近餐厅的分布信息. 同时通过建立对偶关系还可使物理空间中的物体具有信息空间中对象的特性. 例如, 超链是信息空间中对象之间的非线性链接关系, 而在对偶空间中就有可能在物理空间的物体之间建立超链.(3) 人与信息空间的交互需要觉察上下文计算(context aware computing)的支持. 当信息空间与物理空间在系统层次上建立了对偶关系, 也就是具有充分的关于用户以及计算环境的上下文信息, 在上下文信息的指导下, 信息空间有可能通过对用户动作的检测和分析来理解他的意图, 从而无需直接请求就可向用户提供适合的信息服务. 如果用户没有直接对信息空间发出信息服务请求, 他只是按物理空间中的规则行事或操作, 这时的人机交互看起来是蕴含在用户的其他行为之中, 因此这就被称为蕴含人机交互(implicit HCI)1). 与此相应, 这时的计算机或信息空间只是提供了服务, 并不需要用户直接的操作, 对用户来说它们可以隐藏起来不被看见. 所以, 也有人把计算机的这种工作模式称为不可见的或透明的计算.与桌面计算模式下上下文是固定的或人为设定的情况不同, 当交互发生在三维的物理空间中时, 上下文将随任务而变化, 而且由于工作环境是现场, 其中的背景情况不但复杂而且是动态变化的, 使上下文的动态性问题更加突出. 上下文在交互中的重要性表现为同样的输入, 不同的上下文可能具有不同的语义; 鉴于在人与人的交谈中应用蕴含的状态信息(即上下文)可提高交互的效率, 充分觉察环境中的上下文是实现普适计算系统尽可能少分散用户注意力这一目标的重要途径; 物理空间中的某个接口不是个人专有的, 而可能是由多人共享的. 因此在交互1) /~albrecht/pubs/pdf/schmidt_pete_3-2000-implicit-interaction.pdf。

相关主题