信息检索第二章信息用户一、用户信息需求的概念1、概念:是指人们在实践活动过程为解决遇到的各种问题而产生的信息不足感与求足感2、主要特点:广泛性、社会性、发展性、多样性、主观性、客观性二、用户信息需求的基本类型1、按信息的属性分自然信息需求:对客观存在的自然物信息的不足感与求足感,强调物质属性社会信息需求:生活中的信息需求、职业活动中的信息需求、个体社会化的信息需求2、按信息需求的目标分主题需求:战略性信息需求、战术性信息需求、工作性(经营性)信息需求已知资料需求:信息查对需求3、按信息需求的表现形态分(沃格特)新信息需要:需要能及时获得、迅速传递的最新信息,强调及时性片断性信息需求:某一理论、方法、事件等的片断信息,以解决具体问题,强调准确性完整性信息需求:对特定相关信息的系统把握,强调全面性三、用户信息需求状态(Mizzaro)1、客观信息需求(Real Information Need,RIN):用户解决某特定问题所需要的信息2、意识到的信息需求(Perceived Information Need,PIN):户在问题及外界刺激下所感知到的信息需求3、表达出来的信息需求(Request):用户在一定条件下对意识到的信息用自然语言表达出来的信息需求4、信息提问(query):用户用所选择信息检索系统的检索语言相对应的语法形式描述的信息需求四、用户需求提问1.需求提问的类型划分1)、从提问的规定性上分类明确性提问:问题初始条件与目标状态清楚不确定性提问:问题初始条件或目标状态不清楚2)、从功能上分类认知性提问:咨询提问和评价提问非认知性提问2.需求提问的结构分析主题分析:描述用户信息需求的内容范畴。
包括主题概念、学科范围外部要求:描述用户信息需求的基本规定。
包括:目标:反映需求的目标状态规模:反映需求的数量指标类型:反映需求的信息形式其它:反映需求的其它要求(如年代、语种等)3.需求提问质量的评价标准相关度(pertinence/relevance):与解决问题的相关性准确度(accuracy):提问能否用一定规则准确地固定下来特定性(specificity):有关某一特定事物或主题的特殊要求4.需求提问的反馈调节反馈调节的内容:明确主题范畴、目的与动机、查寻者个人特征、预计或可接受的回答(数量要求,信息类型,语种,时间分布,等)•信息检索基本原理(检索过程,行为模型)▲一、信息检索过程1、概念狭义:从特定信息源中找出符合特定需要的信息单元基本环节概念形式的逻辑过程操作形式的技术过程广义:是从信息需求开始到信息利用结束的全过程2、信息检索的逻辑过程信息标引过程信息检索式的形成信息匹配查找3、信息检索的技术过程信息标引与标引结果的组织检索式及其制定检索匹配过程获取原始信息4、检索过程的基本假定信息单元内容可明确客观地判断且唯一表达用户信息需求也可明确客观地判断且唯一描述只要采用相同的检索语言体系和描述规则,可明确客观地判断标引式与检索式的一致性,并由此判断信息单元与信息需求的一致性5、检索过程的形式化描述信息检索过程可形式化描述为四维数组S={I,Q,F,R(ij,q)}匹配函数为实际检索过程匹配函数设K为检索状态值,则关于q检出信息集二、检索过程的用户信息状态潜在信息需求(Real Information Need) :K[I]=K[D]-K[S]意识到的信息需求(Perceived Information Need)设特定主体对特定潜在需求的意识转化系数为λ1,则有K1*I+=λ1K*I+提问(Request & Query)设特定用户对意识到信息需求准确表达系数为λ2,则有K2*I+= λ2k1*I+使用(Useness)设特定用户对检索结果信息的吸收系数为λ3,则有ΔI= λ3k2*I+当λ1λ2λ3=1时,K[D] =K[S+ΔS] 完全信息决策过程当0<λ1λ2λ3<1时,K[D] >K[S+ΔS] 有限信息决策过程当λ1λ2λ3=0时,K[S] =K[S+ΔS],零信息决策过程决策者以自身的主观知识和经验足以确定其操作要素,即K[S] =K[D]信息需求无法识别,即λ1=0信息查找过程中止,即λ2=0信息理解失败或没有新信息内容,即λ3=0▲三、信息检索行为模型信息检索行为的内涵是指在明确的信息需求基础上以各种方式获取所需信息过程所表现出来的行为信息检索行为模型对用户信息检索过程中的行为模式以某种形式表达出来的结构框架1、Dervin模型三要素模型状态(situation)特定时空中问题提出的背景差距(gap)个体认识上的不确定性使用或帮助(use/help or outcome)问题解决后获得的结果2、Ellis模型开始(starting)联接(chaining)浏览(browsing)跟踪(monitoring)区分(differentiating)采集(extracting)证实(verifying)结束(ending)3、Kuhlthau模型开始(initiation)选择(selection)探查(exploration)形成(formulation)收集(collection)结束(closure)4、Wilson模型基本主张信息需求并不信息检索行为的唯一动力,而是心理、认知与情感三方面的综合体信息获取过程中可能会遭遇各种不同背景下的干扰或障碍几个模型1981年模型及修正模型1996年模型四、信息检索的相关性原理1.相关(relevance)研究的历史性回顾1958年,ICSI(科学信息国际会议)上B.C. Vickery首次提出相关性概念60年代,研究相关性的定义、类型、相关性判断的各种可能影响因素70年代,试图建立相关性理论框架80年代,在相关研究中引入认知模型2.相关的几种典型定义1967年Cuadra与Katter的定义(系统相关)相关是信息条件叙述(即输入系统之检索问题)和文献内容间的一致性,亦即文献涵盖的内容对信息条件叙述的适合程度1971年Cooper的定义(逻辑相关)“一句子和信息需求相关的必要条件是其所属文献(以存储的句子表达)必须包含构成信息需求的最小前提组(minimal premise set)。
”1973年Wilson的定义(情景相关)相关信息的判断不仅涉及主题,而且与用户所处的环境相关,尤其是用户的知识状态1992年Harter的定义(认知相关)相关的判断由用户知识状态的改变来量度,是一个动态变化的过程3、相关性的基本特征关系(relation)直觉的(intuitive)多维的(multidimensional)动态的(dynamical)▲4、信息检索的相关性模型(Mizzaro’s Model )第一维:信息源(Information Resource)三个层次文档(document),文档替代品(surrogate),信息(information)信息源集合InfRes={Surrogate, Document, Information}第二维:用户信息需求(User’s Information Need)四个层次真实的信息需求(RIN)感知到的信息需求(PIN)检索请求(Request)查寻提问(Query)UserIN={RIN, PIN, Request, Query}第三维:时间(Time)从RIN开始的反复迭代时间过程Time=,t(rin0),t(pin0),t(r0),t(q0),…,t(rink),…,t(qn)-第四维:组件(Components)基本成分主题(topic),任务(task),情境或语境(context)Comp=P(Topic,Task,Context)={{Topic},{Task},{Context},{Topic,Context},{Topic,Task},{Task,Context},{Topic,Task ,Context}}相关的形式化定义Relevance=InfRes×UserIN×Comp×Time▲典型的相关形式(3种)语法相关检索表达式与信息特征集合在形式(词形、词间关系)上是否匹配形式化描述Rel(Surrogate,Query,t(q0),{topic})语义相关:用户表达出来的信息需求与信息单元间的匹配关系形式化描述:Rel(Information,Request,t(q0),{topic,task,context})语用相关:用户的实际信息需求与检出信息单元间的匹配关系形式化描述:Rel(Information,RIN,T,{topic,task,context})5、影响相关性判断的因素信息与信息表示用户提问判断的环境与条件判断表达模式判断者特性五、数学模型(▲检索模型:集合模型,代数模型,概率模型)指为了某种目的,对现实世界的某一特定对象作一些必要的假设与简化,运用适当的数学工具得到的一种数据结构。
信息检索数学模型:运用数学语言与工具,对信息检索系统中的信息及其处理过程加以简化与抽象而得到的能描述信息检索实质的一种数据结构。
一、布尔检索模型(Boolean Retrieval Model)1.布尔检索的历史回顾与定义简要回顾1957年,巴.希列尔探讨了布尔逻辑在信息检索中应用的可能性1960年,在MEDLARS中成功应用造就了布尔检索的长期繁荣布尔检索模型的含义采用布尔代数的方法,用布尔表达式表示用户提问,通过信息标识与提问式的逻辑比较来检索信息的一种数学模型2.布尔检索的基本原理对信息单元用一组标引词予以表达,如信息i表示为:Ii=(T1,T2,T3,‥‥,Tm)信息提问用逻辑符号来描述概念间的关系,如某特定提问表示为:Qj=(T1×T2)+(T3×(-T4))系统以集合运算方式处理信息提问与信息单元表示间的匹配比较,响应输出一个包含有该提问式组配元且符合组配条件的信息集合检索课题Web2.0技术在交互式检索中的应用及前景分析概念,拟定检索式Web2.0(A),交互式检索(B)检索式:A×B或A+B检索实现机制集合论运算3.布尔检索模型的优点布尔逻辑式可以描述和用户思维习惯相一致的查询请求;布尔运算简单易行易于处理结构化的提问表达式,用户可通过结构化词典来扩大或缩小检索范围4.传统布尔检索模型的缺点布尔检索式的非友善性较难控制检索输出量无差别的组配元准确匹配标准不太合理检索结果不能按任何用户定义的重要性排序输出二、模糊集合模型(Fuzzy Sets Model)1.模糊集合模型的历史回顾1973年,内戈伊塔(C.V. Negoita) 尝试用模糊逻辑来解释信息检索的原理1976年,塔哈尼(V. Tahani) 建立了模糊集合检索模型,拉德基(T. Radechi) 等人提出为提问中每个词选定一个阈值来简化运算过程1991年,奥加娃(Y. Ogawa)与莫瑞塔(T. Morita)等人提出了一个更好的模糊模型2.模糊集合模型的含义概念:以模糊集合论为基础,用隶属度函数来描述信息单元,用布尔逻辑关系来描述提问并进行检索的检索模型逻辑关系的运算设A与B是两个模糊集合,AC是论域U上相对于A的补集,x为U中任一元素,则有μA∪B(x)=max(μA(x), μB(x) )μA∩B(x)=min(μA(x), μB(x) )μAC(x)=1- μA(x)3.模糊检索模型的基本原理用隶属度函数来描述信息单元与标引词间的相关程度对某一给定的信息单元i和标引词t,i对t的隶属度可以定义为:μF:I ×T→[0,1] ,(i,t) →μF(i,t)标引时,除给出标引词外,还要指出标引词与信息单元间的相关程度,如i1={(t1,0.8),(t2,o.5)} 用户提问可用布尔逻辑表达,并给出所需信息中每个标引词的隶属度检索过程中,模糊集合的运算根据扎德规则来进行,检索结果排序输出4.模糊检索模型的主要特点与传统布尔检索关系密切,保留了布尔检索功能,且使用更灵活检索结果可按用户定义的重要程度排序输出5.模糊检索模型的不足由于建立在布尔逻辑的框架上,故带有布尔模型的某些缺陷排序能力对提问式中所有词并不灵敏定义合适的隶属度函数不太容易三、扩展布尔检索模型(Extensive Boolean Retrieval Model)1.扩展布尔检索模型的原理解决问题布尔检索中的刚性处理(含少量提问词与含大量提问词同等对待)基于标准化距离函数(欧氏距离和向量范数)来匹配提问式与信息单元。