评价信息检索的标准
一:准确度
准确性是评价信息表示质量的最重要指标,就是信息表示要能准确描述原文档的内容。
专指性是指一个与准确性密切相关的概念。
通常用于衡量标引质量。
一个词只能表示一个主题概念,极为专指性。
在定义上,专指性是对选词的表达主题的深度而言。
例如:信息检索————多媒体检索,在标引文件时,视频检索这一主题概念具有最高的专指性,相比之下,信息检索,多媒体检索专指性低。
二:简明性
简明性成为判断是否节约用户时和减轻用户负担时的一个重要指标。
不同形式的信息表示简明性的具体标准都已确立。
(1)查全率(Recall Ratio)
当用户要全面检索某一信息库时,检出的成功度可用检出的所有相关信息在信息库所有相关信息中所占的比例来表示。
这种对信息库检索全面性的测量指标即为查全率。
查全率与系统能够检索出的相关文献能力有关。
可定义为:
检出的相关信息数
查全率= ———————————————×100%
信息库中相关信息总数
(2) 查准率(Precision Ratio)
当用户要对检索到的结果进行分析时,检出的相关信息数在所有检出信息中所占的比例往往成了较重要的评判指标。
这种对检索结果中的相关信息的测量指标即为查准率。
也有称为信号噪声比(signal-to-noise ratio)。
查准率与检索出的相关信息数有关。
可定义为:
检出的相关信息数
查准率= ———————————————×100%
检出的信息总数查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。
若检出1 篇相关信息,必能达到100% 的查准率,但查全率却会非常低;同样,若检出的信息数等于库中信息的总量a + b + c + d,则必能获得100% 的查全率,但很显然查准率必定也低得可怜。
查全率和查准率是评价检索效果好坏的指标,而漏检率和误检率则是测量检索误差的指标。
10112107
乔明星。