万方数据库的使用
பைடு நூலகம்
文献检索的步骤
1.分析研究课题,制定检索策略 2.利用检索工具,查找文献线索 3.根据文献出处,索取原始文献
文献检索的效果 1.检索效果的的评价指标 检索效果:指检索系统检索的有效程度,它反映了检索系统的能力.其 中,查全率(Recall Factor)和查准率( Pertinency Factor)是两个最主要也是 最常用的指标. 实践表明:查全率 R和查准率P之间存在互逆关系,即提高R会降低P,反 之亦然.在现代科技信息检索系统中,R为60%~70%,P为40%~50%. 2. 提高检索效果的措施 要提高检索效果,有三方面的工作: 提高检索系统的质量 提高用户利用检索系统的水平,最大限度地发挥检索系统的能力 合理调整查全率和查准率
Date/weight=3 relevance 含义:检索数据库所有字段中包含"数字图书馆"和作者字段精确为
"张晓林"的记录,结果按最新论文优先的方式进行排序.
2.2.2 SRW
SRW(Search/Retrieve Web Service)是查询获取网络服务协议,它的目 的是通过提供通用的框架结构,整合对各种网络资源的访问,使分布式数 据库之间能够协同工作.SRW是由Z39.50协议开发者根据网络发展的相 关技术,提出基于Web Service的协议. SRW协议的服务包括:检索,浏览以及服务能力. 目前万方系统支持检索以及服务能力两项服务.系统SRW服务的发布地 址是:/srw/srw.asmx
是使人易读,易写.接下来我们简单学习一下CQL.
简单词 表示不需要加入任何运算符和修饰符,直接输入检索词 进行检索.
关系表达式
关系运算符 = 相当于模糊匹配,用于查找匹配一定条件的记录. 精确等于某个值. exact 能精确匹配一串字符串. all 当检索词中包含有多重分类时,它们分别可以被扩展成布尔 运算符"and"的表达式. any 当检索词中包含有多重分类时,它们分别可以被扩展成布尔运算 符"or"的表达式.
2.2.4 COUNTER
COUNTER是Counting Online Usage of Networked Electronic Resources的缩写,这个项目致力于建立电子资源的 使用统计数据规范框架及实施推广流程.《COUNTER实施规 范》已成为越来越多的出版商所采用,作为规范电子资源利用 统计数据的采集,报告和传递的标准,图书馆有了更可靠,稳 定的依据来评价和比较本馆电子资源的价值和使用情况. 万方数据知识服务平台镜像版中为用户提供遵循COUNTER规 范的统计数据.
连续出版物
1.3 文献检索的概念
信息检索:是将信息按一定的方式组织和存储起来, 并根据信息用户的 需要找出有关信息的过程和技术.全称为"信息存储与检索" .根据
检索对象形式的不同,信息检索可以分成文献检索和数据/事实检索.
文献检索:是一种相关检索,凡以文献(包括文摘,题录或全文)为检索
对象的检索,一般它不直接解答用户所提出的技术问题本身,只提供与
2.1 D-Rank排序算法 2.2 行业标准 2.3 检索结果的管理 2.4 知识网络 2.5 期刊评价体系
1.1 信息,知识和文献 1.2 科技文献的类型 1.3 文献检索的概念
1.4 文献检索的方法和 途径
1 文献检索概述
1.1 信息,知识和文献
信息:事物发出的体现它存在和运动状态的信号和消息. 知识:人类在改造客观世界实践中所获得的认识和经验的总和. 文献:记录有知识的一切载体.
目前万方数据知识服务平台支持期刊论文和学位论文两个数据库. 期刊论文基础URL: /OpenUrl/Periodical.aspx. 学位论文基础URL: /OpenUrl/cddb.aspx.
┌→分类途径:一种按照文献信息所属学科属性进行检索的途径. 检 ┌→内容特征途径→┴→主题途径:是通过文献的内容主题进行检索的途径. 索→┤ ┌→题名途径:根据文献题名来检索文献的途径. 途 │ ├→著者途径:根据已知文献著者姓名来检索文献的途径. 径 └→外表特征途径→┼→机构名称途径:根据机构名称检索该机构的文献情况的途径. ├→号码途径:根据其自身的编号来检索文献. └→其它途径:如分子式,元素符号,数字等.
万方数据知识服务平台 培训教材
万方数据软件研发中心 万方数据产品合成与运营中心 2007年10月15日
主要内容
第一章:文献检索与知识服务基础知识
1 文献检索概述
1.1 信息,知识和文献 1.2 科技文献的类型 1.3 文献检索的概念 1.4 文献检索的方法和途径
2 知识服务基础知识
2.1 D-Rank排序算法 2.2 行业标准 2.3 检索结果的管理 2.4 知识网络 2.5 期刊评价体系
2.2 行业标准
2.2.1 CQL检索语言 检索语言是为沟通文献标引与文献检索而编制的人工语言,也 是连接信息存储和检索两个过程中标引人员与检索人员双方思路的 渠道,是用于文献标引和检索提问的约定语言. 万方数据知识服务平台使用的检索语言是CQL(Common Query
Language).CQL是一种正式的非常直观的检索语言,其设计目的
之相关的文献供用户参考. 数据或事实检索:是一种确定性检索,凡以数据或事实为检索对象的, 直
接回答用户提出的技术问题,提供用户所需要的确切数据或事实.检
索结果一般是确定性的有或无,对或错.
(参见《科技信息检索》)
1.4 文献检索的方法和途径
定义:所谓文献检索的方法,即查找文献的方法. 分类:常用法,追溯法和综合法三种. 文献检索的途径 文献的内容特征:一般是根据课题内容和所属的学科范围查找有关的文献信息,因此 该途径是主要的检索途径. 文献的外表特征:包括题名,作者,作者单位以及某种特殊文献自身的特征标识,如 专利文献的专利号,科技报告报告号,标准文献的标准号等.
万方数据知识服务平台全面采用了D-Rank算法,同时,创新性地提供了 多个指标的组合排序方案,收到了良好的效果.
D-Rank文献检索排序算法,在搜索引擎常用的PageRank,HITS算法以及 springerlink,elsevier,Entrez PubMed等若干知名文献检索系统的排序方案设 计的基础上,考虑对用户有意义的指标,通过不同指标的不同权重组合来进 行排序.
名称:用户经常需要按照资源的名称,如论文标题,这样的顺序找到自己知道标题的 资源. 创作,制作者:用户需要在检索结果中,按照作者的排序来寻找某个人或者单位创作 的资源.
时间:在检索结果中,时间能够描述资源对于用户的新旧程度.
相关度:用户应该更关心与自己最相关的资源,因此按照相关度排序对用户来说是很 重要的. 被引用数:被引用数目说明了此资源的重要程度,被引用越多,说明此资源有价值的 可能性越大,因此按照被引用数排序一定程度上表明了资源的价值. 刊物级别:对期刊资源来说,刊物的级别,在一定程度上说明了文献的级别及针对性. 浏览次数和下载次数:其他用户访问这个资源的次数说明此资源的受欢迎程度,或者 有用性程度,被下载次数越多说明这个资源有价值的可能性越大,因此按照浏览和下 载次数排序一定程度上表达了资源的价值.
关系修饰符
支持通配符"*":表示匹配任意0个或多个字符,如果表 示单个字符"*",那么可以用转义字符"\*"来表示.
布尔表达式
布尔运算符 and:用"与"组合检索项,表示查找包括这两项的记录. or:用"或"组合检索项,表示查找包括这两项或仅其中 任一项的记录. not:使用"非"查找包括某一项而非另一项的记录.
CQL检索样例
激光 and KeyWords=纳米 含义:检索数据库所有字段中包含"激光"和关键词中含有"纳米" 的记录.
Title All "电子逻辑电路"
含义:检索数据库论文标题字段中含有"电子逻辑电路"的记录.
数字图书馆 and AuthorName exact 张晓林 sortby CitedNum
万方知识服务平台还提供了用户可以自己设置排序指标的权重的功能.
系统提供了核心期刊指数,被引用频率,时间指数,相关度指数四个排 序指标,用户可以通过拖动每个指标上的滑动条来调节此指标在排序中 的重要程度.分值越高表示此指标越重要,0表示排序时不考虑此指标, 10表示此指标最重要.用户就可以通过自己手动调节各个排序指标的权 重,来满足自己对检索结果的需要.
D-Rank算法的应用
万方数据知识服务平台提供了经典论文优先,最新论文优先,相关度优 先三种固定的排序方式.
经典论文优先,最新论文优先,相关度优先三种排序方式分别针对 不同的排序需求: 经典论文优先:用户需要比较经典,有价值的文献,比如被引用数比较 多,或者文章发表在档次比较高的杂志上等. 最新论文优先:用户需要本领域最新的研究成果,发表时间比较新的文 章. 相关度优先:用户需要所有和查询的条件内容最相关的文献.
第二章:万方数据知识服务平台服务介绍
1 论文服务 3 中外标准的检索 5 科技成果的检索 7 NSTL西文文献 2 专利技术的检索和浏览 4 法律法规的检索 6 科研机构的检索 8 专题浏览
第三章:万方数据知识服务平台使用技巧
第一章文献检索与知识服务基础知识
1 文献检索概述
2 知识服务基础知识
事物发生发出信息;信息经人脑加工变为知识;知识被记录形成文
献;文献经传递,应用于理论与实践产生新的信息. (参见《科技信息检索》)
1.2 科技文献的类型
根据文献的编辑出版形式划分 图书 特种文献
普通图书,工具书 学位论文,会议文献,标准规 范,专利文献,科技报告,政 府出版物,产品资料 期刊,报纸,期刊型书籍