当前位置:文档之家› 实验1 信息检索

实验1 信息检索

信息检索1.1实验目的1.掌握利用网络进行市场信息检索的基本思路;2.掌握利用网络进行市场信息检索的主要方法。

1.2 预习要求•掌握数据、消息、信息、的概念;清楚信息与消息的区别;掌握信息的特性;熟练掌握信息的生命周期;掌握信息系统的组成;了解互联网的基本应用。

1.3实验内容与步骤1. 明确检索目标要完成一个有效检索,首先应当确定检索的目标。

检索目标是指要检索的主要内容以及对检索深度和广度的要求。

检索概念较泛,尚未形成一明确的检索概念时,或仅需对某一专题做泛泛浏览时,可先用主题指南的合适类目进行逐级浏览,直到发现相关的网址和关键词后再进行扩检。

2. 选择查询策略不同目的的查询应使用不同的查询策略,这主要取决于是想得到一个问题的多方面信息还是简单的答案。

搜索引擎的统计表明,很多用户只输入一个词来进行查询,这会带来很多不需要的匹配。

要进行有效的搜索,最好输入与主题相关的、尽可能精确的词或词组。

提供的词组越精确,检索结果就越好。

同时,应通过不同词组的检索,逐渐缩小搜索范围。

3. 分步细化逐步接近查询结果如果想查找某一类信息但又找不到合适的关键词,可以使用分类式搜索逐步深化。

搜狐网站的主页上将所有的信息分为新闻、体育、财经、IT、生活、健康、理财等30余类,然后再根据各个大类分为各个小类,如在“IT”中又以细分为“互联网、通信、科学”等。

4. 使用模糊查询和精确查询模糊查询又称为智能查询。

当我们输入一个关键词时,搜索引擎不但反馈了包括关键词的网址,同时也发来与关键词意义相近的内容。

比如,在网站上查找“网络经济”一词时,模糊查询会反馈回来包含了“网络经济论文”、“网络经济与社会发展”、“信息经济”等内容的网址。

所反馈的网址的排列顺序一般是:完全符合关键词的信息在最前边,其次是相近的信息。

一般的搜索引擎都有这一功能,只是模糊的程序不同。

模糊查询没有特殊的方法,在文字框中输入关键词即可。

用逻辑条件限制这一功能允许我们一次输入多个关键词,各关键词之间的关系可以是“和”、“或”、“非”(“and”、“or”、“not”)或“+”、“–”、“﹡”等基本布尔操作符。

实验步骤:1.开机,打开IE浏览器窗口;2.在URL中输入或等搜索网站的域名,打开搜索网站主页;3.在主页中搜索栏中输入“管理信息系统”或者其他自己确定的关键词,点击“搜索”按钮;4.在随后出现的搜索结果页面中查看搜索结果,并选择相应的链接点击进入下一页面,查看具体的信息内容;5.在搜索结果页面的搜索栏中输入“数据”和”信息”两个关键词,中间用空格、顿号、加号、减号等符号分别连接起来,点击“搜索”按钮,进行组合查询;6.比较用不同的连接符号进行组合查询的结果有何不同,包括:查询结果有多少条,用时多少,第一页排序有什么变化等,并点击相应链接进行信息浏览和资料下载。

那图1:Google 检索的基本过程1.4 综合性搜索引擎介绍1) Google搜索引擎Google()是世界上最优秀的支持多语种的搜索引擎之一,它是由美国斯坦福大学博士生Larry Page与Sergey Brin于1998年发明的。

Google 公司1999年成立,2000年7月替代Inktomi 成为Yahoo公司的搜索引擎。

Google因具出色的搜索功能,1998年至今已经获得30多项业界大奖。

Google是目前世界上最大的搜索引擎,拥有80 多亿张网页和10亿多张图片的资源,界面可用100 多种语言表达,检索结果所采用的语言达30多种。

2) 百度中文搜索引擎百度在线网络技术有限公司()于1999年底成立于美国硅谷,是目前全球最优秀的中文信息检索与传递技术供应商。

在中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持。

它的创建者是信息检索技术专家、超链分析专利的持有人李彦宏和有多年商界成功经验的徐勇博士。

2005年5月20日,百度被《中国企业家》杂志评选为2005年度“最具成长性的新兴企业”,2005年8月5日百度在纳斯达克正式上市。

百度搜索引擎主要提供新闻、网页、贴吧、MP3、图片和网站的检索。

除网页检索只提供关键词检索外,其他栏目都提供目录和关键词两种检索方法,使用起来非常方便。

3) 慧聪行业搜索引擎慧聪公司()成立于1992年,是国内领先的商务资讯服务机构。

2003年12月,慧职公司实现了在香港创业板上市,成为国内信息服务业首家上市公司。

行业搜索引擎是慧聪为商务人士开发的大型“专业”搜索引擎,其检索结果可按各类商业用途细分,并且能够按照行业进行专业筛选,将出售、求购、科技文献等内容单独体现于检索结果中。

例如,在“出售泵”的信息中,可以精确查找应用于水工业/暖通/石油/机械/化工等行业的泵的产品信息,这将极大提高商务人士的检索命中率,使商人不再为数以十万计的检索结果而苦恼,提高行业人士搜索的专业性和精确性。

下图是慧聪的行业分类检索页面。

4) 新浪、搜狐、网易的分类搜索引擎新浪、搜狐、网易是国内三大门户网站。

这三个网站都建立了强大的分类搜索引擎,各自具有自己的特色。

新浪网搜索引擎是面向全球华人的网上资源查询系统,分类检索目前共有18大类目录,205个二级目录,一万多个细目和数十万个网站,是互联网上最大规模的中文搜索引擎之一。

其网站收录资源丰富,分类目录规范细致,遵循中文用户习惯。

下图是新浪分类搜索引擎有关目录。

搜狐分类搜索引擎收录中文网站达150多万个,每日页面浏览量超过800万次,每天收到2000多个网站登录请求。

通过搜狐可以查找网站、网页、新闻、网址、软件、黄页等信息。

搜狐的目录导航式搜索引擎完全由人工加工而成,相比机器人加工的搜索引擎来讲具有很高的精确性、系统性和科学性。

分类专家层层细分类目,组织成庞大的树状类目体系。

利用目录导航系统可以很方便地查找到一类相关信息。

网易分类搜索引擎()目前使用新一代开放式目录管理系统(ODP)。

在功能齐全的分布式编辑和管理系统的支持下,现有5000多位各界专业人士参与可浏览分类目录的编辑工作,极大地适应了因特网信息爆炸式增长的趋势。

目前,该网站拥有超过一万多个类目,超过25万条活跃站点信息,日增加新站点信息500~1000条,日访问量超过500万次。

全新的搜索技术及广告搜索服务可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。

5) 北大天网中英文搜索引擎天网资源检索系统()是中国教育和科研计算机网示范工程应用系统课题之一,是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,于1997年10月提供Web信息导航服务。

天网系统目前已收录了1.05亿个网页和大量的新闻组文章,更新较快,功能规范,反馈内容完整,可在反馈结果中进一步检索。

天网支持简体中文、繁体中文、英文关键词搜索,而国内大部分搜索引擎都只收录中文网站,无法用来查找英文网站。

但天网不支持数字关键词和URL名检索。

提供FTP文件检索是天网的一个特色,它为高级用户查找特定文件提供了方便。

天网将FTP文件分为电影和动画片、MP3音乐、程序下载、文档资源共四大类,用户可以利用关键词或分类检索查找自己需要的FTP文件。

下图是从天网检索到的FTP文件。

6)国内部分涉及宏观市场信息的网站企业在网络营销中需要了解本国、贸易伙伴国及有关国际组织的贸易政策、金融政策、自然条件、社会风俗以及相关的法律和法规。

这类信息一般可在各类政府网站或国家主办的为促进贸易而设的网站上查询,这类网站一般提供了比较详尽的宏观信息。

如中华人民共和国国家发展和改革委员会网站()和商务部网站()主页。

7)国内可以提供调研服务的网站国内一些网站上也提供市场信息的调研服务,如中国调查网()提供市场调查、企业调查、传媒调查和舆论调查;零点调查网()的调查业务主要涉及耐用消费品、媒体娱乐、快速消费品、政府研究、IT电信、金融保险等30多个行业。

8)国外涉及调研服务的网站在国际上,比较著名的调研网站有国际营销和市场研究协会的网站(),它提供了世界各国的主要市场调研协会的联系方式。

9)数据库a) 国外有关数据库数据网()是世界上最大的数据库检索系统,它包括了全球大多数的商用数据库资源。

另外,它提供了一套专门的信息检索技术,有专用的命令,初次使用者需要认真学习才能掌握。

它提供了一个免费的扫描程序,可以帮助查询者得到扫描结果。

但若要索取具体的内容则要付费。

SpringerLink()是国际著名科技出版集团Springer的网络版全文文献服务系统。

SpringerLink提供全文服务的文献包括Springer出版的478种科技、医学等学术期刊,20余种世界知名科技丛书和权威的Landolt-Börnstein数值与事实型工具书。

其他比较著名的数据库还有美国的EBSCO(,包含商业资源电子文献库、学术期刊全文数据库、教育资源信息中心和报纸资源)、BigYellow(,包含几百个美国公司的数据库)、Europages(,欧洲最大的公司数据库,有来自25个国家的500 000个公司)、欧洲进出口公司数据库()、中东地区公司数据库()、澳洲贸易网(.au)、拉丁美洲网上博览会()、日本JETRO公司数据库(www.jetro.go.jp)、美国国内公司数据库()等。

b) 国内有关数据库国内比较常用的网络数据库有万方数据资源系统、中文科技期刊数据库、中国知网等。

万方数据资源系统() 由万方数据集团与中国科技信息研究所共同开发,是一个以科技信息为主,集科技、经济、文化信息为一体的网络数据库群,主要包含以下三类信息资源:(1) 科技信息系统,包括中国学位论文数据库、中国会议论文数据库、中国科技成果数据库、专利技术数据库、中外标准数据库和科技文献数据库。

(2) 数字化期刊,以中国数字化期刊群为基础,整合了中国科技论文与引文数据库及其他相关数据库中的期刊条目部分内容,基本包括了我国文献计量单位中自然科学类统计源刊和社会科学类核心源期刊。

(3) 企业服务子系统。

包括、政策法规数据库、中国科研机构数据库、科技名人数据库等。

中文科技期刊数据库(/index.asp)是科学技术部西南信息中心下属重庆维普资讯有限公司开发的数据库。

该库是目前国内最大的综合性科技类文献数据库,包括中文科技期刊数据库、中文科技期刊数据库(引文版)、外文科技期刊数据库、中国科技经济新闻数据库、维普医药信息资源服务系统,涵盖自然科学、工程技术、农业、医药卫生、经济、教育和图书情报等学科的8000余种中文期刊数据资源。

中国知网(/index.htm)是中国知识基础设施工程(China National Knowledge Infrastructure,CNKI)的主要组成部分,由清华大学、清华同方发起建设。

相关主题