2 网络信息采集技术介绍学习内容1.网络信息采集概述2.网络信息采集技术的发展3.网络信息采集软件简介实训内容网络信息采集软件的使用学习目标掌握:网络信息资源采集的质量标准、途径与策略,网络检索自动化技术的发展,常用网络信息采集软件的使用方法。
理解:网络信息采集的特点、原则,网络检索多媒体技术的应用及检索工具的智能化发展。
了解:网络信息采集系统的应用前景,常用网络信息采集软件的种类。
2.1 网络信息采集概述网络信息采集是指从互联网共享服务资源中收集、处理和分析网络实体信息的过程。
网络信息采集不仅包括对互联网公共实体信息的查询和存储,还包括对信息的归类、提取和解析,更重要的是在已收集信息的基础上分析数据,并将分析结果用于实际问题的解决。
2.1.1网络信息资源采集的原则网络资源纷繁而复杂,为了避免网络信息资源采集的随意性、无计划性和盲目性,对网络资源的采集必须严格执行统一的采集标准,主要包括以下几个方面的原则:第2章网络信息采集技术介绍全面性原则:全面性原则是对网络信息采集网罗度的要求。
对于所要采集的某方面的信息,要尽可能全面地采集,保证为收集到尽可能多的信息。
针对性原则:指应依据用户的实际需要,有目的、有针对性、有重点、有选择地获取利用价值大的、符合需求的信息。
针对性原则能够提高信息采集的准确性和价值性。
时效性原则:及时收集最新的、有效的信息,并定期对原有信息资源进行更新,方能使所保有的信息常新。
这样既能够保证资源得到有效的保存,又能保证信息资源的高质量。
选择性原则:采集时首先应对信息来源有所选择,重点采用信誉高、稳定性强的网站的信息。
其次,资源采集所用的方法要有所选择,应用不同的信息采集方法所获得的信息往往不同,要善于通过多种途径进行信息的采集工作。
再次,采集的信息应把质量放在首位,在保证质量的情况下兼顾数量。
全程性原则:信息采集是一个全过程的连续性的工作。
信息资源必须持续不断地补充,进行长期的积累。
这样才能反映这些资源的历史、发展状况、特点及规律,从而保证所收集的资源具有较高的使用价值。
2.1.2网络信息资源采集的特点网络信息资源采集的特点主要表现为采集对象的多样化、采集方式的多元化以及采集手段的现代化。
1.采集对象多样化传统的文献信息资源采集是以纸张为载体的印刷型文献为主,采集种类单一。
而在网络环境下,各种各样名目繁多的电子文献和网络文献层出不穷,文献信息资源的种类呈现出多样化发展的趋势,文献信息资源的采集种类不仅包括传统的印刷型文献(如各类纸质型图书、期刊、报刊等),还包括各类电子文献(如电子图书、电子报刊、计算机软件等)和各类网上信息资源(即以数据库和网络为基础,通过联机系统或互联网向用户提供的文献信息)。
2.采集方式多元化传统的文献信息资源采集主要是根据需要,通过订单向出版社或书商订购或直接到书店选书,采集方式比较单一。
而在网络环境下,由于信息存储、传输和再现发生了变化,文献信息资源的出版发行渠道变得更加复杂多样,人们采集文献信息资源的方式除了订购、现购、交换、接受赠送等传统方式外,还包括入网、联机使用、租用、免费获取等方式,采集方式呈现出多元化的趋势。
3.采集手段现代化传统的文献信息资源采集,主要是以手工操作的方式进行,程序复杂、烦琐,不但花费大量的时间,而且容易出现差错。
网络环境下的文献信息资源的采集实现了现代化、电子化和网络化,用先进的计算机技术可以从事查重、打印订单、统计、验收等工作,不仅速度快、效率高,而且不容易出现差错。
另外,现代化的采集工具不仅提高了工作质量和工作效率,也节约了采集人员的时间和精力,使他们能够有足够的精力了解、掌握、研究文献信息资源方面的出版动态,保证文献信息资源的采集质量不断提高。
2.1.3网络信息资源采集的质量标准严格的资源采集标准是信息资源可靠性的关键保障之一。
可以从内容和形式两个方面对网络信息资源的质量进行评价。
1.内容标准内容标准主要包括权威性、实用性、准确性、实效性、独特性、全面性等。
权威性:信息发布者是学术权威或者是有影响的学术机构,专业性网站评价机构对其有较好的评价结果,资源在本领域有一定知名度与学术号召力,得到本领域相当数量专业学者的公认。
实用性:广告所占比例低,对信息进行了深度揭示,包括与其他外部信息的链接,对链接列表中的资源有注释说明。
准确性:资源内容基本覆盖资源标题所言范畴,内容客观,信息(包括引用信息)准确可靠,语法和拼写错误很少甚至是没有,转载的内容有来源说明,链接有效性高。
时效性:资源内容反映学科的最新发展,近期内进行过内容更新且注明了最后更新日期。
独特性:资源包含信息基本上是其他网络资源不具有的,网站上的内容主要为原始信息而非转载或指向其他网站的链接。
全面性:资源内容包含了该领域的尽可能全的信息,资源来源渠道多样化。
2.形式标准形式标准主要从三个方面去衡量,即资源的组织与利用方式、资源的接入条件、网站的页面设计。
资源的组织与利用方式:包括资源的分类与组织是否科学、合理,浏览导航结构是否清晰、易用,网站资源是否具有供用户检索的搜索引擎,搜索引擎是否允许逻辑运算,搜索结果能否按相关度排序等。
资源的接入条件:资源的接入是否便利,对用户的硬件和软件是否有特别的要求(比如安装插件或特殊软件),是否有知识产权方面的限制条件,是否需要注册才能访问,资源接入时反应是否快捷。
网站的页面设计:用户界面是否友好,页面是否整洁、柔和、协调、美观,网页各部分的位置关系和所占比例是否合适,是否具有准确的站点导航图。
2.1.4网络信息资源采集的途径与策略1.网络信息资源采集的途径目前流行的采集技术主要是人工采集、网站系统抓取以及定制信息等。
(1)人工采集人工采集是通常的网络信息采集方式。
在现在的互联网世界里,用户接触最多的网络信息是以Web 页面形式存在的。
另外,电子邮件、FTP、BBS、电子论坛、新闻组也是互联网上获取信息的常见渠道。
以学科信息为例,常见的人工获取网络信息的主要方式有:通过相关领域的学科主题指南或学科信息门户进行搜索:学科主题指南一般是由学会、大学、研究所和图书馆等学术团体和机构编制的网络学科资源导航目录。
学科主题指南经过专业人士的加工和组织,所含的信息切合主题,实用价值较高。
第2章网络信息采集技术介绍使用搜索引擎采集信息:搜索引擎是最常用的搜索相关信息的工具,使用搜索引擎可采用两种方法:一是利用关键词来检索,二是通过学科分类体系来查找。
专业搜索引擎是查找网上某种信息的检索工具。
利用专业搜索引擎所查找出来的信息具有学术性强、质量高等优点。
利用专业网站查找:专业网站是获取相关学科信息的一个捷径,它提供与学科有关的电子出版物、专利、标准、会议和专业数据库等信息。
跟踪综合性门户的相关栏目:许多综合性门户都设置有一些学科专业栏目,并定期更新和发布一些重要学科信息,也具有很好的参考价值。
跟踪相关的重要国际组织或机构的网站:重要国际组织或机构的网站本身就是待收录的高质量资源,并且质量越高的网站所给出的相关链接质量也可能越高。
这些链接往往已经是经过专业人员选择的结果,需要纳入跟踪和搜索的范围。
了解相关学科领域的专家并搜寻他们的个人网站:这些网站本身或者其中给出的链接列表都可能是高质量的资源。
搜索和加入相关领域的重要主题性邮件列表:相关领域的重要主题性邮件列表大都以免费订阅的方式将其更新、公告或出版物发送给订阅者,也是一种很有用的信息源。
上面所介绍的通过IE 浏览器浏览Web 页面,通过Outlook 收发电子邮件,通过登陆FTP 服务器上下载资料等等都是利用客户端软件手工链接到信息源去获取信息,属于人工采集。
这种采集方法有一个共同点:用户手工键入一个URL 或电子邮件地址,这些客户端软件就链接到信息源,用户可以从信息源上获取所需信息。
(2)采集器自动抓取(信息采集技术)随着互联网的迅速发展,仅仅依靠人工搜集、整理信息已愈来愈不能满足实际需要。
于是人们开始探索新的信息获取方式,采集技术和推送技术就是应这种需求而产生的。
信息采集技术是目前时兴的一种信息获取方式。
信息采集技术是在用户设定某些信息源的某类信息后,采集器就自动地定期从这些信息源中取出用户所需的最新信息。
这是一种定向收集和定题收集相结合的主动的、跟踪式的多向收集,它的特点是获取信息主动、灵活。
资料:采集器自动抓取的优缺点利用采集技术的优点是:①用户自己可以设置信息源和所需信息类型;②具有信息自动化、本地化、集成化、最新化的特点。
信息自动化是指用户不必一个一个的去各个信息源去取信息;信息本地化是指用户不必到远程信息源去取信息,采集器已经把用户所要的信息采到本地了;信息集成化是指采集器可以一次性把各个信息源的同类信息都采过来;信息最新化则是指采集器采过来的都是最新信息,用户不再需要从信息源的新旧信息中分辨出新信息了。
③采集技术在定向收集和定题收集、主动收集、跟踪收集等方面都较推送技术有明显的优势,另外在个性化方面也是推送技术无法比拟的。
但采集技术也有它的缺点,那就是所获取的信息都是原始信息,还需要进行加工。
(3)定制信息(推送技术)虽然在信息处理系统中,信息推送属于信息服务提供的手段。
但从需要获取信息的用户角度来看,接受信息服务也是一种获取信息的方式。
因此信息推送也是一种信息获取技术。
这种方式有点类似传统的广播,有人称它为“网络广播”。
网络公司通过一定的技术标准或协议,从网上的信息源或信息制作商获取信息,经过加工之后,通过固定的频道向用户发送信息。
这种方式的特点是用户获取信息比较被动,只能定制自己的频道,信息的来源以及信息的具体内容往往不能灵活地控制。
资料:定制信息的优缺点通过推送技术获取信息的优点主要有:①可以定制自己所需的信息;②自己不必过问信息从哪里得到;③接受的信息都是推送服务提供者从信息源获取的、经过加工的有效信息。
通过推送技术获取信息的缺点是:①用户定制的选择空间是有限的;②虽然用户可以中止或更改所要的服务,但是被动的和不方便的;③目前多数推送服务提供者只推送信息的主题,具体的内容还要用户去信息源去取。
2.网络信息资源采集的策略网络信息资源采集的策略主要有以下几种:(1)限制采集的深度:从采集深度考虑,通常情况下,如果用户通过IE浏览器看新闻的话,从首页开始,最多点击三层,就可以看到所需的所有新闻内容。
同样的道理,采集器只要采集三层就能得到各个具体的新闻内容,而没有必要采集更深的层次。
(2)限制某些链接:从采集广度考虑,对于那些大家都不感兴趣的链接,完全可以设定不采这些链接,这样就大大地减小了采集工作量,从而也大大地减少了过滤的工作量。
这是限制采集广度的一个强有力的手段。
(3)限制搜索跳转:作为专业搜索引擎,要采集的信息资源通常集中在几个固定的初第2章网络信息采集技术介绍始网站内,这样就不希望网站采集器跳转到其它的网站。