网络信息采集大师使用手册网络信息采集大师使用手册 (1)一、软件界面介绍 (2)二、分类 (2)三、URL导航类型任务 (3)四、脚本类型任务 (8)五、地址列表类型任务 (9)六、数据采集的更多高级设置技巧(任务-数据提取规则-‘更多设置’按钮) (11)七、任务调度 (19)八、数据导出(发布) (22)九、数据库 (24)十、系统设置 (28)十一、其他 (29)十二、注意事项 (29)一、软件界面介绍菜单和工具栏:在软件的最上面。
工具栏提供了最常用的功能。
分类数据区:软件的左边部分。
分类的目的是数据清晰,便于管理。
任务区:软件的中间部分。
任务属于某个分类,任务也是本软件的核心。
采集数据区:右下部分。
采集任务执行后,会动态的显示该任务的数据区。
该区数据可以导出为文本,Excel和数据库。
二、分类分类是为方便数据和任务管理而设计的。
默认有三个分类:自定义类别,正在运行,回收站。
用户自己建的类别只能属于自定义类别。
正在运行类别里只包含正在运行的任务,任务停止后自动退出该类。
回收站是给用户以重新利用的机会。
分类没有层次限制,理论上可以建立无限个,无限层类别。
类别数据有三个最新备份,放在目录\files下,为数据安全提供了可靠保障。
备份分类数据库/恢复分类数据库:在菜单[文件] 下面。
用此功能可手动备份或手动恢复分类数据。
新建类别:在[自定义类别]点右键\新建,或者选菜单任务\新建。
在打开的窗口里输入类别名称,注释后保存。
注意:在新建一个类别之前,要先选择[自定义类别]或其子类,新建的类属于选择的类的子类。
类别移动:在[自定义类别]点右键\移动到,或者选菜单任务\移动到。
在打开的窗口里选择一个其他的类,保存后该类移动。
注意:在移动一个类之前,要先选择[自定义类别]的子类或者回收站里的类。
把一个类移动到回收站就是删除该类。
类别修改:在[自定义类别]点右键\属性,或者选菜单任务\属性。
在打开的窗口修改后保存。
类别删除:删除分两种:临时删除和彻底删除。
把[自定义类别]的类删除属于临时删除,把回收站里的类删除属于彻底删除。
三、URL导航类型任务URL导航类型任务是使用最为广泛的任务类型,特点是低耗高效,功能极其强大。
任务的建立有很多技巧,可在实践中去体会。
可在官方网站找到经常会更新的帮助信息:在线帮助| 常见问题解答下面介绍关于任务设置的基本概念,核心内容和设置技巧:综述:URL导航任务最为常用。
在浏览器里浏览不同的网页数据,地址都会随之做相应的变化,这种情况最适合URL型。
URL型的特点是低耗高效,可在系统工具栏‘选项’里面通过设置不同的运行线程数,自由控制速度。
需要登录才能看到的信息,要先在'登录设置'里进行登录.1.1 任务概述点工具栏里的‘新建’或者菜单‘任务\新建’。
打开新建任务窗口。
如图:任务名称:必填项。
给该任务起一个具有标示性的名字。
可以是汉字,字母,数字或其组合。
任务注释:可选项。
给该任务作一个备注。
所属类别:必填项。
可选择"自定义类别"或其子类的任一分类。
任务类型:用URL导航类型。
登录设置:有些网站需要登录后才能看到需要的数据,可在此处登录,登录后关闭登录窗口,即可保存登录设置。
点[下一步] 后,进入采集规则的设置。
1.2 采集规则此页数据的填写较为关键,直接关系到数据能否采集。
起始地址:必填项。
要采集页面的开始地址。
也可以是一个本地文件,如c:\list.txt, 该文本文件里是采集页面的地址集合。
导航关键字:可连接到下一页的关键字符串。
一般来说采集的信息是多页的,如http://....page=1 , http://...page=2等等,页码数字前面的字符串page就是导航关键字。
若不添该项,则只采集起始地址的数据。
采集页数范围:采集哪一页到哪一页之间的数据,可以是1到1000,也可以是1001到1500等。
若不添该项,则只采集起始地址的数据。
增量:默认为1。
一般来说页码变化是连续的。
采集网址标识:需要抓取数据的页面的URL地址关键字。
若采集本级页面数据,为空即可。
过滤网址标识:不打算采集的页面地址里的关键字,一般情况下不用。
关联网址标识:一次采集多个页面的信息组合成一条数据。
在此填写关联网址的关键字。
注意该标识符在整个网页源码中具有唯一性,可以组合url前后的字符串来标识。
采集数据页包含分页:一般用来采集新闻,文章等一篇文章用多个页面来显示的情况,关键字就是分页地址里的关键字符串。
采集关键字替换:一般不用,为了提高采集效率设置。
目的是把某些url地址,直接替换成自己想要采集数据的url地址;而这个地址可能隐藏在比较深的页面之下,若直接采集的话,会在查找url地址上浪费大量时间。
点[下一步] 后,进入数据提取规则的设置。
1.3 数据提取规则如图:本页提取多行同类数据:比如只采集文章的标题列表等。
中文名称:自己随便命名. 比如‘姓名’‘联系地址’等。
前标识符:确定一个数据值的前符号。
在源文件里查找。
(先在软件的浏览器里打开要分析的网页,然后点‘源文件’按钮,可显示要分析的源文件数据。
注意不要直接用ie浏览器得到网页源代码,一定要用软件的‘源文件’按钮)后标识符:确定一个数据值的后符号。
参考前标识符的解释。
信息类型:其中有几种最为常用,分别予以解释:URL类型:当一个数据项被设置成URL类型时,假如采集到地址不完整,会自动格式化成一个完整的地址。
比如采集到的是/1001.htm,而任务的'网站首页'设置为/news,那么地址会自动格式化为/news/1001.htm附加类型:采集的信息里,有循环的,有不循环的,这时不参与循环的要设置为附加类型。
附加类型的数据项可在信息的头部或底部,不可在中间穿插。
常量:有时采集的数据项里, 其中有一个或多个数据项不需要采集, 但要和采集结果在一起, 可把这些数据项设置为常量, 常量的值就是前标识符的值。
多媒体类型:用于自动下载二进制文件。
比如采集到类似http://www..../1.jpg,会自动下载到本地。
文章类型:用于采集新闻等。
关联地址类型:该类型数据用于作为关联URL使用,可实现把分散在多个页面数据整合成一条。
与"采集规则-关联网址标识"作用类似。
提取数据页的全部数据作为一个数据列:把采集的数据整个输出。
一般适用于数据很难拆分的情况。
若使用该项,下面的不用再设置。
保存对应的URL:有时候URL能标识一行具体的数据,这样数据导入数据库后,用户能很方便的分辨。
区分大小写:采集英文的数据,可选中此项,因为中文没有大小写之分。
(采集新闻最好选中该项,有些图片地址对大小写敏感)自动截取字串:使用默认即可。
保留html代码:默认情况下,采集到的html代码中,< >之间的部分会自动清除,选中该项后可保留代码;比如采集文章等,保留原代码相当于保留了原格式。
该选项是针对每个数据项的,这样做的好处是有些数据项是不需要保留html代码的,有更大的灵活性。
附:填写前后标识符要领1.一个数据项,一定要在前后标识符之间。
比如类似这样的源文件:<tr>地址:</td> 北京... </td></tr> 。
要采集‘地址:北京’,那么前标识符是‘<tr>’,后标识符是‘</tr>’,而不是‘</td>’。
因为‘北京’前面已经有个‘</td>’。
至于< >之间的数据,软件会当作无效字符,自动忽略。
当然, 如果选中'保留html代码', <>之间的字符会保留下来2.采集数据项的顺序一般要和网页上的数据项的顺序一致。
这个很好理解,提取信息是按照从上而下的顺序。
当然,如果去掉‘自动截取字符串’选项,则可以不按照从上而下的顺序,但要确保每个采集项的前后标识符具有唯一性,否则采集到的数据可能不是想要的数据。
3.若打开‘区分大小写’选项,则前后标识符的大小写一定要正确。
采集英文信息注意打开此项。
四、脚本类型任务脚本类型任务适用于javascript等脚本来操控网站的情况,如点下一页时地址栏没有变化,用类似javascrip:post('next',1)等来控制。
可在官方网站找到经常会更新的帮助信息:在线帮助| 常见问题解答综述:脚本类型任务的‘任务概述’和‘数据提取规则’与URL导航类型任务基本一样,不同之处在于采集规则,这里只讲述采集规则设置。
操作界面如下:脚本类型任务分脚本式和点击式。
脚本式:在把鼠标放在一个页面地址链接上面的时候,在浏览器状态栏的左下角,会显示鼠标所在处的url地址,有些地址是完整的,有的是类似javascript:submit('page', 2)等样式,这种情况下,可用脚本式。
比如,前脚本是javascript:submit('page', , 后脚本是) ,页码变化范围可以是1 , 10 等等,即前脚本+当前页码+后脚本=一个完整的脚本链接点击式:一般来说,点击式可包容脚本式,一个页面里的"下一页", "下页"等等都可以作为脚本式的"导航对象的标签";导航对象的索引值即指该导航对象标签在整个页面中所处的位置,填写导航对象的标签会忽略其索引值的填写。
可以指定点击次数, 也可以是直到最后一页才结束。
五、地址列表类型任务地址列表类型的任务,适用于已经有大量的数据源地址(URL),可以直接用这些URL直接获取数据的情况。
可以用这种类型任务采集本地磁盘上的信息,也可以采集网络上的信息。
其本质和URL类型任务相似。
官方网站经常会更新的帮助信息:在线帮助| 常见问题解答综述:地址列表类型任务的‘任务概述’和‘数据提取规则’与URL导航类型基本一样,不同之处在于采集规则,这里只讲述采集规则设置。
操作界面如下:指定本地文件:必须是一个文本文件,里面是要采集的URL地址集合。
如下图:也可以让软件自动分析网上的某一个页面得到地址列表。
后台执行:默认是从后台获取数据,和URL导航类型类似;不选该项,则和脚本类型任务相似,运行前弹出类似ie窗口。
六、数据采集的更多高级设置技巧(任务-数据提取规则-‘更多设置’按钮)可以设置数据自动保存,编码方式,获取网页框架等;可以设置完整采集或增量采集(断点续采);可以边采集边过滤,把不符合条件的数据过滤掉;可以自动分类。
把采集的数据按照自己的要求自动归类。
可以边采集边自动加工,包括多个采集项和字符串自由合并,数据替换,数据删除等;可以设置功能强大的新闻采集参数,设置新闻模板等。