当前位置：文档之家› 网络信息采集大师使用手册

网络信息采集大师使用手册

网络信息采集大师使用手册网络信息采集大师使用手册 (1)一、软件界面介绍 (2)二、分类 (2)三、URL导航类型任务 (3)四、脚本类型任务 (8)五、地址列表类型任务 (9)六、数据采集的更多高级设置技巧（任务-数据提取规则-‘更多设置’按钮） (11)七、任务调度 (19)八、数据导出（发布） (22)九、数据库 (24)十、系统设置 (28)十一、其他 (29)十二、注意事项 (29)一、软件界面介绍菜单和工具栏：在软件的最上面。

工具栏提供了最常用的功能。

分类数据区：软件的左边部分。

分类的目的是数据清晰，便于管理。

任务区：软件的中间部分。

任务属于某个分类，任务也是本软件的核心。

采集数据区：右下部分。

采集任务执行后，会动态的显示该任务的数据区。

该区数据可以导出为文本，Excel和数据库。

二、分类分类是为方便数据和任务管理而设计的。

默认有三个分类：自定义类别，正在运行，回收站。

用户自己建的类别只能属于自定义类别。

正在运行类别里只包含正在运行的任务，任务停止后自动退出该类。

回收站是给用户以重新利用的机会。

分类没有层次限制，理论上可以建立无限个，无限层类别。

类别数据有三个最新备份，放在目录\files下，为数据安全提供了可靠保障。

备份分类数据库/恢复分类数据库：在菜单[文件] 下面。

用此功能可手动备份或手动恢复分类数据。

新建类别:在[自定义类别]点右键\新建，或者选菜单任务\新建。

在打开的窗口里输入类别名称，注释后保存。

注意：在新建一个类别之前，要先选择[自定义类别]或其子类，新建的类属于选择的类的子类。

类别移动:在[自定义类别]点右键\移动到，或者选菜单任务\移动到。

在打开的窗口里选择一个其他的类，保存后该类移动。

注意：在移动一个类之前，要先选择[自定义类别]的子类或者回收站里的类。

把一个类移动到回收站就是删除该类。

类别修改:在[自定义类别]点右键\属性，或者选菜单任务\属性。

在打开的窗口修改后保存。

类别删除:删除分两种：临时删除和彻底删除。

把[自定义类别]的类删除属于临时删除，把回收站里的类删除属于彻底删除。

三、URL导航类型任务URL导航类型任务是使用最为广泛的任务类型，特点是低耗高效，功能极其强大。

任务的建立有很多技巧，可在实践中去体会。

可在官方网站找到经常会更新的帮助信息：在线帮助| 常见问题解答下面介绍关于任务设置的基本概念，核心内容和设置技巧：综述：URL导航任务最为常用。

在浏览器里浏览不同的网页数据，地址都会随之做相应的变化，这种情况最适合URL型。

URL型的特点是低耗高效，可在系统工具栏‘选项’里面通过设置不同的运行线程数，自由控制速度。

需要登录才能看到的信息,要先在'登录设置'里进行登录.1.1 任务概述点工具栏里的‘新建’或者菜单‘任务\新建’。

打开新建任务窗口。

如图：任务名称：必填项。

给该任务起一个具有标示性的名字。

可以是汉字，字母，数字或其组合。

任务注释：可选项。

给该任务作一个备注。

所属类别：必填项。

可选择"自定义类别"或其子类的任一分类。

任务类型：用URL导航类型。

登录设置：有些网站需要登录后才能看到需要的数据，可在此处登录，登录后关闭登录窗口，即可保存登录设置。

点[下一步] 后，进入采集规则的设置。

1.2 采集规则此页数据的填写较为关键，直接关系到数据能否采集。

起始地址：必填项。

要采集页面的开始地址。

也可以是一个本地文件，如c:\list.txt, 该文本文件里是采集页面的地址集合。

导航关键字：可连接到下一页的关键字符串。

一般来说采集的信息是多页的，如http://....page=1 , http://...page=2等等，页码数字前面的字符串page就是导航关键字。

若不添该项，则只采集起始地址的数据。

采集页数范围：采集哪一页到哪一页之间的数据，可以是1到1000，也可以是1001到1500等。

若不添该项，则只采集起始地址的数据。

增量：默认为1。

一般来说页码变化是连续的。

采集网址标识：需要抓取数据的页面的URL地址关键字。

若采集本级页面数据，为空即可。

过滤网址标识：不打算采集的页面地址里的关键字，一般情况下不用。

关联网址标识：一次采集多个页面的信息组合成一条数据。

在此填写关联网址的关键字。

注意该标识符在整个网页源码中具有唯一性，可以组合url前后的字符串来标识。

采集数据页包含分页：一般用来采集新闻，文章等一篇文章用多个页面来显示的情况，关键字就是分页地址里的关键字符串。

采集关键字替换：一般不用，为了提高采集效率设置。

目的是把某些url地址，直接替换成自己想要采集数据的url地址；而这个地址可能隐藏在比较深的页面之下，若直接采集的话，会在查找url地址上浪费大量时间。

点[下一步] 后，进入数据提取规则的设置。

1.3 数据提取规则如图：本页提取多行同类数据：比如只采集文章的标题列表等。

中文名称：自己随便命名. 比如‘姓名’‘联系地址’等。

前标识符：确定一个数据值的前符号。

在源文件里查找。

（先在软件的浏览器里打开要分析的网页，然后点‘源文件’按钮，可显示要分析的源文件数据。

注意不要直接用ie浏览器得到网页源代码，一定要用软件的‘源文件’按钮）后标识符：确定一个数据值的后符号。

参考前标识符的解释。

信息类型：其中有几种最为常用，分别予以解释：URL类型：当一个数据项被设置成URL类型时，假如采集到地址不完整，会自动格式化成一个完整的地址。

比如采集到的是/1001.htm，而任务的'网站首页'设置为/news，那么地址会自动格式化为/news/1001.htm附加类型：采集的信息里，有循环的，有不循环的，这时不参与循环的要设置为附加类型。

附加类型的数据项可在信息的头部或底部，不可在中间穿插。

常量：有时采集的数据项里, 其中有一个或多个数据项不需要采集, 但要和采集结果在一起, 可把这些数据项设置为常量, 常量的值就是前标识符的值。

多媒体类型：用于自动下载二进制文件。

比如采集到类似http://www..../1.jpg，会自动下载到本地。

文章类型：用于采集新闻等。

关联地址类型：该类型数据用于作为关联URL使用，可实现把分散在多个页面数据整合成一条。

与"采集规则-关联网址标识"作用类似。

提取数据页的全部数据作为一个数据列：把采集的数据整个输出。

一般适用于数据很难拆分的情况。

若使用该项，下面的不用再设置。

保存对应的URL：有时候URL能标识一行具体的数据，这样数据导入数据库后，用户能很方便的分辨。

区分大小写：采集英文的数据，可选中此项，因为中文没有大小写之分。

（采集新闻最好选中该项，有些图片地址对大小写敏感）自动截取字串：使用默认即可。

保留html代码：默认情况下，采集到的html代码中，< >之间的部分会自动清除，选中该项后可保留代码；比如采集文章等，保留原代码相当于保留了原格式。

该选项是针对每个数据项的，这样做的好处是有些数据项是不需要保留html代码的，有更大的灵活性。

附：填写前后标识符要领1.一个数据项，一定要在前后标识符之间。

比如类似这样的源文件：<tr>地址:</td> 北京... </td></tr> 。

要采集‘地址:北京’，那么前标识符是‘<tr>’，后标识符是‘</tr>’，而不是‘</td>’。

因为‘北京’前面已经有个‘</td>’。

至于< >之间的数据，软件会当作无效字符，自动忽略。

当然, 如果选中'保留html代码', <>之间的字符会保留下来2.采集数据项的顺序一般要和网页上的数据项的顺序一致。

这个很好理解，提取信息是按照从上而下的顺序。

当然，如果去掉‘自动截取字符串’选项，则可以不按照从上而下的顺序，但要确保每个采集项的前后标识符具有唯一性，否则采集到的数据可能不是想要的数据。

3.若打开‘区分大小写’选项，则前后标识符的大小写一定要正确。

采集英文信息注意打开此项。

四、脚本类型任务脚本类型任务适用于javascript等脚本来操控网站的情况，如点下一页时地址栏没有变化，用类似javascrip:post('next',1)等来控制。

可在官方网站找到经常会更新的帮助信息：在线帮助| 常见问题解答综述：脚本类型任务的‘任务概述’和‘数据提取规则’与URL导航类型任务基本一样，不同之处在于采集规则，这里只讲述采集规则设置。

操作界面如下：脚本类型任务分脚本式和点击式。

脚本式：在把鼠标放在一个页面地址链接上面的时候，在浏览器状态栏的左下角，会显示鼠标所在处的url地址，有些地址是完整的，有的是类似javascript:submit('page', 2)等样式，这种情况下，可用脚本式。

比如，前脚本是javascript:submit('page', , 后脚本是) ，页码变化范围可以是1 , 10 等等，即前脚本+当前页码+后脚本=一个完整的脚本链接点击式：一般来说，点击式可包容脚本式，一个页面里的"下一页", "下页"等等都可以作为脚本式的"导航对象的标签"；导航对象的索引值即指该导航对象标签在整个页面中所处的位置，填写导航对象的标签会忽略其索引值的填写。

可以指定点击次数, 也可以是直到最后一页才结束。

五、地址列表类型任务地址列表类型的任务，适用于已经有大量的数据源地址（URL），可以直接用这些URL直接获取数据的情况。

可以用这种类型任务采集本地磁盘上的信息，也可以采集网络上的信息。

其本质和URL类型任务相似。

官方网站经常会更新的帮助信息：在线帮助| 常见问题解答综述：地址列表类型任务的‘任务概述’和‘数据提取规则’与URL导航类型基本一样，不同之处在于采集规则，这里只讲述采集规则设置。

操作界面如下：指定本地文件：必须是一个文本文件，里面是要采集的URL地址集合。

如下图：也可以让软件自动分析网上的某一个页面得到地址列表。

后台执行：默认是从后台获取数据，和URL导航类型类似；不选该项，则和脚本类型任务相似，运行前弹出类似ie窗口。

六、数据采集的更多高级设置技巧（任务-数据提取规则-‘更多设置’按钮）可以设置数据自动保存，编码方式，获取网页框架等；可以设置完整采集或增量采集（断点续采）；可以边采集边过滤，把不符合条件的数据过滤掉；可以自动分类。

把采集的数据按照自己的要求自动归类。

可以边采集边自动加工，包括多个采集项和字符串自由合并，数据替换，数据删除等；可以设置功能强大的新闻采集参数，设置新闻模板等。

e商务文档

网络信息采集大师使用手册

相关文档推荐：