Discuz. 论坛帖子采集
建立采集任务
复制要采集的discuz论坛地址
打开八爪鱼采集器,建立采集任务名称点击下一步
在八爪鱼采集器内置浏览器的地址栏中输入要采集的论坛地址,点击跳转,流程设计器中会生成一个“打开网页”步骤,
创建翻页循环
找到论坛中的翻页按钮,右键点击,在弹出的执行框中选择执行,“循环点击下一页”
完成后流程设计器会生成一个翻页循环
创建帖子列表
完成后上述操作后,右键点击第一个帖子,
在跳出的操作框中,选择下图红色方框的选项“创建一个元素列表”
将第一个群组的信息添加到列表中后,点击继续编辑列表
点击第二个群组的信息,同样将其添加到列表中
八爪鱼会将具有相似特征的元素抓取到列表中,
如上图,所有的群组信息被添加到列表,接着点击创建列表完成,
再点击循环,完成群组列表的创建
提取要采集的信息文本
创建列表完成后流程图,如左侧所示,接着我们需要对采集的帖子信息进行抓取,如图点击帖子中的标题,在跳出的执行框中,选择执行”抓取这个元素文本”
抓取到的内容会显示在右上方的操作框中,这里可以修改采集字段的名称,
到这里我们就完成了帖子的信息提取
由于每一页都需要循环采集数据,所以我们需要将这个循环列表拖入到翻页循环里面。
注意:流程是从上网页执行的,所以这个循环列表需要放到点击翻页的前面,否则会漏掉第一页的数据。
最终流程图如下图所示:
点击保存,进入下一个采集步骤
开始采集
选择单机采集,开始QQ的提取
采集完成,有多个导出格式可供选择,可以根据需要点选,采集到的重复数据
八爪鱼采集器会自动识别出来,导出时可以选择是否去重。