当前位置:文档之家› 网页数据如何简单导出excel

网页数据如何简单导出excel

网页数据如何简单导出excel
在浏览网页时,遇到我们需要的网页数据时,如文字、图片等,如何能简单的导出到Excel 中,方便在本地电脑中查看和编辑呢?当然是有办法的啦!下面就为大家介绍几种简单快速的将网页数据导出到Excel的方法,大家可以灵活运用。

一、通过浏览器导出网页数据
具体操作:打开某网页后,右键点击网页空白处,在下拉列表中选择“另存为”,然后在弹出的保存窗口中选择保存类型为“网页全部”。

选择保存位置后确定,保存后就会自动保存两个文件,一个是网址,另一个是保存网页内容元素。

如何导出网页数据,以赶集网采集为例图1
二、通过网页数据采集器导出网页数据
先通过网页数据采集器,将网页数据采集下来,然后再导出为需要的格式即可。

本文使用的是操作简单、功能强大的八爪鱼采集器。

以下是一个八爪鱼采集并导出网页数据的完整示例。

示例中采集的是赶集网上房产-商铺-深圳-南山分类下的所有商铺信息。

示例网站:/fang6/nanshan/
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
如何导出网页数据,以赶集网采集为例图2
2)将要采集的网址URL,复制粘贴到网址输入框中,点击“保存网址”
如何导出网页数据,以赶集网采集为例图3
步骤2:创建翻页循环
1)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。

将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”
如何导出网页数据,以赶集网采集为例图4
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一个商铺链接。

选中后,系统会自动识别页面里的其他相似链接。

在右侧操作提示框中,选择“选中全部”
如何导出网页数据,以赶集网采集为例图5
2)选择“循环点击每个链接”,以创建一个列表循环
如何导出网页数据,以赶集网采集为例图6
步骤4:提取商铺信息
1)在创建列表循环后,系统会自动点击第一个商铺链接,进入商铺详细信息页。

点击需要的字段信息,在右侧的操作提示框中,选择“采集该元素的文本”
如何导出网页数据,以赶集网采集为例图7
2)字段信息选择完成后,选中相应的字段,可以进行字段的自定义命名。

完成后,点击左上角的“保存并启动”,启动采集任务
如何导出网页数据,以赶集网采集为例图8
3)选择“启动本地采集”
如何导出网页数据,以赶集网采集为例图9
步骤5:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”
如何导出网页数据,以赶集网采集为例图10
2)选择“合适的导出方式”,将采集好的商铺信息数据导出
如何导出网页数据,以赶集网采集为例图11
3)这里我们选择excel作为导出为格式,数据导出后如下图
如何导出网页数据,以赶集网采集为例图12
经过如上操作,我们就采集到了赶集网上的南山商铺信息的数据。

其他网站上的公开数据的基本采集步骤同理。

部分网页较为复杂(涉及点击、登陆、翻页、识别验证码、瀑布流、Ajax),在八爪鱼中进行一些高级选项的设置即可。

数据采集完成后,我们可以进行数据导出,为后期的数据分析和挖掘提供数据支持。

如上图所示,目前八爪鱼支持导出的格式有excel 2007、excel 2003、csv文件、HTML文件以及导出到数据库。

三、通过excel导出网页数据
1)打开excel(本文以2010 为例),点击“数据”中的“自网站”,在弹出的窗口中,将目标网址输入到地址栏中,点击“转到”,窗口就会跳转到目标网页
如何导出网页数据,以赶集网采集为例图13
2)将鼠标移动到对话框里网页表格的左上角,出现一个黄底黑色的箭头标志,它表示Excel 已经识别此网页上的表格。

点击一下箭头,箭头会变成绿色对号,提示选择表格成功,最后点击下面的“导入”,如下图所示:
如何导出网页数据,以赶集网采集为例图14
3)选择数据放置的工作表后,点击“确定”即可,网页数据将导出到此表格中。

4)利用此方法抓取的数据,需等待较长时间且容易出错,不如用采集器导出数据高效便捷。

相关采集教程:
淘宝数据采集:
/tutorial/hottutorial/dianshang/taobao
京东爬虫:
/tutorial/hottutorial/dianshang/jd
天猫爬虫:
/tutorial/hottutorial/dianshang/tmall
阿里巴巴数据采集:
/tutorial/hottutorial/dianshang/alibaba
今日头条采集:
/tutorial/hottutorial/xwmt/toutiao
腾讯新闻采集:
/tutorial/hottutorial/xwmt/tenxunnews
企查查爬虫:
/tutorial/hottutorial/qyxx/qichacha
自媒体免费爆文采集:
/tutorial/hottutorial/zimeiti
微博爬虫:
/tutorial/hottutorial/zimeiti/weibo
微信文章采集:
/tutorial/hottutorial/zimeiti/sogouweixin
八爪鱼——100万用户选择的网页数据采集器
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。

完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

相关主题