当前位置:文档之家› 大数据分析培训_数据分析师挣多少钱_光环大数据培训

大数据分析培训_数据分析师挣多少钱_光环大数据培训

大数据分析培训_数据分析师挣多少钱_光环大数据培训光环大数据作为国内知名的数据分析培训的机构,聘请专业讲师面对面授课,与时俱进及时更新课程体系,为保障学员就业与多家单位进行合作,保障学员就业。

光环大数据所有项目都由阿里云真实项目数据,光环大数据成为阿里云授权认证中心,毕业通过相关考试就可以获得阿里云的证书。

从去年7月份开始学习 Udacity 的“数据分析师”纳米学位课程,到现在也算学了不少内容,接下来打算慢慢开始找工作了。

既然想要从事数据分析师这个岗位,那自然首先需要对这个岗位有所了解。

最直接、最真实的方式就是从企业那里获得需求讯息,这样才最能够指导自己的学习方向和简历准备。

本次项目即是要利用爬虫爬取拉勾网上数据分析这一岗位的信息,然后进行一些探索和分析,以数据分析来了解‘数据分析’。

数据来源本项目所使用的数据集全部来自拉勾网,是通过集搜客这一网络爬虫工具来爬取的。

集搜客是一款简洁易用且功能强大的网络爬虫产品,通过鼠标点选和简单的命令操作即可实现爬虫的定制和运行,这里也推荐一下。

之所以选择拉勾网作为本项目的数据源,主要是因为相对于其他招聘网站,拉钩网上的岗位信息非常完整、整洁,极少存在信息的缺漏。

并且几乎所有展现出来的信息都是非常规范化的,极大的减少了前期数据清理和数据整理的工作量。

(笔者毕竟是工作之余完成,时间有限,能省则省)本次爬取信息的时候,主要获得了以下信息:内容字段岗位名称title月薪month_salary公司名称company所属行业industry公司规模scale融资阶段phase投资人investors所在城市city经验要求experience学历要求qualification全职/兼职full_or_parttime职位描述及任职要求description项目目的主要是希望通过实际的数据来解答针对数据分析岗位的一些疑惑,Udacity 数据分析师课程的童鞋一些参考性的意见。

具体来说,主要针对以下几个问题:- 数据分析师岗位需求的地域性分布;- 整个群体中薪酬分布的情况;- 不同城市数据分析师的薪酬情况是怎样的;- 该岗位对于工作经验的要求是怎样的;- 根据工作经验的不同,薪酬是怎样变化的;- 从用人单位的角度看,数据分析师应当具备哪些技能?- 掌握不同技能是否会对薪酬有影响?影响是怎样的?技术和工具本项目主要分为两大部分,第一部分是数据爬取,采用的是集搜客网络爬虫工具。

第二部分是数据分析,以python编程语言为基础。

数据分析部分主要使用pandas作为数据整理和统计分析的工具,matplotlib用于图形的可视化,seaborn库包用于图形美化。

在进行技能需求分析的时候,使用了jieba作为分词工具包,并使用wordcloud包制作词云。

数据整理加载和清理* 点击图片缩略图可放大,下同。

大数据可以看到,经过初步清理后,数据集中有效变量为13个,数据记录575条。

除了投资人这一项之外,其他各字段的数据完整度非常好,几乎没有缺失值。

这对于后面的分析来说是个大大的好消息。

数据分析地域性分布<matplotlib.text.Text at 0x1102e1f90>在拉勾网上,全国有29个城市的企业邮数据分析师的人才需求,其中将近一半需求产生在北京市,需求量全国第一。

排在前5的分别是:北京、上海、深圳、杭州、广州。

数据分析这一职业大量集中在北上广深四大一线城市,以及杭州这个互联网和电子商务企业的聚集地。

北京市巨大的需求比重令我稍感意外,不过,考虑到拉勾网是一个偏重互联网相关行业的招聘平台,而我国大量互联网企业在北京聚集,这个结果倒也算合理。

以后有时间,可以对全国互联网行业分布特点做个分析。

总而言之,可以得出一个清晰的结论:数据分析这一岗位,有大量的工作机会集中在北上广深以及杭州,期待往这个方向发展的同学还是要到这些城市去多多尝试。

当然,从另一个方面说,这些城市也都集中了大量的各行业人才,竞争压力想必也是很大的。

总体薪酬情况/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__ma in__.py:16: SettingWithCopyWarning: A value is trying to be set on a copyof a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: /pandas-docs/stable/indexing.html#indexing-vi ew-versus-copy([<matplotlib.axis.XTick at 0x11ccaa290>, <matplotlib.axis.XTick at 0x11d478210>, <matplotlib.axis.XTick at 0x11d5652d0>, <matplotlib.axis.XTick at 0x11d602f10>, <matplotlib.axis.XTick at 0x11d6116d0>, <matplotlib.axis.XTick at 0x11d528290>, <matplotlib.axis.XTick at 0x126eb4c10>, <matplotlib.axis.XTick at 0x11d441e90>, <matplotlib.axis.XTick at 0x11d611bd0>, <matplotlib.axis.XTick at 0x11d618390>, <matplotlib.axis.XTick at 0x11d618b10>, <matplotlib.axis.XTick at 0x11d6242d0>, <matplotlib.axis.XTick at 0x11d624a50>, <matplotlib.axis.XTick at 0x11d62d210>, <matplotlib.axis.XTick at 0x11d62d990>, <matplotlib.axis.XTick at 0x11d637150>, <matplotlib.axis.XTick at 0x11d6378d0>, <matplotlib.axis.XTick at 0x11d642090>, <matplotlib.axis.XTick at 0x11d642810>], <a list of 19 Text xticklabel objects>)如同大多数其他工作一样,数据分析师的薪酬也是一个右偏分布。

大多数人的收入集中在5k-20k每月,只有少数人能够获得更高的薪酬,但有极少数人薪酬极高,让人充满期待。

需要说明的是,拉勾网上的薪酬值是一个区间值,并且相互之间互有重叠,为了便于分析,我取区间的中值作为代表值进行的分析。

因此,实际的薪酬分布情况可能会比图中的情况更好一些。

总是有人能够拿到薪酬的上限。

综合来看,数据分析师的薪酬收入整体还是可观的,从这方面说,选择这个职业还是不错的。

不同城市薪酬分布情况<matplotlib.text.Text at 0x115796650>忽略掉那些人才需求量比较小的城市,我重点关注排名前六的城市。

从图上看,这六大城市的薪酬分布情况总体来说都比较集中,这和我们前面看到的全国的薪酬总体情况分布是一致的。

深圳市薪酬分布中位数大约在15k,居全国首位。

其次是北京,约12.5k,之后是上海和杭州。

深圳确实是个创造奇迹的城市,在这里也给了我一个小小的惊喜。

从待遇上看,数据分析师留在深圳发展是个不错的选择。

工作经验需求/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__ma in__.py:7: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: /pandas-docs/stable/indexing.html#indexing-vi ew-versus-copy/Users/carrey/anaconda/lib/python2.7/site-packages/pand as/core/indexing.py:132: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrameSee the caveats in the documentation:/pandas-docs/stable/indexing.html#indexing-vi ew-versus-copy self._setitem_with_indexer(indexer, value)/Users/carrey/anaconda/lib/python2.7/site-packages/ipykernel/__ main__.py:13: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrameSee the caveats in the documentation: /pandas-docs/stable/indexing.html#indexing-vi ew-versus-copy/Users/carrey/anaconda/lib/python2.7/site-packages/ipyk ernel/__main__.py:25: FutureWarning: sort(columns=....) is deprecated,use sort_values(by=.....)<matplotlib.text.Text at 0x110577dd0>不出所料的,工作经验的需求分布近似于正态分布。

相关主题