python数据分析过程示例
引言
几年后发生了。
在使用SAS工作超过5年后,我决定走出自己的舒适区。
作为一个数据科学家,我寻找其他有用的工具的旅程开始了!幸运的是,没过多久我就决定,Python作为我的开胃菜。
我总是有一个编写代码的倾向。
这次我做的是我真正喜欢的。
代码。
原来,写代码是如此容易!
我一周内学会了Python基础。
并且,从那时起,我不仅深度探索了这门语言,而且也帮助了许多人学习这门语言。
Python是一种通用语言。
但是,多年来,具有强大的社区支持,这一语言已经有了专门的数据分析和预测模型库。
由于Python缺乏数据科学的资源,我决定写这篇教程来帮助别人更快地学习Python。
在本教程中,我们将讲授一点关于如何使用Python 进行数据分析的信息,咀嚼它,直到我们觉得舒适并可以自己去实践。
目录
1. 数据分析的Python基础
o为什么学Python用来数据分析o Python 2.7 v/s 3.4
o怎样安装Python
o在Python上运行一些简单程序2. Python的库和数据结构
o Python的数据结构
o Python的迭代和条件结构
o Python库
3. 在Python中使用Pandas进行探索性分析
o序列和数据框的简介
o分析Vidhya数据集——贷款的预测问题
4. 在Python中使用Pandas进行数据再加工
5. 使用Python中建立预测模型
o逻辑回归
o决策树
o随机森林
让我们开始吧
1.数据分析的Python基础
为什么学Python用来数据分析
很多人都有兴趣选择Python作为数据分析语言。
这一段时间以来,我有比较过SAS和R。
这里有一些原因来支持学习Python:
∙开源——免费安装
∙极好的在线社区
∙很容易学习
∙可以成为一种通用的语言,用于基于Web
的分析产品数据科学和生产中。
不用说,它仍然有几个缺点:
∙它是一种解释性的语言,而不是编译的语
言,因此可能占用更多的CPU时间。
然而,由于它节省了程序员的时间(由于学习的方
便),它可能仍然是一个很好的选择。
Python 2.7 v/s 3.4
这是关于Python的一个最具争议的话题。
你可能总是不能避免遇到,尤其是如果你是一个初学者。
这里没有正确/错误的选择。
它完全取决于具体情况和你的需要。
我会尝试给你一些建议,以帮助你做出明智的选择。
为什么选择Python 2.7
1.极好的社区支持!这是你在初期需要的东
西。
Python 2发行于2000年末,已经被
使用超过15年。
2.很多第三方库!虽然许多库已经提供了
3.X
的支持,但仍然有大量的模块只工作在2.X。
如果你计划将Python用于具体的
应用,如Web开发这种高度依赖外
部模块的,你选择2.7可能会更好。
3.3.X版本的一些特性有向后兼容性,可以使
用2.7版本。
为什么选择Python 3.4
1.更整齐和更快!Python开发者修正了一些
固有的问题和小缺点,以此为未来建立一个
强大的基础。
这些可能不是很相关,但最终
会很重要。
2.这是未来!2.7是2 .X族发布的最后一个
版本,并且最终每个人都要转移到3.X版本。
Python 3在过去5年已经发布的稳定版本,并将继续。
没有明确的赢家,但我想,底线是,你应该专注于学习Python语言。
版本之间的转换应该只是一个时间问题。
敬请期待,不久的将来一个专门对比Python 2.X和3 X的文章!
怎样安装Python
有两种方法安装Python
你可以直接从项目网站下载Python,然后
单独安装你想要的组件和库
∙或者,你可以下载并安装一个包,它附带了预装的库。
我建议您下载Anaconda。
另一种选择是Enthought Canopy Express。
第二种方法提供了一个避免麻烦的安装,因此我会推荐给初学者。
这种方法是你必须等待整个包进行升级,即使你只是对一个单一的库的最新版本感兴趣。
它应该不重要,直到和除非,直到和除非,你正在做的尖端统计研究。
选择开发环境
一旦你已经安装了Python,选择环境可以有很多种选择。
这里是3个最常见的选择:
∙终端/基于Shell
∙IDLE(默认环境)
∙iPython notebook ——类似于R的
markdown。