当前位置:文档之家› 谁说菜鸟不懂数据分析(工具篇)-读书笔记

谁说菜鸟不懂数据分析(工具篇)-读书笔记


8)

分组统计,只要在简单统计的基础上加上 group by,比如按产品分类 Select 产品, Count(订单编号)AS 订单总数, Sum(订单金额) AS 订单总金额, From 订单明细 Group by 产品; 如果分类复杂一点,比如按下单时间段分布,可以加上日期函数 Select format(订购日期,“h”) AS 时段, Count(订单编号)AS 订单总数, Sum(订单金额) AS 订单总金额, From 订单明细 Group by format(订购日期,“h”) ; 如果分类再复杂一点,按另一个表的年龄段分组,并且要去除重复的项,需要先关 联两个表,然后去重。 Select 年龄分组,count(用户 ID) AS 用户数 From (select distinct A.用户 ID, partition(B.年龄,1,100,20) AS 年龄分组 From 订单明细 A, 用户明细 B Where A.用户 ID=B.用户 ID) Group by 年龄分组;
2据检索到 office 应用中,特别是 Excel,主要是使用 sql 语句,一般适用于 数据量较小,不要处理数据或者简单的数据处理,使用流程如下
建立数据源连接数 据
使用“查询向导”, 选择数据
使用sql语句
结果返回Excel
1)
数据导入:在 Excel 中,用获取外部数据导入,进来连接;用查询向导选择数据时,要 先建立关系,拖动字段方式建立的内部连接。
(四) 挑几个和主题息息相关的篇章来看。也可以是感兴趣的章节。 略,经推荐的书准备认真研究。 (五) 快翻整本书。尤其是最后一页总结。 略,只有每章总结,无全书总结。 2. 粗浅的阅读:了解全书内容的第一个步骤。 整体性的浏览全书。
三、分析阅读
1.
第一阶段:找出一本书在谈些什么。 规则一:依照书本的种类与主题做分类。 论说类的作品,具体是实用性的。 规则二:用最简短的句子说出整本书在谈些什么。 基于 Excel,结合 access 和 VBA 技术,说明数据分析的工具 规则三:按照顺序与关系,列出全书的重要部分。将全书的纲要拟出来之后,再将各 个部分的纲要也一一列出。
5)
快速数据计算 简单计算:加减乘除等算术运算,菜单是查询向导,sql 语句用简单计算+新建字段 函数计算:比如日期函数,datediff(“参数”,起始日期,结束日期),如果是日期和
6)
时间类型的字段名,一定要加“#”。 数据分组:常见的数据分组,主要有数值分组和日期/时间分组 数值分组 函数 IIF Choose Switch Partition 函数形式 IFF( 表达式,表达式成立返 回值,表达式不成立返回值) Choose(参数,结果 1,结 果 2,结果 3……) Switch(条件 1,结果 1,条 件 2,结果 2……) 优点 可进行不等距分 组 分组可达 254 个 可进行不等距分 组 缺点 语句冗长易错 最多进行 13 层嵌套 只能等距分组 条件最多 14 个
2)
Select Delete Insert into Create table Drop table •
按照一定条件选择 删除记录 插入记录 新建数据表 删除数据表

核心是 select 语句,一般格式为如下 Select 字段 1,字段 2,…… From 表 Where 条件 注意事项有 9 条,分别如下 语句中字母大小写均可; 关键字用空格分开,如 select 字段 from 表 字段或参数用逗号分隔; 语句中有字符,则用单引号,数值型不使用 语句结束要结尾加分号 字段、表名中出现空格、“/”、“\”等特殊字符,要用方括号[]将特殊字符 括起 Select *代表所有字段 参数或查询条件为日期和时间类型数据,需要在数据值两端加上# 标点符号是英文状态下的 尽量避免全表扫描,首先 where 语句筛选出需要的数据,其次 where 语 句避免“!=”、“<>”、“OR”等;最后避免对字段进行函数操作。
(一) 高效处理千万数据
运营分析部门的主要职责: • 运营周报、日报、月报等日常通报 • 开展业务分析专题 • 开展市场研究,如果现有数据无法满足,就加入用户调研数据 • 开展预测分析 • 搭建公司经营分析体系
1 最容易上手的数据库
1) 数据库的基本功能:新增、编辑、删除、以不同方式查看 • Access: 记录不超过亿条就可以用, 主要用表和查询, 查询实际上是一个固定筛选, 将指定条件的数据筛选出来,并以表的形式返回结果。 SQL:结构化查询语言,常用语法如下 基本语句 说明
2)
数据处理:主要是用 sql 语句,直接在 microsoft query 中的菜单中找到 sql,按照 access 的方法进行处理
3)
数据分析:就是在数据处理的基础上,继续用 sql 进行分组等,最后可以把结果保存为 数据透视表,操作起来更灵活一点。
3) 4)
导入数据:直接导入法 VS 链接导入法,后者能够即时同步数据。 数据合并:横向合并 VS 纵向合并 横向合并:根据不同表共有的关键字段,合并更多的字段,可以用关系+查询向导 菜单,也可以用 sql 中的 select 语句,并且可以简化如下 Select B.用户 ID, B.产品, A.性别 From 用户明细 A, 订购明细 B (重新命名表名) Where A.用户 ID = B.用户 ID 纵向合并:记录的合并,相同的字段结构,字段数目,字段的数据类型。可以通过 菜单的追加查询功能,或者 sql 语句,用 union 或者 union all,前者删除重复,后 者不删除。 Select * into 订购明细 201109 From (select * from 订购明细 20110901 Union all Select* from 订购明细 20110902);

交叉表统计:二维表。菜单查询向导中的交叉查询, sql 语句需要在前面加上 transform,增加行和列交叉的函数及字段,后面加上 pivot,作为列分组字段。 Transform count(用户 ID)AS 用户 ID 统计数 Select 省份,count(用户 ID)AS 用户 ID 统计数 From 用户明细 Group by 省份 Pivot 性别;
目录
(一) 高效处理千万数据....................................................... 2 1 最容易上手的数据库 ................................................... 2 2 Microsoft query ........................................................ 5 (二) 玩转数据分析........................................................... 6 1. Excel 数据分析工具-power pivot ......................................... 6 2. Excel 数据分析工具库.................................................. 7 (三) Show 出你的数据....................................................... 12 1. 数据可视化.......................................................... 12 2. Excel 可视化伴侣:水晶易表 .......................................... 13 3. 水晶易表实战........................................................ 13 (四) 让报告自动化.......................................................... 14 1. 自动化神器——VBA ................................................... 14 2. Excel 报告自动化 .................................................... 15
Partition (数值参数, 开始值, 分组不限 只能等距分组 结束值,组距) 语句简单、清晰、 明了

7)
日期/时间分组 Year、month、day 等常用函数,还可以用 format 按指定要求格式化。 Format(时间/日期,格式参数)AS 新参数名称 重复数据处理,主要是 sql 中 group by 语句的运用,其中 first 是找到第一条,count 是计 数,having + group by 相当于 where。 重复项查询 Select first(用户 ID), count(用户 ID) AS numberofdups From 订单明细 Group by 用户 ID Having count(用户 ID)>1; 不重复项查询 Select first(用户 ID), count(用户 ID) AS numberofdups From 订单明细 Group by 用户 ID Having count(用户 ID)=1; 删除重复项 Select first(用户 ID), count(用户 ID) AS numberofdups From 订单明细 Group by 用户 ID; Distinct 函数也可以进行删除重复项,很简单,如下 Select distinct 用户 ID From 订单明细; Access 中的数据分析:主要有简单统计、分组统计和交叉统计三种 简单统计:不要使用数据透视表,会拖慢速度,用 sql 语句,主要是函数的使用, 比如计数 Select Count(订单编号)AS 订单总数, Sum(订单金额) AS 订单总金额, From 订单明细;
相关主题