一个做了15年运维的老兵对公有云的深度剖析!!!陈沙克首先,很抱歉用了“深度剖析”这个吸引眼球的词,其实我都算不上云计算行业内人士,所以认识和见解肯定多有不足之处,权当抛砖引玉,希望各位指教。
本文提纲如下:一:公有云盈利分析;二:行业发展前景及市场分析;三:行业现状;四:还有机会吗?五:产品和技术分析;六:计费模式;七:用户群分析;八:CDN;一、盈利分析;我们先来谈谈钱:这些做公有云的到底赚不赚钱?都怎么赚钱的?截至2014年来说,应该都还没有盈利,2015年会有开始盈利的,世纪互联和微软联合运营这种不算。
先看看各个产品的销售毛利率:云主机(含100G数据盘):SATA容量型为50-60%,SSD性能型各家情况相差较大、总体比SATA 低几个点,有的甚至用上了闪存卡,毛利率更低;对象存储:20-30%;BGP带宽:负的,卖的越多亏的越大;LB:lvs在70%以上,HAProxy在60%左右;RDS/ cache:70%以上;CDN:暴利!后面专门篇幅说。
以上数据基于理想状态下,资源利用率达到80%,规模较大、云主机2000台以上。
再初略看看各服务商的盈亏状态:阿里云,CDN独立另算的话,肯定没赚钱,算上CDN也不一定盈利,主要因为人力成本、营销推广成本太高;盛大云,XX倒计时,一切看桥哥脸色;腾讯云,缩小版阿里云,情况差不多;ucloud,2015年盈利在望;青云,也接近盈利了;金山云,成本高、卖的还便宜,人家就没想盈利,疯狂烧钱中;unitedstack,规模没上来,啥也别谈,谈啥也没用;百度开放云,刚去掉beta,还不成熟,以后估计和腾讯云差不多;360游戏云,刚发布,超低成本,有游戏平台上的用户基础,上来就盈利。
上海有个通联数据,做细分垂直领域--金融云,背靠万向控股,服务于在金融领域多年积累的客户,这应该是最赚钱的。
不过套用时髦的说法,它应该是云计算+概念。
价格方面,BAT比创业型公司便宜30%左右,为啥?主要是资源/成本优势,其中包含规模效应。
有人说我新架构成本当然更高啊,分布式3备份、万兆,你老架构raid1才2备份、网络千兆,表面看是这样,但站在更高的角度来看,分布式3备份、万兆带来的直接成本虽然更高,但整个平台得以升级后也带来了额外的好处,因为平台可靠性和稳定性比单机高很多,相对老架构省了raid卡、双电源,另外因为资源池化,在热迁移和动态调度系统支持下,可以提高资源利用率,资源利用率提高10%基本相当于成本降低10%,分布式如ceph,要占20%的CPU和内存,成本确实高一些,现实中很多人会通过超卖来抵消;又有人说我按秒计费啊,不用就关,关了不收费,别看我价格更高,总体算下来其实更省呢,其实按秒计费在成本上的意义并不大,具体请看后面第六节“计费模式”。
趋势:毛利率层面来看,硬件成本不断下降,但公有云产品降价更快,而且第二大成本(机柜和带宽)基本是不变的,所以毛利率不断降低是必然的。
规模效应不止是成本下降,更多的好处在于,可以推出更多附加值高的PaaS产品、打造平台。
有完整生态系统的大公司,公有云不盈利都行,圈用户拉动其它业务增长。
而对于创业型公司则是最核心甚至唯一的业务,一定要避免走价格战这条路。
超卖:肯定有人这么干,我只想说:真心没必要,眼光放长远,把产品和服务做好,规模做大比什么都强,没规模算计这算计那、就算盈利了也没用,等以后市场成红海了再来考虑这些吧。
实际操作中,分布式架构超卖更方便,本地盘会带来很多麻烦。
二:行业发展前景及市场分析;国务院意见、互联网+等等政策面的积极影响,再明显不过了,基于信息安全考虑,去IOE、国产化,科技发展趋势:廉价x86架构+开源免费软件替代昂贵的商用软硬件,也是有目共睹。
整个云计算市场潜在规模巨大,正在快速发展的初期,趋势和前景大家都看得出来,不多说。
市场还处于培育阶段,竞争不激烈,这一点从各家都没有公开黑同行、甚至点评都很谨慎可以看出来,大家都有缺点和硬伤,互相揭短只会让围观的用户越发不接受这个自身本来就不是很成熟的新事物,最后大家都别想好。
反观另一个非常成熟的领域:手机,天天互相黑来黑去的。
如果有一天,哪个公有云厂商开始公开黑同行了,就说明他翅膀硬了,市场很成熟了,增量用户不多、只能抢用户了。
2017年公有云市场(含混合云的公有云部分)规模能到百亿RMB,企业和政府需求是互联网的10倍。
政务云需求由政府力量驱动,企业需求由市场和科技驱动,互联网需求都不用怎么驱动、会主动拥抱。
三年后的市场可以参见现在的美国市场。
三:行业现状;首先我们要阐明市场上那么多卖云主机的,哪些才是我们要讨论的公有云,业内大牛沙克老师提到过云计算5大特征,如果一个都不具备,那就是卖虚拟机的,不算。
本文讨论的公有云主要包含互联网公司、创业型公司、华为联想之类厂商、CDN厂商。
做技术的都知道,云计算本身并不是一种新技术,而是把很多运维技术结合起来做成一个整体的平台,只能算是一种新的业务模式。
运维技术大概经历了5个时代:手工时代、脚本时代、工具+小平台时代、自动化大平台时代、云平台时代,未来也许是虚拟机器人时代。
大多数中小互联网公司及大部分企业都还处于前3个时代,技术水平和思维跟不上,云平台一些新技术和理念还接受不了,先进的东西往往最后妥协成一个四不像。
现实中我们经常看到很多互联网用户还是把云主机当物理机来用,8核32G配置,独立外网ip,原有运维流程和脚本最好丝毫不变,企业用户就更不用说了。
简单来说,一方面,公有云在稳定性、安全性等方面还没有获得用户信任,另一方面,一些理念又太超前,用户接受不了。
先获取信任,再来说服用户接受。
企业市场,华为、联想们有天然优势,如果能补上互联网平台运营的短板,将切得最大块蛋糕,互联网公司从来都不擅长做企业市场,打法完全不一样。
目前公有云分为3类:产品型、平台型、生态型,未来产品型将没有竞争力。
创业型公司2年内只能是产品型,要尽快往平台型转。
如360、通联数据,都属于平台型,现在跟进也不算晚。
四:还有机会吗?技术上,越往后越有优势,所以偏技术思维的容易产生错觉:我要是现在创业,十几个人几个月就能做出一个比市场上所有平台都好的公有云,成功概率岂不大大的!?真的是这样吗?先说自主研发技术,周期太长,肯定来不及了;开源架构基本就是openstack了,有些问题反正前期规模没到所以还不是问题,有些还真就是问题,业内对openstack公有云都尚存疑虑、信心不足,用户又怎么敢用?中心化下,网络节点的单点瓶颈、消息队列的性能瓶颈、LB(HAProxy)的性能瓶颈、分布式块存储的稳定性等等,上规模后都是大问题。
详细的“技术分析”见后面第五节。
运维这个领域永远都是谨慎、稳重第一,获取用户的信任之前,你能吸引到的最大用户群也就是不很看重稳定性的个人用户和创业群体,商业公司没人敢冒这个险。
再说市场层面,青云之后,再难有大的创新,IaaS的创业门槛一下就提高了很多,甚至可以说大门都快关上了。
没有先入优势,也没有重大创新,只是微创新、好一点,市场是不会给你创业机会的。
所以我认为在2013年底创业大门就已经关闭了,对应2014年上半年要发布产品,因为2013年底2014年初公有云行业有几个重大变化:青云立足、金山云发布、腾讯云对外发布、阿里云成为核心战略获得全力支持。
真想创业该考虑PaaS行业,或给IaaS用户提供服务,比如深圳有一家叫“多备份”,由于本文只说IaaS就不展开了。
创业公司大忌:完全模仿。
正所谓:学我者生,似我者死。
技术上的差别用户看不见、也不关心,把握准IT行业、运维技术发展的趋势,在技术保障的基础上,产品、商业模式上必须要有重大创新,能真正解决用户关心的一些问题,至少要有一个明显的创新和优势能打动用户,凭此打造切入点。
在产品、商业模式、界面等用户看得见的地方全面模仿,无异于替别人宣传了。
五:产品和技术分析;openstack正在快速成熟,再有2个版本就差不多了,出于利益会员们都想推广自己的plugin,但各方角力下,谁也别想当主角,小厂力单势薄,有能力的没意愿,有意愿的没能力,导致开源免费的产品进展缓慢,现实中,大厂还是在openstack下集成自己的硬/软件,小厂只能凑合着用尚不成熟的免费产品,也有少数具备技术实力的,对openstack做些二次开发、不成熟的模块替换掉或改架构。
openstack原生态架构下的免费实现方式,做公有云还是不行。
抗openstack大旗讲故事、拉投资,获得技术圈内叫好,都没问题,但要拿出来商用做公有云,目前还差很多。
目前成功的案例都是做了二次开发,或用了硬件。
openstack做私有云很成熟了,因为对存储和网络要求没那么高,业务也单一,分布式搞不定用本地也行,网络大二层搞定,网络节点就管理个ip、还只是内网,外面独立搭建一套lvs负责外网的负载均衡、端口转发及nat,没有性能瓶颈,单个集群规模也大不了,涉及到的技术在BAT之类公司里都有很成熟的经验和方案,关键是自己的业务熟悉,满足需求,又把老板关心的成本降下来了,就ok啦,甚至有家公有云都是这么实现的。
I/O性能(主要指随机写):本地盘没什么好说的,拼硬盘成本。
分布式较复杂,技术含量高,最好要能保障150IOPS。
我们的内部游戏云,采用1块ssd+bcache+ceph,能提供接近于本地ssd方案的性能,这个解决方案应该是首创,还没查到案例。
分布式块存储:开源界已是ceph一统天下,BAT都是基于原有自主研发的系统,改一下拿过来用,未必比ceph好,关键自己研发的东西熟悉啊,出了问题有人解决、有人负责,还会持续改进呢。
ceph也是很有争议的,有人说很稳定很好用、成功案例也有好几个,但更多的人说的是各种问题不好用,测试没通过而放弃,惨痛的教训也有。
那么ceph到底好不好用呢?我是这么认为的:想用ceph,必须要有深厚的分布式存储系统经验,至少有专业的分布式存储运维工程师长时间对ceph的研究和测试,选对版本、调整好策略、Cgroup隔离好,只要功夫做到家,肯定能用好,出问题也不怕;而大多数人并无分布式存储方面的经验和积累,仅凭看看文档、请教别人,拿过来就想用,劝你还是趁早放弃,否则迟早出问题,老老实实用本地盘吧。
LB:主要谈四层。
分lvs和HAProxy两种,BAT之类技术实力雄厚,而且有现成的方案,都是用lvs fullnat,真实ip也很好的解决了(不是vm内打linux内核补丁,在ovs层面解决),用万兆网卡可以抗巨量的pps,技术上的优势就不赘言了,我想提的是它带来的巨大的成本优势,以别人1/10的价格,还能做到更高的毛利率。
HAProxy相比而言,转发性能先打个7折,抗压能力又差一个数量级,创业公司技术和人力有限,只能选这个容易实现的,小规模也凑合能用,HAProxy具体的实现方式大概有2种,1是中心化,一台物理机上配一堆实例,2是直接给一个独立的低配置vm,安装HAProxy。