听云:从APM出发,看电商“双十一”惊人销售额背后的技术挑战
双十一这个由电商创造出来的购物节自2009年首次举办,今年已经进入到第九个年头。也许当初创办“双十一”只是抱着做一个促销事件的初衷,而如今的“双十一”则成为了一个自带流量的全球性热门IP,成为各大电商宣示其市场占有率、消费体验、产品质量、市场影响力的具有重大象征意义的“战场”。
近日,2017年双十一也落下了帷幕,我们可以看到今年的双十一消费升级渐趋势明显,双十一正努力褪去价格竞争的烙印,从低价策略转向品牌策略,通过逐渐与品牌商以及服务链融合,向品质消费、服务消费的新业态转变。在当前用户的消费热情和双十一新鲜感的降低,以及随着往年GMV越来越高的情况下,各家龙头电商仍能再创新高实属不易,其中阿里成交额为1682亿元,京东成交额为1271亿元。
在上述漂亮的销售数字的背后,我们再来看一组数据,这是在2017年11月11日凌晨,天猫双11全球狂欢节刚开场5分22秒产生的数据,支付峰值25.6万笔/秒,数据库处理峰值4200万次/秒。其中4200万次/秒的意思是,在支付峰值产生的那一秒里,平稳处理了4200万次请求数。我们可以发现,在这一组组漂亮数字的背后,是无数技术人员通宵保障的结果,今天,我们就从听云视角,一步步走近各家电商在双十一期间的“后台状况”
听云根据多年对互联网电商的服务经验,积累了一套“双十一电商性能解决方案”,并在双十一当天的各家电商总部进行了现场驻场的重保服务。
京东——
“听云的劫持监控服务在本次双十一保障项目中表现出色,及时有效报告劫持事件,帮助分析事件发生的时间、可能造成的影响,配合统计分析劫持数据,协助劫持溯源工作,顺利完成双十一安全保障工作。”
在今年618大促时,京东的访问量、订单量已经突破以往历年的量,因此预计到2017年双十一将会突破历史,创造新的业务量高峰,这对于技术而言一定会迎来新的业务挑战。同时劫持一直是京东安全部门关心的重点问题,作为电商中的翘楚,京东也是运营商劫持的重点对象。
前期准备:
1. 从今年9月开始,京东便进入双十一备战阶段,为了应对此次双十一可能带来的历史级业务量峰值,京东前期先后通过新增几百台设备、新增自建CDN节点、增加了国内、海外等多个节点以迎接新的挑战。
2. 对于劫持问题,为了减少劫持数量,京东推动全站https化,截止到十月底PC页面的https比例已过90%,m站和APP已经超过99%。
双十一当天:
在双十一当天,京东使用了听云Network重点监测了CDN加速效果和各关键页面的劫持情况。
1. 其中,CDN主要关注全国各地区的静态资源下载时间、网络链路质量(DNS时间、建连时间、首包时间)。在11月11日20点一波较大促销过后,通过监测数据发现某CDN厂商一个边缘节点质量出现异常,首包时间明显增加,在与厂商沟通过进行了及时调整,确保大促的正常进行。
2. 同时,劫持情况是安全部门关心的重点。双十一重保期间,通过听云,京东每四个小时汇总DNS劫持和链路劫持数据,交给安全部门,协调渠道与运营商沟通解决,取得了明显效果,一些时间段的劫持比例甚至接近0。
苏宁——
“听云在此次双十一驻场工作中尽职尽责,给予好评。”
作为2017年终最重要的一次促销活动,苏宁在此次双十一中提出了“零事故”的目标,即全面投入、全面聚焦、全力打响2017年的最后冲刺战。苏宁针对此次大促分别做了前端保障、APP运维、网络支撑以及服务监控这四方面的保障措施。
苏宁性能保障举措
前期准备:
在双十一当天,为了实现“零事故”的目标,苏宁对两部分的内容进行了重点监测:第一是PC端监测,主要为消费者中心核心页面、消费者中心核心接口、大盘监控(专用);第二是真机端监测,主要为苏宁各大类商城的手机页面监测。
双十一当天:
在双十一期间,通过当天真机监测出“消费者-WAP-苏宁家电任务”出现大面积劫持现象,导致该区域可用性低于30%。但经过听云排查后发现,是相关人员配置域名白名单时出错,导致劫持的误报,最后听云现场驻场人员及时修正劫持配置,保障了该任务在实际出现网络问题时能够及时告警。
CDN方面,通过听云Network中国地图等大屏工具实时监测到全国各地区各网络环境下真实的访问情况,并对CDN的服务质量进行实时分析,真正做到有问题即时告警。
聚美——
“监控对我们运维而言,非常的重要,能够第一时间发现问题,快速定位问题。听云就是运维人的眼睛。”
聚美优品是一家深受千万用户信赖的全球领先化妆品限时特卖网站。作为女性的“必需品”,本身产品就是特卖的价格,再加上双十一期间的双重优惠,势必会有很多流量同时涌入,这给聚美的后端架构带来了极大的压力。其中在双十一当天,随着访问量的不断增加,峰值并发已经达到了日常量的几十倍,所以如何尽量保证所有业务在双十一当天的稳定性就成为了后台运维人员的头等大事。
聚美对于用户体验的重视由来已久,因此聚美优品针对业务重点在双十一前做了如下准备:
1. 根据推广及业务量的评估来对业务机器扩容,同时使用k8s对Docker容器进行调度,以保证几千个容器能在短时间内同时上线。
2. 测试人员通过压力测试来尽早暴露风险点。
3. 在大促当天,CDN流量肯定要比日常要高出十几倍,因此提前通知厂商预留带宽、提前预热,以减少源站压力。
4. 通过听云Network监测CDN质量问题,听云技术服务人员与CDN厂商服务人员建立线上沟通,当听云定位出问题会及时通知CDN厂商,以达到在双十一活动前对CDN质量进行调优的目的。
5. 通过听云App发现聚美APP中的问题,如接口性能问题、错误率等,帮助聚美的运维研发人员可以在大促活动前及时将问题修复。
双十一当天:
网络问题是不可预知的,尤其是在高并发、高流量的双十一活动期间,尽管听云已经帮助聚美尽可能的将自身性能做到了最好,但是在大促过程中仍然暴露出了一些问题:
11月11日0点一过,来自全球各地区的用户纷纷涌入聚美APP和官网,瞬时的高流量给CDN线路带来了大量的冲击,尽管事先已经做了一定的调优,但是仍然造成了CDN的不稳定波动、机房的可用性降低等问题。通过听云的及时发现并积极的与CDN厂商沟通,最终确保了双十一当天网络状况的稳定。
当当网——
“双十一大促当当网顺利完成,各项销售指标创新高,感谢听云对当当网的支持保障。”
当当网自创立至今,已从早期线上卖书拓展到卖各品类百货,其中当当婴童已经发展为当前婴童垂直领域中国最大的线上商店。今年的双十一活动,当当旨在继续打破去年创下的各项销售指标,为此在双十一当天同时推出了多种优惠促销活动。而优惠促销即意味着大量的人群涌入。
前期准备:
当当网在大促前提前准备了压力测试,这样的预防措施也使得在11月10日晚10点之后访问量突然激增这样的突发事件得以平稳渡过。
双十一当天:
在活动当天,当当网PC端双11主会场发生了较为严重的劫持情况,其中主要集中在电信运营商,通过积极与运营商联系最终得到妥善解决。
同时随着移动端业务在当当网中的实际占比越来越高,当当网也逐渐将维护重心转向移动端。在双十一当天,当当APP出现了启动时间增加的性能问题,经过听云仔细排查定位,发现是由于启动屏中图片体积较大所导致的,通过优化图片体积等方式解决了这类问题,及时保证了大促当天的平稳进行。
寺库——
“听云,保障双11顺利进行。”
寺库,作为国内奢侈品电商领域的领导者,在2016年首次参加双十一并取得出色的战果后,今年继续加大优惠力度。近年来随着用户消费观念趋于理性和品牌化,寺库受到的关注也越来越多。同时寺库的客单值更高,每一位用户都是寺库眼中的VIP,因此寺库对于双十一期间的用户体验格外重视。
前期准备:
由于重视每一位用户的特性,寺库在双十一活动前期制定了一系列性能优化策略,其中包括对图片域名的响应时间、Shopping域名下接口的响应时间、错误率警报等关键性能指标做了预警处理,可以在问题出现时第一时间报警,减少由此带来的损失
双十一当天:
在双十一当天,由于之前寺库的直接受众人群较少,对于如此高流量访问冲击的应对经验不足,出现了网站登录页无法建连的css元素错误。经过听云的分析及定位,最终确定错误集中出现在在区域运营商的某一主机下,发现是受后端搜索业务耗时影响导致的搜索页面访问时间增加,进而帮助寺库调整了该主机。
酒仙网——
“双十一前期准备重点在服务器端的优化,承载能力代码效率提升,双十一当天会对网络进行微调,服务资源进行临时增加,代码不会再做修改。”
酒仙网,作为国内领先的酒类电商平台,具有周期性明显、节日气氛浓厚的流量特性。此次的双十一,作为电商在年终最后一次大规模的促销活动,对于提升全年销售额、清理库存等方面有着重要的作用。酒仙网在去年也打出了“健康双十一”的理念,但这并不代表酒仙网就此放弃双十一,相反,对于“健康”的理解,也应用到了网站健康上。
前期准备:
为了能够在不出任何差错的情况下完成对去年的超越,酒仙网在双十一前期做了以下三点准备:
1. 在“双十一”前一个月左右对业务官网进行压力测试,以保证网站性能瓶颈可以得到及时的暴露和解决
2. 针对于后端服务器,通过添加多个听云Server探针,来保证可以实时采集到后端全量数据
3. 安排运维及研发人员详细的驻守时间表,保证每个时段有问题时能够及时应对。
双十一当天:
在双十一当天,听云的技术人员到酒仙网总部进行了技术驻场,现场为酒仙网的后台提供技术支持,主要做了以下5点:
1. 将听云Network监测任务的频率调整到5分钟级别,更快发现网络问题。
2. 现场驻场人员或远程人员实时进行报表刷新。
3. 配置监测大屏,提供一个全体工作人员交流的平台。
4. 听云系统停止任何更新改动。
5. 在当天本身系统代码不会再进行调整,同时对网络和CDN云服务等第三方进行严格监控,以防出现自身不可控的问题。
可以看出,虽然“双十一”当天的销售额仍在增长,但是随着“阿里系”市场份额的降低,电商行业竞争仍在加剧。换句话说,如今电商之间的战争不再是销售额大小的比对,而是流量、用户的比较,而且照目前的趋势来看,用户正在变得越来越贵。
在这样重要的时间段如果出现如网页打不开、APP崩溃的严重的性能问题,不只是使销售额大量缩水,更是对品牌影响力的一个严重的打击。那么如何保证在双十一这样一个具有决定性意义的电商大促节日下留住用户,而不只是让他们作为一个“一次性”的用户。在这条路上,听云会在现在的基础上,与各家电商共同探讨更深层次的电商企业用户体验之道。