系统上线那点事记一次线上系统故障

本文发布时间: 2019-Mar-22
该项目是一个微信转盘游戏抽奖营销项目,由于运营营销时间要求紧迫,开发测试部署上线用了10天不到,有些准备工作并没有到位,如:1.由于整体开发在上线前2天才完成,测试了解这个项目需求是在开发的第二周,并没有充足的时间进行完善的功能,UI机型适配,系统压力测试。2.技术上由于合作方的公众号密钥并不适合直接给出,所以由对方封装微信接口获取所需功能,对方封装的微信接口给出比较迟,在预定开始时间前三天;微信的网页接口授权回调域名只有一个,这个回调域名还有其他应用在使用,不能直接简单的改为我们部署应用的域名,需要合作方在其内网设置nginx进行http转发,保证微信的回调能发送到我们的服务器,封装的API接口测试也要等转发配置完成才能进行。此种网络配置方式也导致了之后遇到的部分用户页面无法载入时,排除问题难度加大,不能在自己的机房解决。3.线上应用机器在最后一天才准备好,tomcat及数据库部署环境的检查并没有完全完成,留下了隐患。如mariadb的binlog功能在设置了my.cnf后仍然没有生成,部分核心表的索引没有建完全。并且活动只有七天,经过估算,认为摇奖压力大部分应该在应用端,数据库无压力,所以配置了10几台tomcat及redis缓存,没有为mariadb配置主从结构做备份,成为了一个单点。4.机器准备好后由于此时运维也在做监控及log查看基础设施的整体迁移工作,并且人力紧张,在半天时间内只能做一件事情,所以优先做了服务器监控,这里另一个隐患是告警系统。公司内部的服务器告警系统由支撑部门统一做,认为应该有,所以上线时没有测试告警功能,埋下了另一颗地雷。活动前10:00AM 手机挂代理测试发现由于对方nginx转发过来的http head头上的host为对方地址,所以游戏活动的每次请求都会先过对方服务器一遍,再转发回来。这个转发在第一次走微信验证时,这在游戏首页的延迟影响较大。10:30AM 还有半小时开始,曾想测试一下将对方代理过来的请求重定向,但由于此前官微推送过消息,在活动开始前,一些零散用户已经开始访问活动页面,但被挡在活动未开始页面,临时改程序影响比较大,再加上前一天为了测试接口压力测试也搞到1点,脑子比较混沌,稍微改了测试下没有成功,暂时放弃。活动开始11:00AM 系统正式开放,用户已经可以进入转盘抽奖页。系统监控正常,系统负载,网络均没有异常。2:00PM 观察数据库某表一个常用字段没有建索引,逻辑上由于只有用户未登录时才会查询一次,考虑到在线上库做alter index操作可能会对当时时间点的数据库操作有影响,就没有补上这个索引。4:10PM 公司VPN断开,由于无法连接就没法工作,几个开发转到茶水间去喝水放松。过了一会突然被通知活动页白屏无法访问,运维的同事通知说服务器机房的移动入口线路中断,赶紧通知支撑部门排查原因;同时紧急切换该域名的地址解析到机房电信IP上,等域名生效理论上需要10分钟。4:50PM 断开的机房入口通道恢复,为了保险还是等了一会才将域名解析IP重新切回到移动线路。5:00PM 又一波官微订阅号开始推图文引导用户进入。7:00PM 左右程序进行了调整,需要线上程序重新发布,运维同事在高速的回家路上,需要路边找个地方再将所有war包推送到服务器,等待。同时被告知下一波微信订阅号开始推送游戏图文,可能马上访问量就会有反应。7:30PM 几个人总算有空去找饭吃,悲剧的发现食堂和全家的饭都没了,只能吃泡面面包了。。。7:50PM 左右运维反馈将所有war包推送完成。随后发现游戏页面又开始进入缓慢,并且关注公众号的用户已经开始不能进入游戏页面了,返回请关注引导界面。8:00PM 开始排查错误发生原因。查看线上机器tomcat并没有什么异常,此时登陆数据库机器发现在命令行下系统响应速度不正常,命令输入后2,3秒以上才有反应。再看top负载,cpu负载很不正常,已经超载,系统load也是一样。8:30Z喎?"http:///pro/pkqt/" target="_blank" class="keylink">QTSC3os/Wyv2+3b/i0uyzo7rzo6y+9rao1tjG9Mr9vt2/4qGjPC9wPgo8cD44o7o0NVBNIHN5c3RlbWN0bCBzdG9wIGRioaMgyLu6877Nsa++58HLo6zPtc2zuLrU2M/CwLTBy6OstavW2NDCc3RhcnSyu8bwwLTBy6OsIG15c3FsIGVycm9yLWxvZ9bQsunG9LavzsrM4qO6PC9wPgo8YmxvY2txdW90ZT4KCTxwPklubm9EQjogRXJyb3I6IGxvZyBmaWxlIC4vaWJfbG9nZmlsZTAgaXMgb2YgZGlmZmVyZW50IHNpemUgMCAmZ3Q7NTI1Njc4MCBieXRlczxiciAvPgoJSW5ub0RCOiB0aGFuIHNwZWNpZmllZCBpbiB0aGUgLmNuZiBmaWxlIDAgMTA3NzY0NTgyNCBieXRlcyE8YnIgLz4KCVtFUlJPUl0gUGx1Z2luICZsc3F1bztJbm5vREImcnNxdW87IGluaXQgZnVuY3Rpb24gcmV0dXJuZWQgZXJyb3IuPGJyIC8+CglbRVJST1JdIFBsdWdpbiAmbHNxdW87SW5ub0RCJnJzcXVvOyByZWdpc3RyYXRpb24gYXMgYSBTVE9SQUdFIEVOR0lORSBmYWlsZWQuPGJyIC8+CglbRVJST1JdIFVua25vd24vdW5zdXBwb3J0ZWQgc3RvcmFnZSBlbmdpbmU6IElubm9EQjxiciAvPgoJW0VSUk9SXSBBYm9ydGluZzwvcD4KPC9ibG9ja3F1b3RlPgo8cD6y6cHLz8LXysHPo6zV/bOjc2h1dGRvd266872rbG9nZmlsZTDJvrP9uvPU2cb0tq/E3LPJuaajrM6qsaPP1b2rtMvOxLz+bXa1vcHtzeK1xMS/wryjrNTZs6LK1Mb0tq+jrMjUyLvG8LK7wLSjrM3qyKvUzrLLPC9wPgo8YmxvY2txdW90ZT4KCTxwPjE1MDcwMyAyMzo0NDoyNyBJbm5vREI6IENvdWxkIG5vdCBvcGVuIG9yIGNyZWF0ZSBkYXRhIGZpbGVzLjxiciAvPgoJMTUwNzAzIDIzOjQ0OjI3IElubm9EQjogSWYgeW91IHRyaWVkIHRvIGFkZCBuZXcgZGF0YSBmaWxlcywgYW5kICZndDtpdCBmYWlsZWQgaGVyZSw8YnIgLz4KCTE1MDcwMyAyMzo0NDoyNyBJbm5vREI6IHlvdSBzaG91bGQgbm93IGVkaXQgJmd0O2lubm9kYl9kYXRhX2ZpbGVfcGF0aCBpbiBteS5jbmYgYmFjazxiciAvPgoJMTUwNzAzIDIzOjQ0OjI3IElubm9EQjogdG8gd2hhdCBpdCB3YXMsIGFuZCByZW1vdmUgdGhlIG5ldyAmZ3Q7aWJkYXRhIGZpbGVzIElubm9EQiBjcmVhdGVkPGJyIC8+CgkxNTA3MDMgMjM6NDQ6MjcgSW5ub0RCOiBpbiB0aGlzIGZhaWxlZCBhdHRlbXB0LiBJbm5vREIgb25seSAmZ3Q7d3JvdGUgdGhvc2UgZmlsZXMgZnVsbCBvZjxiciAvPgoJMTUwNzAzIDIzOjQ0OjI3IElubm9EQjogemVyb3MsIGJ1dCBkaWQgbm90IHlldCB1c2UgdGhlbSBpbiBhbnkgJmd0O3dheS4gQnV0IGJlIGNhcmVmdWw6IGRvIG5vdDxiciAvPgoJMTUwNzAzIDIzOjQ0OjI3IElubm9EQjogcmVtb3ZlIG9sZCBkYXRhIGZpbGVzIHdoaWNoIGNvbnRhaW4geW91ciAmZ3Q7cHJlY2lvdXMgZGF0YSE8YnIgLz4KCTE1MDcwMyAyMzo0NDoyNyBbRVJST1JdIFBsdWdpbiAmbHNxdW87SW5ub0RCJnJzcXVvOyBpbml0IGZ1bmN0aW9uIHJldHVybmVkICZndDtlcnJvci48YnIgLz4KCTE1MDcwMyAyMzo0NDoyNyBbRVJST1JdIFBsdWdpbiAmbHNxdW87SW5ub0RCJnJzcXVvOyByZWdpc3RyYXRpb24gYXMgYSAmZ3Q7U1RPUkFHRSBFTkdJTkUgZmFpbGVkLjxiciAvPgoJMTUwNzAzIDIzOjQ0OjI3IFtOb3RlXSBQbHVnaW4gJmxzcXVvO0ZFRURCQUNLJnJzcXVvOyBpcyBkaXNhYmxlZC48YnIgLz4KCTE1MDcwMyAyMzo0NDoyNyBbRVJST1JdIFVua25vd24vdW5zdXBwb3J0ZWQgc3RvcmFnZSBlbmdpbmU6ICZndDtpbm5vZGI8YnIgLz4KCTE1MDcwMyAyMzo0NDoyNyBbRVJST1JdIEFib3J0aW5nPC9wPgo8L2Jsb2NrcXVvdGU+CjxwPrTLyrHKwsfp0tG+rb+qyry8rMrWo6zV4srHzqLQxbvutq+12tK7zOzJz8/ftcTW3M7lze3Jz6OstNPG37XjtuDW8L2lt/7O8bK7v8nTw7W9sMu147bgyv2+3b/ic2h1dGRvd26682NyYXNo0tG+rbn9yKWyu7bMtcTSu7bOyrG85MHLo6y088G/08O7p9TaudnOorTzusXP+8+izcbLzbrzvfjI67PpvbHTzs+3yrGxu7Wy1No0MDTSs8Pmyc+yu8TcvfjI66GjtvjH0tPJ09rWrsewy7W1xLTLu+62r86qN8zso6y2qNLltMvK/b7dv+LOqtK7uPbB2cqxv+KjrMO709C50rTTv+KjrNKyw7vT0GR1bXCxuLfdo6zP1tTatdrSu8zsvs2+08i70/a1vcr9vt2/4rHAwKO1xM7KzOKhozwvcD4KPHA+sr/DxcO709BEQkEstKbA7cr9vt2/4rK7xNzG9LavtcTOyszi1dKyu7W91rG907/J0tTXydGvtcTIy6Osyc+8trj4wcu49sbky/uyv8PFtcREQkG157uw18nRr6Os1LbLrr3isrvBy738v8qjrLXnu7DA77Tz1sLBxMHLz8LSssu1srvH5bP+o6zDu9PQyrG85LrE1Nq71ri01eK49sr9vt2/4snPwcuhozwvcD4KPHA+tMvKsb6tuf3JzMG/vva2qNbY0MKz9cq8u6/Su7j2yv2+3b/i0Om7+qOsvLHDpmR1bXDBy9K7uPbUrbLiytTP38nPu7e+s8qxtcTAz8r9vt2/4rW90MK1xMr9vt2/4snPo6zW2NDCt6KyvNOm08PH0Lu7tb3Qwsr9vt2/4snPo6zIw9PDu6fPyMTcvfjQ0NPOz7fU2cu1oaM8L3A+CjxwPjmjujU1UE0gyv2+3b/i0Om7+rP1yry7r83qs8mjrNOm08PW2NDCyc/P36OsvLi49r+qt6LJ1M6iy8nBy7/axvihozwvcD4KPHA+MTA6MDBQTS0xOjIwQU0gtMvKsbTzxNTS0b6tsci9z7PZttvBy6Oss6LK1LvWuLTAz8r9vt2/4tK7tM7Kp7DcuvO3xcb6oaO4+s2sysJyZWl2ZXfV4rTOzsrM4qOszai5/bzgv9jK/b7dt6LP1s3tN7Xjyv2+3b/izbvIu8GsvdPK/bGp1cejrM2syrFDUFW4utTY7K3J/aOstavTptPDt/7O8cb3sqLDu9PQwffBv7Gp1ce1xNLss6POyszio6zI57n706bTw8LfvK3Du87KzOKjrL7N1N3Ksda7xNy7s9LJysfBrL3Ts9jOyszio6jTw7XEysdEcnVpZKOpoaO1scqxtcS4utTYvOC/2Mjnz8LNvKO6PGJyIC8+CjxpbWcgYWx0PQ=="这里写图片描述" src="http:///uploadfile/files/2015/0712/20150712161018949.png" title="" />后记周末休息后,周一过来稍微捣鼓了下老数据库就启动了,看来还是不能疲劳作战。启动后将需要同步的表数据导入线上库,至此事情基本告一段落。此次遇到突发情况比较多,各种小问题累积在一起压断了最后一根稻草。按照Scrum的review规则记录一下经验,总结教训。


(以上内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议。
本網站以及域名有仲裁協議。

2024-Mar-04 02:09pm
栏目列表