2025年5月阅读清单

线上故障应急处理:4 年多 on call 经验总结

从先前某运营商的内网系统到现在社区化线上电商平台的开发,今后面临的是更高用户量和数据量的生产环境,故障时周末的随时响应可能也将成为常态。

文章链接

  • 故障止血优先:在故障发生时,首要任务是快速恢复服务,确保业务正常运行;立即追查责任归属在当前情况下时毫无意义的。
  • 止血的最快手段:在服务侧发生的故障,通过识别系统产品的变动,能够快速定位问题并制定止血方案。
  • 谨慎执行止血方案:即使止血方案明确,执行过程中仍需小心谨慎。设计新功能时需要考虑回滚无问题,故障止血时也应考虑灰度发布,逐步推向全网。
  • 高效沟通:排查思路需要尽可能清晰地同步给相关研发;同时研发要敢于下判断,并说清楚自己的判断依据,才能达到集思广益

Uber Go语言编码规范(中文版)

文章链接

发布者

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注