本周工作思考
- Q2 可观测性体系建设及稳定性治理总结及思考
- Q2在目标设计上重点解决现存的影响线上质量的问题,对能力框架建设和机制建设的问题没有过多过深的涉及,而这些会成为Q3的重点。
- 随着迭代的进行,整个路线图在执行过程中逐渐清晰和明确,
- (1)Q1我们重点解决了线上很多影响用户使用和体验,用户没有反馈的线上bug,提升了线上运行的稳定性;
- (2)Q2我们重点解决了错误率高,不影响使用的,但是在部分浏览器上可能会有bug的,影响用户性能的,有潜在质量风险的问题,同时对部分重点功能和组件,部分疑难问题做了比较长期和和深入的跟踪及观察,解决了一批潜在的线上问题,优化了一些重点功能,加固了大部分的代码的异常数据兼容性;在指标完成度上,我们紧密围绕指标提升开展工作,但是也不是僵硬的以达成绝对的指标数值为目标,比如在解决某一类问题上,我们会在某几周内通过主动上报大量的日志导致指标下滑,但是这样能够给我们展示更多的系统线上运行信息,这样非常有利于一些疑难问题的排查,而不必在意一时的指标下滑。
- (3)Q3依旧会解决Q1和Q2遗漏的或者新增的的基础问题,另外就是对能力建设,如(1)Sentry机制完善,包括ignore的配置化,Sentry采样率的模块化区分或者针对企业级的区分,Sentry服务的深度使用及服务器优化;(2)构建AI巡检能力,打通Sentry的MCP服务,将人工巡检部分的或者全部的交给AI,人工只解决AI解决不的问题;(3)尝试构建AI自动修复机制,对巡查发现的诸如类型错误,异常数据问题由AI自动增,加修复代码,提交MR,提交CRPipeline;(4)配合服务端的解决稳定性治理和新产品迭代,降低新功能线上运行的潜在Bug。
- (4)Q4的重点是在应用AI能力,将巡检,线上问题排查,线上问题排查整体结合起来,每天发布一份AI生成的线上稳定性巡检报告,努力实现这一业务工作的日常工作的无人化作业。