工作周报2025年 6 月 30 日 - 2025年 7 月 6 日

2025-07-06

本周工作思考

Q2 可观测性体系建设及稳定性治理总结及思考
1. Q2在目标设计上重点解决现存的影响线上质量的问题，对能力框架建设和机制建设的问题没有过多过深的涉及，而这些会成为Q3的重点。
2. 随着迭代的进行，整个路线图在执行过程中逐渐清晰和明确，
  - （1）Q1我们重点解决了线上很多影响用户使用和体验，用户没有反馈的线上bug，提升了线上运行的稳定性；
  - （2）Q2我们重点解决了错误率高，不影响使用的，但是在部分浏览器上可能会有bug的，影响用户性能的，有潜在质量风险的问题，同时对部分重点功能和组件，部分疑难问题做了比较长期和和深入的跟踪及观察，解决了一批潜在的线上问题，优化了一些重点功能，加固了大部分的代码的异常数据兼容性；在指标完成度上，我们紧密围绕指标提升开展工作，但是也不是僵硬的以达成绝对的指标数值为目标，比如在解决某一类问题上，我们会在某几周内通过主动上报大量的日志导致指标下滑，但是这样能够给我们展示更多的系统线上运行信息，这样非常有利于一些疑难问题的排查，而不必在意一时的指标下滑。
  - （3）Q3依旧会解决Q1和Q2遗漏的或者新增的的基础问题，另外就是对能力建设，如（1）Sentry机制完善，包括ignore的配置化，Sentry采样率的模块化区分或者针对企业级的区分，Sentry服务的深度使用及服务器优化；（2）构建AI巡检能力，打通Sentry的MCP服务，将人工巡检部分的或者全部的交给AI，人工只解决AI解决不的问题；（3）尝试构建AI自动修复机制，对巡查发现的诸如类型错误，异常数据问题由AI自动增，加修复代码，提交MR，提交CRPipeline；（4）配合服务端的解决稳定性治理和新产品迭代，降低新功能线上运行的潜在Bug。
  - （4）Q4的重点是在应用AI能力，将巡检，线上问题排查，线上问题排查整体结合起来，每天发布一份AI生成的线上稳定性巡检报告，努力实现这一业务工作的日常工作的无人化作业。