技术文档RE实战手册RE实战手册00 开篇词 SRE是解决系统稳定性问题的灵丹妙药吗?01 SRE迷思:无所不能的角色?还是运维的升级?02 系统可用性:没有故障,系统就一定是稳定的吗?03 SRE切入点:选择SLI,设定SLO04 错误预算:达成稳定性目标的共识机制05 案例:落地SLO时还需要考虑哪些因素?06 故障发现:如何建设On-Call机制?07 故障处理:一切以恢复业务为最高优先级08 故障复盘:黄金三问与判定三原则09 案例:互联网典型的SRE组织架构是怎样的?10 经验:都有哪些高效的SRE组织协作机制?答疑 没什么能阻挡你拓展边界的渴望结束语 聊聊我的SRE落地心路历程