SLI/SLO 入門

埋め込みコード

iframe
<iframe src="https://www.ren510.dev/slides/embed/sli-slo-introduction/" title="SLI/SLO 入門" width="100%" style="aspect-ratio:1.778" frameborder="0" allowfullscreen></iframe>
script タグ
<script defer class="ren510-slide-embed" data-slug="sli-slo-introduction" data-ratio="1.7777777777777777" src="https://www.ren510.dev/static/slides/embed.js"></script>
🤖 AI による要約 ✨
  1. P.1タイトルスライド。「SLI/SLO 入門」発表タイトルと発表者情報
  2. P.2本日のゴール。SLI/SLO/SLA の違い、Error Budget、SLO の重要性、導入の第一歩を理解すること
  3. P.3目次。全 7 章の構成を紹介
  4. P.4セクション区切り。「なぜ信頼性を数値にするのか?」
  5. P.5信頼性の課題。数値がないと主観・定性的な判断に委ねられがちになる問題を提示
  6. P.6数値がないと起きること。開発チームと運用チームの綱引き、犯人探し、リリース速度低下の問題
  7. P.7Google SRE "The Art of SLOs" の主張。あらゆるシステムにおいて最も重要な機能は信頼性である
  8. P.8Google SRE "The Art of SLOs" の主張。100% はほぼすべてのサービスにとって間違った信頼性の目標である
  9. P.9100% を目指すべきでない理由。可用性とダウンタイムの関係表を示し、コストが桁違いに高くなることを説明
  10. P.10セクション区切り。「SLI / SLO / SLA ー 3つの用語を整理する」
  11. P.11SLI / SLO / SLA の全体像。指標・目標・契約の関係と、それぞれの定義・性質・対象者を整理
  12. P.12SLI の定義。ユーザ体験を反映する定量的な計測値で、可用性・レイテンシ・データ鮮度の具体例を紹介
  13. P.13SLO の定義。SLI に対する内部的な目標値と期間の設定方法。ユーザの期待に基づきイテレーティブに改善する
  14. P.14SLA の定義。SLO を下回った場合のペナルティを含む顧客契約。SLA は SLO より緩く設定する
  15. P.15セクション区切り。「SLI ー 何を測るか?」
  16. P.16SLI の 4 つのカテゴリ。可用性・レイテンシ・品質・データ鮮度の意味と対象システム例
  17. P.17良い SLI と悪い SLI の比較。CPU 使用率や障害件数ではなく、ユーザ体験と直接相関する指標を選ぶべき
  18. P.18SLI の計測ポイント。LB / API Gateway での計測を推奨し、各計測ポイントのメリット・デメリットを比較
  19. P.19API サービスの SLI 定義の具体例。Availability SLI と Latency SLI の定義をコードで示す
  20. P.20セクション区切り。「SLO ー どこまで守るか?」
  21. P.21SLO を決める 4 ステップ。現状把握→ユーザ期待の理解→仮設定→運用しながら調整
  22. P.22SLO ドキュメントの例。Payment API を題材にサービス名・SLI・SLO・計測方法・除外条件などの記載例
  23. P.23計測ウィンドウの種類。ローリングウィンドウ(推奨)とカレンダーウィンドウの比較
  24. P.24セクション区切り。「Error Budget ー 失敗してよい量を管理する」
  25. P.25Error Budget の定義。SLO 99.9% で 100 万リクエストの場合、1,000 件の失敗が許容される計算例
  26. P.26Error Budget の使い方。残量に応じてリリース判断を変え、枯渇時はリリース凍結する運用方法
  27. P.27Burn Rate アラートの考え方。Fast Burn(緊急対応)と Slow Burn(翌営業日対応)の 2 段階を説明
  28. P.28Burn Rate アラートの導入。従来のアラートと比較し、ユーザ体験が損なわれる場合のみ通知する利点を説明
  29. P.29Error Budget ポリシ。Budget 枯渇時のリリース凍結・信頼性改善・ポストモーテム等のルールを事前合意する
  30. P.30Google SRE "The Art of SLOs" の主張。Error Budget は経営陣の後ろ盾があって初めて組織の緊張を解くことができる
  31. P.31セクション区切り。「SLO が組織にもたらすもの」
  32. P.32SLO は共通言語になる。定性的な主観による議論から、定量的な指標に基づく判断への転換を示す
  33. P.33SLO がもたらす 3 つの効果。客観的な判断基盤、開発速度と信頼性のバランス、組織横断のコミュニケーション
  34. P.34セクション区切り。「導入のロードマップ」
  35. P.35導入フェーズ 1〜2。計測を始める(1〜2 週間)と SLO を仮設定する(2〜4 週間)の具体的なアクション
  36. P.36導入フェーズ 3〜4。Error Budget の運用開始(1〜3 ヶ月)と定着・拡大・組織浸透(継続)のアクション
  37. P.37明日からできる SRE。API 選定→エラー率集計→SLO 議論→ドキュメント作成の 4 ステップを所要時間付きで紹介
  38. P.38セクション区切り。「まとめ」
  39. P.39本日のまとめ。SLI/SLO/SLA/Error Budget の一言整理と、覚えて帰ってほしい 4 つのポイント
  40. P.40Q&A スライド
  41. P.41参考資料。Google SRE WorkBook、The Art of SLOs、SLO は何を実現するのかの 3 点を紹介