SLI/SLO 入門
埋め込みコード
iframe
<iframe src="https://www.ren510.dev/slides/embed/sli-slo-introduction/" title="SLI/SLO 入門" width="100%" style="aspect-ratio:1.778" frameborder="0" allowfullscreen></iframe>script タグ
<script defer class="ren510-slide-embed" data-slug="sli-slo-introduction" data-ratio="1.7777777777777777" src="https://www.ren510.dev/static/slides/embed.js"></script>🤖 AI による要約 ✨
- P.1 — タイトルスライド。「SLI/SLO 入門」発表タイトルと発表者情報
- P.2 — 本日のゴール。SLI/SLO/SLA の違い、Error Budget、SLO の重要性、導入の第一歩を理解すること
- P.3 — 目次。全 7 章の構成を紹介
- P.4 — セクション区切り。「なぜ信頼性を数値にするのか?」
- P.5 — 信頼性の課題。数値がないと主観・定性的な判断に委ねられがちになる問題を提示
- P.6 — 数値がないと起きること。開発チームと運用チームの綱引き、犯人探し、リリース速度低下の問題
- P.7 — Google SRE "The Art of SLOs" の主張。あらゆるシステムにおいて最も重要な機能は信頼性である
- P.8 — Google SRE "The Art of SLOs" の主張。100% はほぼすべてのサービスにとって間違った信頼性の目標である
- P.9 — 100% を目指すべきでない理由。可用性とダウンタイムの関係表を示し、コストが桁違いに高くなることを説明
- P.10 — セクション区切り。「SLI / SLO / SLA ー 3つの用語を整理する」
- P.11 — SLI / SLO / SLA の全体像。指標・目標・契約の関係と、それぞれの定義・性質・対象者を整理
- P.12 — SLI の定義。ユーザ体験を反映する定量的な計測値で、可用性・レイテンシ・データ鮮度の具体例を紹介
- P.13 — SLO の定義。SLI に対する内部的な目標値と期間の設定方法。ユーザの期待に基づきイテレーティブに改善する
- P.14 — SLA の定義。SLO を下回った場合のペナルティを含む顧客契約。SLA は SLO より緩く設定する
- P.15 — セクション区切り。「SLI ー 何を測るか?」
- P.16 — SLI の 4 つのカテゴリ。可用性・レイテンシ・品質・データ鮮度の意味と対象システム例
- P.17 — 良い SLI と悪い SLI の比較。CPU 使用率や障害件数ではなく、ユーザ体験と直接相関する指標を選ぶべき
- P.18 — SLI の計測ポイント。LB / API Gateway での計測を推奨し、各計測ポイントのメリット・デメリットを比較
- P.19 — API サービスの SLI 定義の具体例。Availability SLI と Latency SLI の定義をコードで示す
- P.20 — セクション区切り。「SLO ー どこまで守るか?」
- P.21 — SLO を決める 4 ステップ。現状把握→ユーザ期待の理解→仮設定→運用しながら調整
- P.22 — SLO ドキュメントの例。Payment API を題材にサービス名・SLI・SLO・計測方法・除外条件などの記載例
- P.23 — 計測ウィンドウの種類。ローリングウィンドウ(推奨)とカレンダーウィンドウの比較
- P.24 — セクション区切り。「Error Budget ー 失敗してよい量を管理する」
- P.25 — Error Budget の定義。SLO 99.9% で 100 万リクエストの場合、1,000 件の失敗が許容される計算例
- P.26 — Error Budget の使い方。残量に応じてリリース判断を変え、枯渇時はリリース凍結する運用方法
- P.27 — Burn Rate アラートの考え方。Fast Burn(緊急対応)と Slow Burn(翌営業日対応)の 2 段階を説明
- P.28 — Burn Rate アラートの導入。従来のアラートと比較し、ユーザ体験が損なわれる場合のみ通知する利点を説明
- P.29 — Error Budget ポリシ。Budget 枯渇時のリリース凍結・信頼性改善・ポストモーテム等のルールを事前合意する
- P.30 — Google SRE "The Art of SLOs" の主張。Error Budget は経営陣の後ろ盾があって初めて組織の緊張を解くことができる
- P.31 — セクション区切り。「SLO が組織にもたらすもの」
- P.32 — SLO は共通言語になる。定性的な主観による議論から、定量的な指標に基づく判断への転換を示す
- P.33 — SLO がもたらす 3 つの効果。客観的な判断基盤、開発速度と信頼性のバランス、組織横断のコミュニケーション
- P.34 — セクション区切り。「導入のロードマップ」
- P.35 — 導入フェーズ 1〜2。計測を始める(1〜2 週間)と SLO を仮設定する(2〜4 週間)の具体的なアクション
- P.36 — 導入フェーズ 3〜4。Error Budget の運用開始(1〜3 ヶ月)と定着・拡大・組織浸透(継続)のアクション
- P.37 — 明日からできる SRE。API 選定→エラー率集計→SLO 議論→ドキュメント作成の 4 ステップを所要時間付きで紹介
- P.38 — セクション区切り。「まとめ」
- P.39 — 本日のまとめ。SLI/SLO/SLA/Error Budget の一言整理と、覚えて帰ってほしい 4 つのポイント
- P.40 — Q&A スライド
- P.41 — 参考資料。Google SRE WorkBook、The Art of SLOs、SLO は何を実現するのかの 3 点を紹介








































