「SRE文化を考える - Encraft #15」に参加してきました

ナレッジワークでのマルチプロダクトにおける信頼性向上の取り組み

  • Naoto Higuchi (mado) / 株式会社ナレッジワーク

マルチプロダクト

  • サービスの成長とともにプロダクトが増えてきた
  • プロダクトの信頼性について共通認識がなかった
  • CUJ/SLO/SLIの導入へ
    • SLO運用ルール
    • 全体/プロジェクトでCUJ/SLO/SLIの策定
  • プロダクトチーム側で具体的なイメージが持てない
    • SREじゃなくて開発チームが主導で動けるように
    • 各チームが自律的にインシデント対応できるように
  • SRE/QA/Securityのチームが連携して信頼性向上の活動をしてる

SRE文化を考えるパネルディスカッション

Isao Shimizu / 株式会社MIXI Mitsuhiro Shibuya / 株式会社メルカリ Hiroshi Muraoka (tapih/タピ) / 株式会社ナレッジワーク

SREとしてやってること

  • SLOを自立して守っていく土台づくり
  • 開発チームと手を動かしてそこの知見から全体プロセス改善に
    • プロダクトSRE
      • 課題ベースでプロダクトの中に入って
    • セントラルSRE
      • 全体のSLO作ったり全体の施策

SREとしての悩み

  • 事業成長に伴うDB負荷と円安によるコスト増
  • やれることがたくさんある中での優先順位付け
  • モノリスの分割
  • Toilによる認知負荷

SRE組織立ち上げに大事なこと

  • 便利な運用屋さんにならないように
  • 課題とニーズを明確にしてから
  • 会話の機会を増やす
  • 短期中期のすべきすべきでないの目線を揃える

SREと開発チームどのように協力するべきか

  • いかにスケールする形でかかわるか
  • 開発が自律的に動けるような権限委譲

SLO導入で大事なこと

  • 解決したいこと変えたいことを明確に
  • Actionableであること
  • 目標の意義はそれによって行動が変わること