ナレッジワークでのマルチプロダクトにおける信頼性向上の取り組み
- Naoto Higuchi (mado) / 株式会社ナレッジワーク
マルチプロダクト
- サービスの成長とともにプロダクトが増えてきた
- プロダクトの信頼性について共通認識がなかった
- CUJ/SLO/SLIの導入へ
- SLO運用ルール
- 全体/プロジェクトでCUJ/SLO/SLIの策定
- プロダクトチーム側で具体的なイメージが持てない
- SREじゃなくて開発チームが主導で動けるように
- 各チームが自律的にインシデント対応できるように
- SRE/QA/Securityのチームが連携して信頼性向上の活動をしてる
SRE文化を考えるパネルディスカッション
Isao Shimizu / 株式会社MIXI Mitsuhiro Shibuya / 株式会社メルカリ Hiroshi Muraoka (tapih/タピ) / 株式会社ナレッジワーク
SREとしてやってること
- SLOを自立して守っていく土台づくり
- 開発チームと手を動かしてそこの知見から全体プロセス改善に
- プロダクトSRE
- 課題ベースでプロダクトの中に入って
- セントラルSRE
- 全体のSLO作ったり全体の施策
- プロダクトSRE
SREとしての悩み
- 事業成長に伴うDB負荷と円安によるコスト増
- やれることがたくさんある中での優先順位付け
- モノリスの分割
- Toilによる認知負荷
SRE組織立ち上げに大事なこと
- 便利な運用屋さんにならないように
- 課題とニーズを明確にしてから
- 会話の機会を増やす
- 短期中期のすべきすべきでないの目線を揃える
SREと開発チームどのように協力するべきか
- いかにスケールする形でかかわるか
- 開発が自律的に動けるような権限委譲
SLO導入で大事なこと
- 解決したいこと変えたいことを明確に
- Actionableであること
- 目標の意義はそれによって行動が変わること