「ゆるSRE勉強会 #7 ~1周年記念企画 真夏のSRE怖い話~」に参加してきました

ある日突然DBの性能が1/2になった話

  • hmatsu47さん

2028/1のメルトダウン

  • Aurora使ってた
  • 2018/1のSpectre Meltdownの対応で性能一時的に落ちた

DynamoDBのcapacityを1にしてしまった話

  • ssmtさん

DynamoDBのcapacity

  • オンデマンドキャパシティとプロビジョンドキャパシティがある
    • 前者は負荷に応じてスケールで後者は事前に指定
  • メンテナンス時にどうするか
    • プロビジョンドをオンデマンドに一時的に変更する
    • メンテ後にプロビジョンドに戻したらcapacityが1になった
    • terraformでignore_change指定してたからっぽい?
      • オンデマンドでスケールさせてるとignore_changeしないと元に戻っちゃう

知らないサーバ

新プラットフォームへの移設

  • VMのAnsibleの一覧をリストアップし対応した
  • なのに古い方でサーバが動いてると連絡が
  • Ansibleの一覧にもないし検索しても何も出てこない
  • SSHでは入れた
  • /var/log見てみたらログがたくさん

障害が起きたらどう動く? 今日からできるインシデントレスポンス

  • 曽根壮大さん
  • 藤原俊一郎さん
  • あんどぅさんさん
  • jacopenさん

一番震えた障害

  • いつものハングの対応と思ってサーバ落としたら違うものを止めてしまった
  • 開発のmysql初期化しようとしたらポートフォーワードで本番に流れた
  • とりあえず再起動で起動しないとか設定が初期化されちゃうとか

好きな障害

  • パフォーマンスチューニングで解決する系
  • 見たことある障害は好きじゃない

ポストモーテム

  • できるだけすぐにステークホルダーが揃うタイミングで
  • 翌営業日に書き始めて長くて一週間で
  • 他のチームとシェアできるのがいい

#インシデント発生時の初動をはやくする工夫

  • アラート起きたときのファーストアクションを用意しておく
  • インシデントコマンダーを育成していく
    • 意思決定ができるとか
  • 普段の状況を知っていること
    • そうすると異常が起きた時にあたりをつけやすい