ある日突然DBの性能が1/2になった話
- hmatsu47さん
2028/1のメルトダウン
- Aurora使ってた
- 2018/1のSpectre Meltdownの対応で性能一時的に落ちた
DynamoDBのcapacityを1にしてしまった話
- ssmtさん
DynamoDBのcapacity
- オンデマンドキャパシティとプロビジョンドキャパシティがある
- 前者は負荷に応じてスケールで後者は事前に指定
- メンテナンス時にどうするか
- プロビジョンドをオンデマンドに一時的に変更する
- メンテ後にプロビジョンドに戻したらcapacityが1になった
- terraformでignore_change指定してたからっぽい?
- オンデマンドでスケールさせてるとignore_changeしないと元に戻っちゃう
知らないサーバ
- 渡部龍一さん
新プラットフォームへの移設
- VMのAnsibleの一覧をリストアップし対応した
- なのに古い方でサーバが動いてると連絡が
- Ansibleの一覧にもないし検索しても何も出てこない
- SSHでは入れた
- /var/log見てみたらログがたくさん
障害が起きたらどう動く? 今日からできるインシデントレスポンス
- 曽根壮大さん
- 藤原俊一郎さん
- あんどぅさんさん
- jacopenさん
一番震えた障害
- いつものハングの対応と思ってサーバ落としたら違うものを止めてしまった
- 開発のmysql初期化しようとしたらポートフォーワードで本番に流れた
- とりあえず再起動で起動しないとか設定が初期化されちゃうとか
好きな障害
- パフォーマンスチューニングで解決する系
- 見たことある障害は好きじゃない
ポストモーテム
- できるだけすぐにステークホルダーが揃うタイミングで
- 翌営業日に書き始めて長くて一週間で
- 他のチームとシェアできるのがいい
#インシデント発生時の初動をはやくする工夫
- アラート起きたときのファーストアクションを用意しておく
- インシデントコマンダーを育成していく
- 意思決定ができるとか
- 普段の状況を知っていること
- そうすると異常が起きた時にあたりをつけやすい