「SRE Lounge #17」に参加してきました

開発チームとともに進めるインフラセキュリティの継続的な改善

アンドパッドの開発体制

  • マルチプロダクト
  • 開発チームがいくつか
  • SREチームは横断で見ている
  • メインはAWSで一部GCP(Firebaseとか)
  • k8sをEKSでECS on Fargateも
  • 歴史の長いモノリスとマイクロサービス
  • 昔はrubyだったが最近はgo

継続的なセキュリティ診断

  • AWS Security Hub
    • セキュリティベストプラクティスに基づいてチェックしてくれるサービス
  • 定期的なセキュリティチェックはしてるが発見が送れるおそれ
    • 自動化したい
  • Security Hubで検知されるとSlackに通知されるように
    • EventBridgeやSNSを組み合わせて
    • StepFunctionSecurityHubのでステータス更新することで同じの何度も通知しないように
  • チェックのルールは標準だと255件
    • チェック項目を精査
    • やむを得ないものは無効化
  • 導入して
    • 開発初期でリスクに気づける
    • 開発チームだけで自発的に完結はまだ難しい
      • slackの通知きてるよってsreチームが教えてあげたり

ウィルススキャンシステムの改善

  • アップロードされたファイルをs3バケットへの追加時にスキャンしてる
  • リプレース前はLambdaでやってた
    • 使ってたOSSが開発終了
    • Lambdaの実行コスト高い
    • 同時実行数
  • Antivirus for Amazon S3にリプレース
    • 動かす環境の利用費とライセンス費がかかる
    • S3にファイル置かれるとSNS topicに流れてSQSに流れてECS上で動くツールで処理実行
  • コスト増の予兆検知するためのアラート
    • 1日あたりの合計スキャンサイズの
    • スキャン実行するECSタスク数

飲食店のインフラサービス “ダイニー” のトラブル対応のすべて

  • Hiroaki KARASAWA (karszawa)さん dinii, inc.

飲食のインフラ

  • システムが落ちると店舗が回らなくなる
    • 予約/注文/調理/会計

大規模障害訓練

  • 心構え
    • 年に1回は大規模障害が起きていた
    • 日夜さまざまな障害が起きている
    • →落ちる前提で向き合う必要がある
  • エンジニア/ユーザサポート/営業の全メンバーで訓練実施
  • 役割
    • インシデントオーナー
    • 対外発信
    • 顧客対応
    • 飲食店役
  • 振り返り
    • 項目ごとにオーナーあげて改善していく
    • コストをかけてやってるからアクションにつなげる
  • 記憶が薄れないように何回もやる

スタンドアロン機能

  • SLA
    • Uptime99.95%
    • 月21.6min
    • 21分止まって飲食店が対応できるのか?
  • ダウンタイムの体験設計をする

ユーザサポートとの連携

  • システムアラートはエンジニア
  • ユーザからの問い合わせはユーザサポート

WAFでどのリクエストがBlockされたのか、ログを集計してSlackで簡単に見れるようにした

AWS WAFのトイル削減

  • AWS WAF
  • WAFのブロックの通知が多い
    • 問題ないアラートを毎回確認するのが大変
    • Lambdaでブロックしたリクエストを通知するようにした

CodeBuild上でGitHub Actionsを動かしてDBマイグレーション効率化

DBのデータ移行

  • 改善前
    • 踏み台サーバが1つを共用
    • 手動でやっていてオペミスが怖い-
  • 改善案
    • CodeBuildでGitHub Actionsを動かしてDBの操作をする
    • GitHub Actionsは最低でも1分動かした分の課金がされる
    • CodeBuildで動かした方が安そう

開発者が安心して実行可能なSQL行基盤の取り組み

  • 多田 貞剛さん 株式会社LayerX

DBオペレーション

  • 本番DBのデータを操作したい時
  • 踏み台サーバから接続していた
    • セキュリティ上の課題
    • ダブルチェックしにくい
  • ADRソリューション
    • Bytebase
    • 承認プロセスを経て実施
    • DB書き込みはツールから

ポストモーテム運用を導入した話

  • 日向野 達郎さん 株式会社BookLive

ポストモーテム運用

  • チームメンバーの増減があってナレッジの共有が急務になった
  • ポストモーテム導入
    • 知識のサイロ化を解消
    • 体系化されたドキュメントを残す
  • アラートごとに記載
  • 三者に伝わるように書く
  • 週に一回振り返り
  • アラート起きてSlackに通知が来ると自動でGitHubにissue起票させる