タダです.
SRE NEXT 2024で以前インターンに来ていたメンバーと再開したのをきっかけに初めてイベント企画・運営に携わりました.10/30にイベントが無事終了しました.参加いただいたみなさん,ありがとうございました!自分もイベントで登壇したのでこの記事で発表内容やQ&Aでいただいた質問への回答をまとめます.
発表概要
自分は『プロダクトチームへのSystem Risk Records導入・運用事例の紹介』という発表をしました.
これは株式会社dinii 浦山さんの発表を聞いて,その取組を自社に持ち帰って実践した内容になります(資料はこちらです).System Risk Records とは同社の定期システムモニタリングにおける課題を解消するためのドキュメンテーションです.定常的に見ていたシステムメトリクスでは拾えきれてなかった潜在的なリスクを一覧化してステータスや優先度を管理し,調査・修正の対応内容をまとめられているので関係者はどういったアクションが取られていたかを後ほど把握できます.
この発表を聞いた時に自分が感じていた定期システムモニタリングの課題と被っている部分もあるし,利用しているツールも同じだったので自社に持ち帰って取り組んだ内容を紹介しました.当時の SRE NEXT 2024レポート記事の中でも共感を言及しています.
関連記事
自社に持ち帰ってどうだったか
具体的に成果はまだ上げきれてないものの,以下の良かったことがありました.
- システムの異常な挙動に対する調査をした時に記録が残ったことや調査した結果,バックログに積んで対応するフローができたこと
- 潜在的なリスクが開発者の頭の中にあったものが可視化されていくようになったこと
- プロダクトチーム内のコミュニケーションとして今は影響がないかもしれないが,今後はこういった影響が出るリスクが出る可能性があるや関係者へ先んじての連携といった話がでるようになり,インシデント予防に一定寄与していると感じること
とはいえ,運用し始めて改善したいことも出てきました.例えば,登録したリスクの粒度が大小あって,全部をウォッチするのではなく注視するリスクを優先度をベースに絞り込んだビューを用意したり,プロダクトチームと運用方針を見直してます.また,アサインしたものも積み上がっていたりしている時があって定期棚卸しをやるかなど取り組みながらよりよいカタチを追求していきたいです.
Q&A
Q&Aセッションで System Risk Records を管理する先として GitHub Issue と Notion で二重管理にならないかという質問をいただきました.この点,自社では開発時に関する様々なドキュメンテーションが Notion に記しており,GitHub Issue を使用していないため二重管理にならなかったです.Notion の活用が文化としてできあがっていた土壌があったのは大きかったなと感じます.
まとめ
『SRE NEXT 2024をふりかえって 〜学びをもとにした取り組み事例紹介〜』で登壇したので発表概要とその振り返り,Q&Aでいただいた内容をまとめました.