タダです.
以下のイベントにて『システムのアラート調査をサポートするAI Agentの紹介』という発表をしてきました.この記事で自分なりに発表を振り返ります.
資料
AI Agent を開発をやろうと思った経緯
以下のスライドにあるようにアラート対応の複雑さとアラート対応にあたるまでの学習コストの高さを感じ,課題解消のために改善策を検討していました.
そんな折 AI Agent の社内ハッカソンがありここで今回開発した Agent のもとになるものを開発した経験から継続的に開発をしてみることにしました.
開発中の Agent の概要
開発中の Agent は2つの役割があります.1つ目は複数のデータソース(Datadog/CloudWatch等)にあるメトリクス,ログ,トレース情報を収集・分析し依頼に対する調査レポートを作ることです.これにより開発メンバーがアラート調査を介入しやすくなるよう支援することを目的としています.2つ目はエラーに対する改善の提案を行うことです.アラート調査においては原因の特定に加えて,修正も適宜行う必要が出てくるためアラートの改善提案を行うようにしています.
実際の動作イメージ
実際 Agent が動作するイメージも紹介しました.SQS のデッドレターキューにメッセージが入った際のアラートを Agent に調査させてそのレポートと,改善案を提案しているイメージが以下のスライドになります.関連するサービスとデッドレターキューにメッセージが移動してしまった処理を提示してその改善案を提供する動きになっています.
とはいえ開発中のため動作が不安定だったり,コンテキスト不足で調査が非効率だったり課題はあるため改善して実運用に使用されるようにしていきます.
まとめ
まだまだ本格利用の域まで到達していないため継続的な改善は必要ですが,個人的に AI Agent を開発してみてコンテキストウィンドウをちゃんと管理する,エージェントの役割1つにつき1役割等を実際に開発して体験することができました.こうした経験は手を動かしていかないとわからないと思うので今後もやり続けていきたいです.