継続は力なり

タイトル通り定期的な更新を心掛けるブログです。

Amazon Bedrock の Web Crawler を使ってみた

タダです.

去年の年末は Bedrock を手動かして勉強をしていました.この記事はプレビューの Web クローラーをデータソースにナレッジデータベースを作った時の備忘録です.

aws.amazon.com

Bedrock Web Crawler とは

Web Crawler では Bedrock のナレッジベースで使用するために選択した URL にアクセスしウェブサイトのページをクロールすることができます.

docs.aws.amazon.com

ドキュメントに沿って試しにこのブログをソースに指定し,同期範囲は Default にしています.

なお同期範囲の種類は Default/Host only/Subdomainsがありますが,それぞれの使い分けは次のとおりです.

  • Default: 指定した URL がhttps://aws.amazon.com/bedrock/の場合,このパスとhttps://aws.amazon.com/bedrock/agents/のようなパスは検索されますが,https://aws.amazon.com/ec2/ というパスは対象になりません.
  • Host only: 指定した URL が https://aws.amazon.com/bedrock/の場合, https://docs.aws.amazon.comhttps://aws.amazon.com/ec2/もクロールされます.
  • Subdomains: 指定した URL が https://aws.amazon.com/bedrock/の場合,amazon.comを含む任意のWebページ(ex.https://www.amazon.com )がクロールされます.

ナレッジデータベース作成後のテスト

試しに1つ前の2025年の目標が何かを問い合わせて意図通りに返ってきました.もう1つ Bytebase API 実行に関する記事を問い合わせてみてもいい感じに返ってきました.

制約

Web Crawler の制約も最後にまとめます.

  • Web Crawler の対象は最大9サイトまで
  • クローリング速度は 1~300 URL/分の範囲
  • ソースURLからクロールするウェブページは1~25,000の間
  • URLの正規表現パターンは最大25パターンまで

まとめ

非常に簡単にナレッジデータベース化ができました.