タダです.
去年の年末は Bedrock を手動かして勉強をしていました.この記事はプレビューの Web クローラーをデータソースにナレッジデータベースを作った時の備忘録です.
Bedrock Web Crawler とは
Web Crawler では Bedrock のナレッジベースで使用するために選択した URL にアクセスしウェブサイトのページをクロールすることができます.
ドキュメントに沿って試しにこのブログをソースに指定し,同期範囲は Default にしています.
なお同期範囲の種類は Default/Host only/Subdomainsがありますが,それぞれの使い分けは次のとおりです.
- Default: 指定した URL が
https://aws.amazon.com/bedrock/
の場合,このパスとhttps://aws.amazon.com/bedrock/agents/
のようなパスは検索されますが,https://aws.amazon.com/ec2/
というパスは対象になりません. - Host only: 指定した URL が
https://aws.amazon.com/bedrock/
の場合,https://docs.aws.amazon.com
やhttps://aws.amazon.com/ec2/
もクロールされます. - Subdomains: 指定した URL が
https://aws.amazon.com/bedrock/
の場合,amazon.com
を含む任意のWebページ(ex.https://www.amazon.com
)がクロールされます.
ナレッジデータベース作成後のテスト
試しに1つ前の2025年の目標が何かを問い合わせて意図通りに返ってきました.もう1つ Bytebase API 実行に関する記事を問い合わせてみてもいい感じに返ってきました.
制約
Web Crawler の制約も最後にまとめます.
- Web Crawler の対象は最大9サイトまで
- クローリング速度は 1~300 URL/分の範囲
- ソースURLからクロールするウェブページは1~25,000の間
- URLの正規表現パターンは最大25パターンまで
まとめ
非常に簡単にナレッジデータベース化ができました.