
Amazon Bedrock AgentCoreでAIエージェントを本番運用する:品質評価とポリシー制御の実装ガイド
お疲れ様です!IT業界で働くアライグマです!
「AIエージェントを開発したけど、本番環境でどう運用すればいいかわからない」「品質評価やガードレールをどう設計すればいいのか」——そんな悩みを持つエンジニアは多いのではないでしょうか。
結論から言うと、Amazon Bedrock AgentCoreは、AIエージェントの品質評価とポリシー制御を一元管理できるマネージドサービスで、本番運用に必要な機能が揃っています。
私自身もPjMとして、社内でAIエージェントを本番導入するプロジェクトに関わった経験があります。その際に最も苦労したのが「品質をどう担保するか」と「不適切な出力をどう防ぐか」でした。AgentCoreはまさにこの課題を解決するために設計されたサービスです。この記事では、AgentCoreの概要から実装パターンまでを解説します。
Amazon Bedrock AgentCoreとは何か
Amazon Bedrock AgentCoreは、2025年12月にAWSが発表した新機能で、AIエージェントの本番運用に必要な品質評価とポリシー制御の機能を提供します。運用を見据えたアーキテクチャ設計の考え方がそのまま適用されています。
従来のAIエージェント運用の課題
従来、AIエージェントを本番運用する際には以下のような課題がありました。
- 出力品質の評価基準が曖昧で、定量的な品質管理が困難
- 不適切な出力(ハルシネーション、機密情報漏洩など)を防ぐガードレールの実装が個別対応
- コストとレイテンシのトレードオフを可視化する仕組みがない
- 本番環境でのA/Bテストやロールバックが難しい
AgentCoreが提供する解決策
AgentCoreは、これらの課題に対して以下の機能を提供します。
- Quality Evaluations:エージェントの出力品質を自動評価するフレームワーク
- Policy Controls:出力に対するガードレールとフィルタリング
- Cost Attribution:エージェントごとのコスト配分と可視化
- Latency Monitoring:レスポンスタイムの監視とアラート
MCPでAIエージェントを拡張する実践ガイドでも触れていますが、エージェントの拡張性と運用性は両立させる必要があります。

AgentCoreの基本設定とセットアップ
AgentCoreを使い始めるための基本的なセットアップ手順を解説します。ドメインモデリングの考え方を適用し、ビジネスロジックとエージェントの境界を明確にすることが重要です。
前提条件
AgentCoreを利用するには、以下の前提条件を満たす必要があります。
- Amazon Bedrockが利用可能なAWSリージョン(us-east-1, us-west-2, ap-northeast-1など)
- Bedrock Agentの作成権限を持つIAMロール
- Claude 3.5 Sonnet、Llama 3.1などのサポートされたモデルへのアクセス
基本的なセットアップコード
以下は、AgentCoreを使ってエージェントをセットアップする基本的なコード例です。
import boto3
from botocore.config import Config
# Bedrockクライアントの初期化
bedrock_config = Config(
region_name='ap-northeast-1',
retries={'max_attempts': 3, 'mode': 'adaptive'}
)
bedrock_agent = boto3.client(
'bedrock-agent-runtime',
config=bedrock_config
)
# AgentCoreの品質評価設定
quality_config = {
'evaluationMetrics': [
'accuracy',
'relevance',
'groundedness',
'harmfulness'
],
'thresholds': {
'accuracy': 0.85,
'relevance': 0.80,
'groundedness': 0.90,
'harmfulness': 0.05 # 有害性は低いほど良い
}
}
# ポリシー制御の設定
policy_config = {
'contentFilters': {
'personalInfoFilter': True,
'toxicityFilter': True,
'hallucination DetectionLevel': 'strict'
},
'outputValidation': {
'maxTokens': 4096,
'requiredFields': ['response', 'sources']
}
}
Anthropic Skillsで始めるAIエージェント開発で解説したTool Useパターンと組み合わせることで、より堅牢なエージェントを構築できます。

品質評価(Quality Evaluations)の実装
AgentCoreの中核機能である品質評価の実装方法を詳しく解説します。品質評価とセキュリティが最も重要な要素であり、これらを適切に実装することが本番運用の成功の鍵となります。
ケーススタディ:社内FAQエージェントの品質改善
状況(Before)
私が関わったプロジェクトでは、社内FAQに回答するAIエージェントを構築していました。初期実装では回答精度が約65%で、ユーザーからの「回答が的外れ」というフィードバックが週に30件以上ありました。特に問題だったのは、ドキュメントに記載のない内容を「ハルシネーション」として回答してしまうケースでした。
行動(Action)
AgentCoreのQuality Evaluationsを導入し、以下の評価メトリクスを設定しました。
# 品質評価の実装例
def evaluate_agent_response(response, context, expected_answer=None):
evaluation_request = {
'agentResponse': response,
'inputContext': context,
'evaluationConfig': {
'metrics': ['groundedness', 'relevance', 'completeness'],
'referenceDocuments': context.get('documents', [])
}
}
# AgentCoreの評価APIを呼び出し
result = bedrock_agent.evaluate_response(**evaluation_request)
# 閾値チェック
if result['groundednessScore'] < 0.85:
# 根拠不十分な場合はフォールバック応答
return generate_fallback_response(context)
return result
結果(After)
導入後2週間で回答精度が65%から89%に改善しました。ハルシネーション検出により、根拠のない回答は自動的にフォールバック(「この質問については担当部署にお問い合わせください」)に切り替わるようになり、「的外れ」フィードバックは週3件以下に減少しました。
継続的な改善サイクルを回すことで品質を向上させることができます。以下のグラフは、AIエージェント本番運用における各要素の重要度を示しています。
CursorとOllamaで構築するローカルRAG環境で紹介したRAGパターンと組み合わせることで、ドキュメントに基づいた回答の精度をさらに高められます。

ポリシー制御(Policy Controls)の実装
本番環境では、エージェントの出力が企業ポリシーやコンプライアンス要件を満たしていることを保証する必要があります。セキュリティは後付けではなく設計段階から組み込むべきです。
コンテンツフィルタリングの設定
AgentCoreでは、複数のレイヤーでコンテンツフィルタリングを設定できます。
# ポリシー制御の実装例
policy_controls = {
'inputFilters': {
# 入力に対するフィルタ
'promptInjectionDetection': True,
'jailbreakAttemptDetection': True
},
'outputFilters': {
# 出力に対するフィルタ
'personalDataMasking': {
'enabled': True,
'patterns': ['email', 'phone', 'address', 'creditCard']
},
'toxicityThreshold': 0.1,
'biasDetection': True
},
'guardrails': {
# ガードレール設定
'topicRestrictions': [
'politicalOpinions',
'medicalAdvice',
'legalAdvice'
],
'responseTemplates': {
'restricted': '申し訳ございませんが、この質問にはお答えできません。'
}
}
}
監査ログとコンプライアンス
すべてのエージェント応答は監査ログに記録され、後から追跡可能です。これにより、コンプライアンス要件への対応やインシデント調査が容易になります。
git worktreeとDocker Volumeで実現するAIエージェント並行開発環境で解説した開発環境と組み合わせ、開発・ステージング・本番の各環境でポリシーを段階的にテストすることをお勧めします。

本番運用のベストプラクティス
AgentCoreを本番環境で運用する際のベストプラクティスを整理します。チーム間の責任分界を明確にすることも重要です。
モニタリングとアラート
本番環境では、以下のメトリクスを監視することを推奨します。
- 品質スコアの推移:日次で平均スコアを追跡し、閾値を下回った場合にアラート
- ポリシー違反の検出数:異常な増加がないかを監視
- レイテンシ:P50, P95, P99を追跡
- コスト:エージェントごとのトークン消費量と課金額
段階的ロールアウト
新しいエージェントバージョンをデプロイする際は、カナリアリリースを活用します。
# AgentCore デプロイ設定
deployment:
strategy: canary
stages:
- name: canary
traffic_percentage: 5
duration: 1h
success_criteria:
quality_score_min: 0.85
error_rate_max: 0.01
- name: rollout
traffic_percentage: 100
auto_rollback:
enabled: true
threshold:
quality_score_drop: 0.10
フィーチャーフラグとリリース管理の実装パターンで解説したリリース戦略と組み合わせることで、より安全なデプロイが可能になります。

まとめ
Amazon Bedrock AgentCoreは、AIエージェントの本番運用に必要な品質評価とポリシー制御を一元管理できるマネージドサービスです。
この記事で伝えたかったポイントは以下の通りです。
- AgentCoreは品質評価(Quality Evaluations)とポリシー制御(Policy Controls)の2つの柱で構成
- 品質評価により、ハルシネーションや的外れな回答を自動検出してフォールバック可能
- ポリシー制御により、PII(個人情報)のマスキングやトピック制限を実装可能
- 監査ログと段階的ロールアウトで本番環境での安全な運用を実現
AIエージェントの本番運用は、単にデプロイするだけでは不十分です。品質とセキュリティを継続的に担保する仕組みを構築することで、ビジネス価値を最大化できます。まずはステージング環境でAgentCoreを試し、品質評価の閾値をチューニングするところから始めてみてください。










