概要
LemonDataのプラットフォームセマンティックキャッシュに加えて、多くのAIプロバイダーが独自のプロンプトキャッシュ機能を提供しています。これは、プロバイダーレベル(Anthropic、OpenAI、DeepSeekなど)で動作する個別のキャッシュメカニズムです。2種類のキャッシュ
これらは相互排他的です。プラットフォームキャッシュがヒットした場合、アップストリームへの呼び出しは行われないため、プロバイダーキャッシュは適用されません。
| タイプ | 場所 | 仕組み | コスト |
|---|---|---|---|
| プラットフォームキャッシュ | LemonData | セマンティック類似性マッチング | 通常価格の10% |
| プロバイダーキャッシュ | アップストリーム (Anthropic/OpenAIなど) | 完全なプレフィックス一致 | 割引トークンレート |
プロバイダープロンプトキャッシュの仕組み
プロバイダープロンプトキャッシュは、プロンプトのプレフィックス(接頭辞)の処理済み表現をプロバイダーのサーバーに保存します。同じプレフィックスを持つリクエストを送信すると、プロバイダーはそれらのトークンの再処理をスキップできます。主な特徴
- プレフィックスベース: プロンプトの先頭部分のみがキャッシュ可能
- 完全一致: 同一のトークンが必要(セマンティック類似性ではない)
- 時間制限あり: キャッシュエントリには有効期限がある(通常5〜60分)
- 自動: 特別な設定は不要
サポートされているプロバイダー
| プロバイダー | キャッシュ読み取り割引 | キャッシュ書き込みコスト | 最小トークン数 |
|---|---|---|---|
| Anthropic | 90%オフ | 25%プレミアム | 1024 |
| OpenAI | 50%オフ | 入力と同じ | 1024 |
| DeepSeek | 90%オフ | 入力と同じ | 64 |
| 75%オフ | 25%のプレミアム | 32768 |
割引は自動的に適用されます。LemonDataはプロバイダーのキャッシュ価格設定をそのままお客様に適用します。
キャッシュ使用状況の確認
使用状況ログでの確認
使用状況ログには、詳細なキャッシュトークンの内訳が表示されます:| フィールド | 説明 |
|---|---|
cacheReadTokens | プロバイダーキャッシュから提供されたトークン(割引適用) |
cacheWriteTokens | キャッシュに書き込まれたトークン(将来のリクエスト用) |
nonCachedPromptTokens | キャッシュなしで処理されたトークン |
トランザクションでの確認
アップストリームキャッシュが使用された場合、トランザクションに Provider Cache ラベルが表示されます:- Cache(スカイブルー):プラットフォームセマンティックキャッシュヒット - 90%割引
- Provider Cache(ティール):アップストリームプロンプトキャッシュヒット - 割引レート
コスト計算例
Claude (Anthropic) への10,000入力トークンのリクエストの場合: キャッシュなし:ベストプラクティス
一貫したシステムプロンプトを使用する
一貫したシステムプロンプトを使用する
システムプロンプトと静的なコンテキストをメッセージの先頭に配置してください。これにより、キャッシュヒットの可能性が最大化されます。
類似のリクエストをバッチ処理する
類似のリクエストをバッチ処理する
キャッシュが期限切れになる前に、同じプレフィックスを持つリクエストを短期間に集中して送信し、キャッシュの恩恵を受けられるようにします。
最小トークン要件を満たす
最小トークン要件を満たす
キャッシュ可能なプレフィックスがプロバイダーの最小要件(例:Anthropic/OpenAIの場合は1024トークン)を満たしていることを確認してください。
キャッシュメトリクスを監視する
キャッシュメトリクスを監視する
ダッシュボードの使用統計を確認して、キャッシュヒット率と節約額を把握してください。
プラットフォームキャッシュ vs プロバイダーキャッシュ
| 項目 | プラットフォームキャッシュ | プロバイダーキャッシュ |
|---|---|---|
| マッチング | セマンティック類似性 | 完全なプレフィックス一致 |
| コスト | 通常価格の10% | 割引レート |
| レイテンシ | 即時 (~1ms) | 短縮 (処理のスキップ) |
| コントロール | ダッシュボード設定 | 自動 |
| スコープ | ユーザー間 (オプション) | APIキーごと |
それぞれの適用タイミング
キャッシュステータスの確認
レスポンスヘッダー
Usage API
使用状況ログをクエリして、キャッシュの内訳を確認します:FAQ
プロバイダーキャッシュを無効にできますか?
プロバイダーキャッシュを無効にできますか?
プロバイダーキャッシュは自動的に行われ、無効にすることはできません。ただし、これはコスト削減というメリットしかないため、無効にする理由はありません。
リクエストがプロバイダーキャッシュにヒットしなかったのはなぜですか?
リクエストがプロバイダーキャッシュにヒットしなかったのはなぜですか?
一般的な理由:
- プレフィックスが変更された(1トークンの違いでも不可)
- キャッシュが期限切れになった(通常5〜60分)
- プレフィックスが短すぎる(最小トークン数未満)
- 別のAPIキーが使用された
BYOKはプロバイダーキャッシュをサポートしていますか?
BYOKはプロバイダーキャッシュをサポートしていますか?
はい!独自のAPIキー(BYOK)を使用する場合でも、プロバイダーキャッシュは同様に機能します。キャッシュはアップストリームのAPIキーに関連付けられます。
キャッシュによる節約を最大化するにはどうすればよいですか?
キャッシュによる節約を最大化するにはどうすればよいですか?
- 繰り返される類似のクエリにはプラットフォームセマンティックキャッシュを使用する
- 静的なコンテンツを最初に配置するようにプロンプトを構成する
- リクエスト間でシステムプロンプトの一貫性を保つ
- 関連するリクエストを短時間で連続して送信する