概要
LemonDataは、APIコストとレスポンスのレイテンシを大幅に削減できるインテリジェント・キャッシング・システムを提供します。当社のキャッシングは単なるリクエストのマッチングにとどまらず、プロンプトの**セマンティックな意味(意味論的な意味)**を理解します。コスト削減
キャッシュヒット時は、通常のコストの数分の一で請求されます。
レスポンスの高速化
キャッシュされたレスポンスは即座に返され、モデルの推論は不要です。
コンテキスト対応
セマンティック・マッチングにより、言い回しが異なる場合でも類似のリクエストを特定します。
プライバシー・コントロール
何をキャッシュし、共有するかを完全に制御できます。
仕組み
LemonDataは2層のキャッシング・システムを使用しています:レイヤー1:レスポンス・キャッシュ(完全一致)
決定論的なリクエスト(temperature=0)の場合、正確なレスポンスをキャッシュします:
- 一致条件:同一のモデル、メッセージ、およびパラメータ
- 速度:即時(マイクロ秒単位)
- 最適な用途:繰り返される同一のクエリ
レイヤー2:セマンティック・キャッシュ(類似性一致)
すべてのリクエストに対して、2段階のマッチング・アルゴリズムを使用してセマンティックな類似性もチェックします:- ステージ1(クエリのみ):ユーザー・クエリで95%以上の類似性
- ステージ2(フル・コンテキスト):会話のコンテキストを含めて85%以上の類似性
- 最適な用途:FAQ形式のクエリ、よくある質問
キャッシュ・ヘッダー
リクエスト・ヘッダー
リクエストごとにキャッシングの動作を制御します:| ヘッダー | 値 | 効果 |
|---|---|---|
Cache-Control: no-cache | - | キャッシュをスキップし、新しいレスポンスを取得 |
Cache-Control: no-store | - | このレスポンスをキャッシュしない |
レスポンス・ヘッダー
すべてのレスポンスにキャッシュ・ステータスが含まれます:キャッシュ・ステータスの確認
キャッシュの請求
キャッシュヒットは、新しいリクエストよりも大幅に安価です:| タイプ | コスト |
|---|---|
| キャッシュ HIT | 80% オフ |
| キャッシュ MISS | 定価 |
プライバシー・コントロール
APIキー・レベル
ダッシュボードで各APIキーのキャッシング動作を設定します:| モード | 説明 |
|---|---|
| デフォルト | キャッシュ有効。類似のリクエストと共有される可能性があります |
| 共有なし | キャッシュ有効。ただし、レスポンスはお客様のアカウント専用となります |
| 無効 | キャッシングを一切行わない |
リクエスト・レベル
リクエストごとに上書きします:キャッシュ・フィードバック
誤ったキャッシュ・レスポンスを受け取った場合は、報告することができます:wrong_answer- 事実と異なるoutdated- 情報が古いirrelevant- 質問と一致しないother- その他の問題
ベストプラクティス
キャッシュ可能なクエリには temperature=0 を使用する
キャッシュ可能なクエリには temperature=0 を使用する
決定論的な設定により、キャッシュヒット率が最大化されます。
プロンプトの形式を標準化する
プロンプトの形式を標準化する
一貫したフォーマットにより、セマンティック・マッチングが向上します。
時間に敏感なクエリには no-cache を使用する
時間に敏感なクエリには no-cache を使用する
時事問題やリアルタイム・データはキャッシュをスキップする必要があります。
キャッシュヒット率を監視する
キャッシュヒット率を監視する
ダッシュボードでキャッシュの統計と節約額を確認してください。
キャッシュすべきでない場合
以下の場合、キャッシングを無効にしてください:- リアルタイム情報:株価、天気、ニュース
- パーソナライズされたコンテンツ:ユーザー固有の推奨事項
- クリエイティブなタスク:多様性が求められる場合
- 機密データ:機密情報