✨ Upstream Prompt Cache

Tổng quan

Ngoài platform semantic cache của LemonData, nhiều nhà cung cấp AI cũng cung cấp tính năng prompt caching của riêng họ. Đây là một cơ chế caching riêng biệt hoạt động ở cấp độ nhà cung cấp (Anthropic, OpenAI, DeepSeek, v.v.).

Hai loại Caching

Loại	Vị trí	Cách hoạt động	Chi phí
Platform Cache	LemonData	Khớp nối tương đồng ngữ nghĩa	10% giá thường
Provider Cache	Upstream (Anthropic/OpenAI/v.v.)	Khớp nối tiền tố chính xác	Giá token ưu đãi

Hai loại này loại trừ lẫn nhau: nếu platform cache khớp (hit), sẽ không có cuộc gọi upstream nào được thực hiện, do đó provider cache sẽ không được áp dụng.

Cách Provider Prompt Cache hoạt động

Provider prompt caching lưu trữ biểu diễn đã xử lý của tiền tố prompt trên máy chủ của nhà cung cấp. Khi bạn gửi một yêu cầu với cùng một tiền tố, nhà cung cấp có thể bỏ qua việc xử lý lại các token đó.

Các đặc điểm chính

Dựa trên tiền tố: Chỉ phần đầu của prompt mới có thể được cache
Khớp chính xác: Yêu cầu các token phải giống hệt nhau (không phải tương đồng ngữ nghĩa)
Giới hạn thời gian: Các mục cache sẽ hết hạn (thường từ 5-60 phút)
Tự động: Không cần cấu hình đặc biệt

Yêu cầu 1: [System prompt + Context A + Question 1]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           Tiền tố này sẽ được cache

Yêu cầu 2: [System prompt + Context A + Question 2]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           Khớp cache! Chỉ Question 2 được xử lý

Các nhà cung cấp được hỗ trợ

Nhà cung cấp	Giảm giá đọc Cache	Chi phí ghi Cache	Token tối thiểu
Anthropic	Giảm 90%	Phụ phí 25%	1024
OpenAI	Giảm 50%	Bằng giá đầu vào	1024
DeepSeek	Giảm 90%	Bằng giá đầu vào	64
Google	Giảm 75%	Phụ phí 25%	32768

Các mức giảm giá được áp dụng tự động. LemonData chuyển tiếp mức giá cache của nhà cung cấp trực tiếp đến bạn.

Xác định việc sử dụng Cache

Trong Nhật ký sử dụng (Usage Logs)

Nhật ký sử dụng của bạn hiển thị chi tiết phân bổ token cache:

Trường	Mô tả
`cacheReadTokens`	Các token được cung cấp từ provider cache (được giảm giá)
`cacheWriteTokens`	Các token được ghi vào cache (cho các yêu cầu trong tương lai)
`nonCachedPromptTokens`	Các token được xử lý mà không có cache

Trong Giao dịch (Transactions)

Các giao dịch hiển thị nhãn Provider Cache khi caching upstream được sử dụng:

Cache (xanh da trời): Khớp platform semantic cache - giảm 90%
Provider Cache (xanh mòng két): Khớp upstream prompt cache - mức giá ưu đãi

Ví dụ tính toán chi phí

Ví dụ cho một yêu cầu với 10,000 token đầu vào đến Claude (Anthropic): Không có cache:

10,000 tokens × $3.00/1M = $0.030

Có provider cache (8,000 được cache + 2,000 mới):

Đọc cache:  8,000 tokens × $0.30/1M = $0.0024  (Giảm 90%)
Ghi cache: 2,000 tokens × $3.75/1M = $0.0075
Tổng cộng: $0.0099 (Tiết kiệm 67%)

Thực hành tốt nhất

Sử dụng system prompt nhất quán

Đặt system prompt và ngữ cảnh tĩnh của bạn ở đầu tin nhắn. Điều này giúp tối đa hóa khả năng khớp cache.

Gom nhóm các yêu cầu tương tự

Gửi các yêu cầu có cùng tiền tố gần nhau về mặt thời gian để tận dụng cache trước khi nó hết hạn.

Đáp ứng yêu cầu token tối thiểu

Đảm bảo tiền tố có thể cache của bạn đáp ứng mức tối thiểu của nhà cung cấp (ví dụ: 1024 token cho Anthropic/OpenAI).

Theo dõi các chỉ số cache

Kiểm tra số liệu thống kê sử dụng trên dashboard để biết tỷ lệ khớp cache và mức tiết kiệm.

Platform Cache so với Provider Cache

Khía cạnh	Platform Cache	Provider Cache
Khớp nối	Tương đồng ngữ nghĩa	Khớp tiền tố chính xác
Chi phí	10% giá thường	Mức giá ưu đãi
Độ trễ	Tức thì (~1ms)	Được giảm bớt (bỏ qua xử lý)
Kiểm soát	Cài đặt trên Dashboard	Tự động
Phạm vi	Giữa các người dùng (tùy chọn)	Theo từng API key

Khi nào mỗi loại được áp dụng

Yêu cầu đến
    │
    ▼
┌─────────────────────┐
│ Khớp Platform Cache?│
└─────────────────────┘
    │ Có               │ Không
    ▼                  ▼
┌─────────┐    ┌─────────────────────┐
│ Trả về  │    │ Gọi Upstream API    │
│ Cache   │    └─────────────────────┘
│ (10%)   │            │
└─────────┘            ▼
               ┌─────────────────────┐
               │ Khớp Provider Cache?│
               └─────────────────────┘
                   │ Có         │ Không
                   ▼            ▼
               Giá Token     Giá Token
               ưu đãi        đầy đủ

Kiểm tra trạng thái Cache

Response Headers

X-Cache-Status: HIT           # Khớp platform cache
X-Cache-Status: MISS          # Không có platform cache
X-Upstream-Cache-Read: 8000   # Token đọc từ provider cache
X-Upstream-Cache-Write: 2000  # Token ghi vào provider cache

Usage API

Truy vấn nhật ký sử dụng của bạn để xem phân bổ cache:

GET /v1/usage/logs is currently not a public endpoint.
Use X-Cache-Status and X-Upstream-Cache-* response headers, plus the dashboard usage page.

Phản hồi bao gồm:

{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

FAQ

Tôi có thể tắt provider caching không?

Provider caching là tự động và không thể tắt. Tuy nhiên, nó chỉ mang lại lợi ích cho bạn (chi phí thấp hơn), vì vậy không có lý do gì để tắt nó.

Tại sao yêu cầu của tôi không khớp provider cache?

Các lý do phổ biến:

Tiền tố đã thay đổi (thậm chí chỉ khác biệt một token)
Cache đã hết hạn (thường từ 5-60 phút)
Tiền tố quá ngắn (dưới mức token tối thiểu)
Sử dụng API key khác

BYOK có hỗ trợ provider caching không?

Có! Khi sử dụng API key của riêng bạn (BYOK), provider caching hoạt động theo cùng một cách. Cache được gắn liền với API key upstream của bạn.

Làm thế nào để tối đa hóa mức tiết kiệm từ cache?

Sử dụng platform semantic cache cho các truy vấn tương tự lặp lại
Cấu trúc prompt với nội dung tĩnh ở trước
Giữ system prompt nhất quán giữa các yêu cầu
Gửi các yêu cầu liên quan liên tiếp nhau một cách nhanh chóng

Bắt đầu

Hướng dẫn cốt lõi

Coding Agents

✨ Upstream Prompt Cache

Tổng quan

Cách Provider Prompt Cache hoạt động

Các đặc điểm chính

Các nhà cung cấp được hỗ trợ

Xác định việc sử dụng Cache

Trong Nhật ký sử dụng (Usage Logs)

Trong Giao dịch (Transactions)

Ví dụ tính toán chi phí

Thực hành tốt nhất

Platform Cache so với Provider Cache

Khi nào mỗi loại được áp dụng

Kiểm tra trạng thái Cache

Response Headers

Usage API

FAQ

Bắt đầu

Hướng dẫn cốt lõi

Coding Agents

​Tổng quan

​Cách Provider Prompt Cache hoạt động

​Các đặc điểm chính

​Các nhà cung cấp được hỗ trợ

​Xác định việc sử dụng Cache

​Trong Nhật ký sử dụng (Usage Logs)

​Trong Giao dịch (Transactions)

​Ví dụ tính toán chi phí

​Thực hành tốt nhất

​Platform Cache so với Provider Cache

​Khi nào mỗi loại được áp dụng

​Kiểm tra trạng thái Cache

​Response Headers

​Usage API

​FAQ

Tổng quan

Cách Provider Prompt Cache hoạt động

Các đặc điểm chính

Các nhà cung cấp được hỗ trợ

Xác định việc sử dụng Cache

Trong Nhật ký sử dụng (Usage Logs)

Trong Giao dịch (Transactions)

Ví dụ tính toán chi phí

Thực hành tốt nhất

Platform Cache so với Provider Cache

Khi nào mỗi loại được áp dụng

Kiểm tra trạng thái Cache

Response Headers

Usage API

FAQ