Tổng quan
LemonData cung cấp một hệ thống caching thông minh có thể giảm đáng kể chi phí API và độ trễ phản hồi của bạn. Hệ thống caching của chúng tôi vượt xa việc khớp yêu cầu đơn thuần - nó hiểu được ý nghĩa ngữ nghĩa trong các prompt của bạn.Tiết kiệm chi phí
Các lượt cache hit được tính phí chỉ bằng một phần nhỏ so với chi phí thông thường.
Phản hồi nhanh hơn
Các phản hồi đã lưu trong cache được trả về ngay lập tức, không cần suy luận mô hình.
Nhận diện ngữ cảnh
Khớp ngữ nghĩa tìm thấy các yêu cầu tương tự ngay cả khi cách diễn đạt khác nhau.
Kiểm soát quyền riêng tư
Toàn quyền kiểm soát những gì được lưu vào cache và chia sẻ.
Cách thức hoạt động
LemonData sử dụng hệ thống caching hai lớp:Lớp 1: Response Cache (Khớp chính xác)
Đối với các yêu cầu mang tính xác định (temperature=0), chúng tôi lưu trữ phản hồi chính xác:
- Khớp: Model, messages và các tham số giống hệt nhau
- Tốc độ: Tức thì (micro giây)
- Tốt nhất cho: Các truy vấn lặp lại giống hệt nhau
Lớp 2: Semantic Cache (Khớp tương đồng)
Đối với tất cả các yêu cầu, chúng tôi cũng kiểm tra sự tương đồng về ngữ nghĩa bằng thuật toán khớp hai giai đoạn:- Giai đoạn 1 (Chỉ truy vấn): Độ tương đồng ≥95% trên truy vấn của người dùng
- Giai đoạn 2 (Toàn bộ ngữ cảnh): Độ tương đồng ≥85% bao gồm cả ngữ cảnh hội thoại
- Tốt nhất cho: Các truy vấn kiểu FAQ, các câu hỏi phổ biến
Cache Headers
Request Headers
Kiểm soát hành vi caching trên mỗi yêu cầu:| Header | Giá trị | Hiệu quả |
|---|---|---|
Cache-Control: no-cache | - | Bỏ qua cache, lấy phản hồi mới |
Cache-Control: no-store | - | Không lưu phản hồi này vào cache |
Response Headers
Mỗi phản hồi đều bao gồm trạng thái cache:Kiểm tra trạng thái Cache
Thanh toán Cache
Các lượt cache hit rẻ hơn đáng kể so với các yêu cầu mới:| Loại | Chi phí |
|---|---|
| Cache HIT | Giảm 80% |
| Cache MISS | Giá gốc |
Kiểm soát quyền riêng tư
Cấp độ API Key
Cấu hình hành vi caching cho từng API key trong dashboard của bạn:| Chế độ | Mô tả |
|---|---|
| Default | Đã bật cache, có thể chia sẻ với các yêu cầu tương tự |
| No Share | Đã bật cache, nhưng các phản hồi là riêng tư đối với tài khoản của bạn |
| Disabled | Hoàn toàn không sử dụng cache |
Cấp độ yêu cầu
Ghi đè trên mỗi yêu cầu:Phản hồi Cache
Nếu bạn nhận được phản hồi từ cache không chính xác, bạn có thể báo cáo nó:wrong_answer- Sai lệch về sự thậtoutdated- Thông tin đã cũirrelevant- Không khớp với câu hỏiother- Các vấn đề khác
Thực hành tốt nhất
Sử dụng temperature=0 cho các truy vấn có thể lưu cache
Sử dụng temperature=0 cho các truy vấn có thể lưu cache
Các thiết lập mang tính xác định giúp tối đa hóa tỷ lệ cache hit.
Chuẩn hóa định dạng prompt
Chuẩn hóa định dạng prompt
Định dạng nhất quán giúp cải thiện việc khớp ngữ nghĩa.
Sử dụng no-cache cho các truy vấn nhạy cảm với thời gian
Sử dụng no-cache cho các truy vấn nhạy cảm với thời gian
Các sự kiện hiện tại, dữ liệu thời gian thực nên bỏ qua cache.
Theo dõi tỷ lệ cache hit
Theo dõi tỷ lệ cache hit
Kiểm tra dashboard của bạn để biết số liệu thống kê cache và mức tiết kiệm.
Khi nào KHÔNG nên sử dụng Cache
Tắt caching cho:- Thông tin thời gian thực: Giá cổ phiếu, thời tiết, tin tức
- Nội dung cá nhân hóa: Các đề xuất dành riêng cho người dùng
- Các tác vụ sáng tạo: Khi cần sự đa dạng
- Dữ liệu nhạy cảm: Thông tin bảo mật