메인 콘텐츠로 건너뛰기

개요

LemonData의 플랫폼 시맨틱 캐시 외에도, 많은 AI 제공자들은 자체적인 프롬프트 캐싱 기능을 제공합니다. 이는 제공자 수준(Anthropic, OpenAI, DeepSeek 등)에서 작동하는 별도의 캐싱 메커니즘입니다.
두 가지 유형의 캐싱
유형위치작동 방식비용
플랫폼 캐시LemonData시맨틱 유사성 매칭정상 가격의 10%
제공자 캐시업스트림 (Anthropic/OpenAI 등)정확한 접두사(prefix) 매칭할인된 토큰 요금
이들은 상호 배타적입니다. 플랫폼 캐시가 히트(hit)되면 업스트림 호출이 발생하지 않으므로 제공자 캐시는 적용되지 않습니다.

제공자 프롬프트 캐시 작동 방식

제공자 프롬프트 캐싱은 프롬프트 접두사의 처리된 표현을 제공자의 서버에 저장합니다. 동일한 접두사를 포함한 요청을 보내면, 제공자는 해당 토큰들을 다시 처리하는 과정을 생략할 수 있습니다.

주요 특징

  • 접두사(Prefix) 기반: 프롬프트의 시작 부분만 캐싱 가능
  • 정확한 일치: 시맨틱 유사성이 아닌 동일한 토큰 필요
  • 시간 제한: 캐시 항목은 만료됨 (일반적으로 5~60분)
  • 자동: 별도의 설정 필요 없음
Request 1: [System prompt + Context A + Question 1]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           이 접두사가 캐싱됩니다.

Request 2: [System prompt + Context A + Question 2]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           캐시 히트! Question 2만 처리됩니다.

지원되는 제공자

제공자캐시 읽기 할인캐시 쓰기 비용최소 토큰
Anthropic90% 할인25% 프리미엄1024
OpenAI50% 할인입력 비용과 동일1024
DeepSeek90% 할인입력 비용과 동일64
Google75% 할인25% 프리미엄32768
할인은 자동으로 적용됩니다. LemonData는 제공자의 캐시 가격 정책을 그대로 사용자에게 전달합니다.

캐시 사용량 확인

사용 로그에서

사용 로그에서 상세한 캐시 토큰 내역을 확인할 수 있습니다:
필드설명
cacheReadTokens제공자 캐시에서 제공된 토큰 (할인 적용)
cacheWriteTokens캐시에 기록된 토큰 (향후 요청용)
nonCachedPromptTokens캐시 없이 처리된 토큰

트랜잭션에서

업스트림 캐싱이 사용된 경우 트랜잭션에 Provider Cache 라벨이 표시됩니다:
  • Cache (하늘색): 플랫폼 시맨틱 캐시 히트 - 90% 할인
  • Provider Cache (청록색): 업스트림 프롬프트 캐시 히트 - 할인 요금 적용

비용 계산 예시

Claude (Anthropic)에 10,000개의 입력 토큰을 보내는 요청의 경우: 캐시 미사용 시:
10,000 tokens × $3.00/1M = $0.030
제공자 캐시 사용 시 (8,000개 캐시됨 + 2,000개 신규):
Cache read:  8,000 tokens × $0.30/1M = $0.0024  (90% 할인)
Cache write: 2,000 tokens × $3.75/1M = $0.0075
Total: $0.0099 (67% 절감)

권장 사항

시스템 프롬프트와 정적 컨텍스트를 메시지의 시작 부분에 배치하세요. 이는 캐시 히트 가능성을 극대화합니다.
캐시가 만료되기 전에 혜택을 볼 수 있도록 동일한 접두사를 가진 요청들을 짧은 시간 간격 내에 보내세요.
캐싱 가능한 접두사가 제공자의 최소 기준(예: Anthropic/OpenAI의 경우 1024 토큰)을 충족하는지 확인하세요.
대시보드 사용 통계에서 캐시 히트율과 절감액을 확인하세요.

플랫폼 캐시 vs 제공자 캐시

항목플랫폼 캐시제공자 캐시
매칭 방식시맨틱 유사성정확한 접두사 일치
비용정상 가격의 10%할인된 요금
지연 시간즉각적 (~1ms)감소됨 (처리 과정 생략)
제어대시보드 설정자동
범위사용자 간 공유 (선택 사항)API 키별

적용 순서

요청 도착


┌─────────────────────┐
│ 플랫폼 캐시 히트?   │
└─────────────────────┘
    │ 예               │ 아니오
    ▼                  ▼
┌─────────┐    ┌─────────────────────┐
│ 캐시된   │    │ 업스트림 API 호출   │
│ 결과 반환│    └─────────────────────┘
│ (10%)   │            │
└─────────┘            ▼
               ┌─────────────────────┐
               │ 제공자 캐시 히트?   │
               └─────────────────────┘
                   │ 예         │ 아니오
                   ▼            ▼
               할인된        전체
               토큰 요금     토큰 요금

캐시 상태 확인

응답 헤더

X-Cache-Status: HIT           # 플랫폼 캐시 히트
X-Cache-Status: MISS          # 플랫폼 캐시 미적용
X-Upstream-Cache-Read: 8000   # 제공자 캐시 읽기 토큰
X-Upstream-Cache-Write: 2000  # 제공자 캐시 쓰기 토큰

사용량 API

사용 로그를 쿼리하여 캐시 내역을 확인할 수 있습니다:
curl https://api.lemondata.cc/v1/usage/logs \
  -H "Authorization: Bearer sk-your-key" \
  -H "Content-Type: application/json"
응답 예시:
{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

자주 묻는 질문 (FAQ)

제공자 캐싱은 자동으로 이루어지며 비활성화할 수 없습니다. 하지만 이는 비용 절감이라는 혜택만 제공하므로 비활성화할 이유가 없습니다.
일반적인 원인은 다음과 같습니다:
  • 접두사가 변경됨 (단 하나의 토큰 차이도 허용 안 됨)
  • 캐시 만료 (일반적으로 5~60분)
  • 접두사가 너무 짧음 (최소 토큰 미달)
  • 다른 API 키 사용
네! 본인의 API 키(BYOK)를 사용할 때도 제공자 캐싱은 동일하게 작동합니다. 캐시는 업스트림 API 키에 귀속됩니다.
  1. 반복되는 유사한 쿼리에는 플랫폼 시맨틱 캐시를 사용하세요.
  2. 프롬프트 구조를 설계할 때 정적 컨텍스트를 앞에 배치하세요.
  3. 여러 요청에서 시스템 프롬프트를 일관되게 유지하세요.
  4. 관련된 요청들을 빠른 간격으로 보내세요.