✨ 업스트림 프롬프트 캐시

개요

LemonData의 플랫폼 시맨틱 캐시 외에도, 많은 AI 제공자들은 자체적인 프롬프트 캐싱 기능을 제공합니다. 이는 제공자 수준(Anthropic, OpenAI, DeepSeek 등)에서 작동하는 별도의 캐싱 메커니즘입니다.

두 가지 유형의 캐싱

유형	위치	작동 방식	비용
플랫폼 캐시	LemonData	시맨틱 유사성 매칭	정상 가격의 10%
제공자 캐시	업스트림 (Anthropic/OpenAI 등)	정확한 접두사(prefix) 매칭	할인된 토큰 요금

이들은 상호 배타적입니다. 플랫폼 캐시가 히트(hit)되면 업스트림 호출이 발생하지 않으므로 제공자 캐시는 적용되지 않습니다.

제공자 프롬프트 캐시 작동 방식

제공자 프롬프트 캐싱은 프롬프트 접두사의 처리된 표현을 제공자의 서버에 저장합니다. 동일한 접두사를 포함한 요청을 보내면, 제공자는 해당 토큰들을 다시 처리하는 과정을 생략할 수 있습니다.

주요 특징

접두사(Prefix) 기반: 프롬프트의 시작 부분만 캐싱 가능
정확한 일치: 시맨틱 유사성이 아닌 동일한 토큰 필요
시간 제한: 캐시 항목은 만료됨 (일반적으로 5~60분)
자동: 별도의 설정 필요 없음

Request 1: [System prompt + Context A + Question 1]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           이 접두사가 캐싱됩니다.

Request 2: [System prompt + Context A + Question 2]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           캐시 히트! Question 2만 처리됩니다.

지원되는 제공자

제공자	캐시 읽기 할인	캐시 쓰기 비용	최소 토큰
Anthropic	90% 할인	25% 프리미엄	1024
OpenAI	50% 할인	입력 비용과 동일	1024
DeepSeek	90% 할인	입력 비용과 동일	64
Google	75% 할인	25% 프리미엄	32768

할인은 자동으로 적용됩니다. LemonData는 제공자의 캐시 가격 정책을 그대로 사용자에게 전달합니다.

캐시 사용량 확인

사용 로그에서

사용 로그에서 상세한 캐시 토큰 내역을 확인할 수 있습니다:

필드	설명
`cacheReadTokens`	제공자 캐시에서 제공된 토큰 (할인 적용)
`cacheWriteTokens`	캐시에 기록된 토큰 (향후 요청용)
`nonCachedPromptTokens`	캐시 없이 처리된 토큰

트랜잭션에서

업스트림 캐싱이 사용된 경우 트랜잭션에 제공자 Cache 라벨이 표시됩니다:

Cache (하늘색): 플랫폼 시맨틱 캐시 히트 - 90% 할인
제공자 Cache (청록색): 업스트림 프롬프트 캐시 히트 - 할인 요금 적용

비용 계산 예시

Claude (Anthropic)에 10,000개의 입력 토큰을 보내는 요청의 경우: 캐시 미사용 시:

10,000 tokens × $3.00/1M = $0.030

제공자 캐시 사용 시 (8,000개 캐시됨 + 2,000개 신규):

Cache read:  8,000 tokens × $0.30/1M = $0.0024  (90% 할인)
Cache write: 2,000 tokens × $3.75/1M = $0.0075
Total: $0.0099 (67% 절감)

권장 사항

일관된 시스템 프롬프트 사용

시스템 프롬프트와 정적 컨텍스트를 메시지의 시작 부분에 배치하세요. 이는 캐시 히트 가능성을 극대화합니다.

유사한 요청 일괄 처리

캐시가 만료되기 전에 혜택을 볼 수 있도록 동일한 접두사를 가진 요청들을 짧은 시간 간격 내에 보내세요.

최소 토큰 요구 사항 충족

캐싱 가능한 접두사가 제공자의 최소 기준(예: Anthropic/OpenAI의 경우 1024 토큰)을 충족하는지 확인하세요.

캐시 지표 모니터링

대시보드 사용 통계에서 캐시 히트율과 절감액을 확인하세요.

플랫폼 캐시 vs 제공자 캐시

항목	플랫폼 캐시	제공자 캐시
매칭 방식	시맨틱 유사성	정확한 접두사 일치
비용	정상 가격의 10%	할인된 요금
지연 시간	즉각적 (~1ms)	감소됨 (처리 과정 생략)
제어	대시보드 설정	자동
범위	사용자 간 공유 (선택 사항)	API 키별

적용 순서

요청 도착
    │
    ▼
┌─────────────────────┐
│ 플랫폼 캐시 히트?   │
└─────────────────────┘
    │ 예               │ 아니오
    ▼                  ▼
┌─────────┐    ┌─────────────────────┐
│ 캐시된   │    │ 업스트림 API 호출   │
│ 결과 반환│    └─────────────────────┘
│ (10%)   │            │
└─────────┘            ▼
               ┌─────────────────────┐
               │ 제공자 캐시 히트?   │
               └─────────────────────┘
                   │ 예         │ 아니오
                   ▼            ▼
               할인된        전체
               토큰 요금     토큰 요금

캐시 상태 확인

응답 헤더

X-Cache-Status: HIT           # 플랫폼 캐시 히트
X-Cache-Status: MISS          # 플랫폼 캐시 미적용
X-Upstream-Cache-Read: 8000   # 제공자 캐시 읽기 토큰
X-Upstream-Cache-Write: 2000  # 제공자 캐시 쓰기 토큰

사용량 API

사용 로그를 쿼리하여 캐시 내역을 확인할 수 있습니다:

GET /v1/usage/logs is currently not a public endpoint.
Use X-Cache-Status and X-Upstream-Cache-* response headers, plus the dashboard usage page.

응답 예시:

{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

자주 묻는 질문 (FAQ)

제공자 캐싱을 비활성화할 수 있나요?

제공자 캐싱은 자동으로 이루어지며 비활성화할 수 없습니다. 하지만 이는 비용 절감이라는 혜택만 제공하므로 비활성화할 이유가 없습니다.

왜 제 요청이 제공자 캐시에 히트되지 않았나요?

일반적인 원인은 다음과 같습니다:

접두사가 변경됨 (단 하나의 토큰 차이도 허용 안 됨)
캐시 만료 (일반적으로 5~60분)
접두사가 너무 짧음 (최소 토큰 미달)
다른 API 키 사용

BYOK도 제공자 캐싱을 지원하나요?

네! 본인의 API 키(BYOK)를 사용할 때도 제공자 캐싱은 동일하게 작동합니다. 캐시는 업스트림 API 키에 귀속됩니다.

캐시 절감 효과를 어떻게 극대화하나요?

반복되는 유사한 쿼리에는 플랫폼 시맨틱 캐시를 사용하세요.
프롬프트 구조를 설계할 때 정적 컨텍스트를 앞에 배치하세요.
여러 요청에서 시스템 프롬프트를 일관되게 유지하세요.
관련된 요청들을 빠른 간격으로 보내세요.

시작하기

핵심 가이드

코딩 에이전트

✨ 업스트림 프롬프트 캐시

개요

제공자 프롬프트 캐시 작동 방식

주요 특징

지원되는 제공자

캐시 사용량 확인

사용 로그에서

트랜잭션에서

비용 계산 예시

권장 사항

플랫폼 캐시 vs 제공자 캐시

적용 순서

캐시 상태 확인

응답 헤더

사용량 API

자주 묻는 질문 (FAQ)

시작하기

핵심 가이드

코딩 에이전트

​개요

​제공자 프롬프트 캐시 작동 방식

​주요 특징

​지원되는 제공자

​캐시 사용량 확인

​사용 로그에서

​트랜잭션에서

​비용 계산 예시

​권장 사항

​플랫폼 캐시 vs 제공자 캐시

​적용 순서

​캐시 상태 확인

​응답 헤더

​사용량 API

​자주 묻는 질문 (FAQ)

개요

제공자 프롬프트 캐시 작동 방식

주요 특징

지원되는 제공자

캐시 사용량 확인

사용 로그에서

트랜잭션에서

비용 계산 예시

권장 사항

플랫폼 캐시 vs 제공자 캐시

적용 순서

캐시 상태 확인

응답 헤더

사용량 API

자주 묻는 질문 (FAQ)