전사 생성

curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"

{
  "text": "Hello, this is a test of the transcription API."
}

요청 본문

file

필수

전사할 오디오 파일입니다. 지원 형식: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.

model

string

기본값:"whisper-1"

사용할 모델입니다. 현재는 whisper-1만 지원됩니다.

language

string

ISO-639-1 형식의 오디오 언어입니다(예: en, zh, ja).

prompt

string

모델의 스타일을 유도하거나 이전 세그먼트를 이어가기 위한 선택적 텍스트입니다.

response_format

string

기본값:"json"

출력 형식: json, text, srt, verbose_json, vtt.

temperature

number

기본값:"0"

샘플링 temperature(0~1).

timestamp_granularities

array

타임스탬프 세분성: word 및/또는 segment. verbose_json이 필요합니다.

응답

text

string

전사된 텍스트입니다.

verbose_json의 경우:

task

string

항상 transcribe입니다.

language

string

감지된 언어입니다.

duration

number

초 단위 오디오 길이입니다.

segments

array

타임스탬프가 포함된 전사 세그먼트입니다.

words

array

단어 수준 타임스탬프입니다(요청한 경우).

curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"

{
  "text": "Hello, this is a test of the transcription API."
}

번역

오디오를 영어로 번역하려면 translations 엔드포인트를 사용하세요:

response = client.audio.translations.create(
    model="whisper-1",
    file=audio_file
)

음성 생성 번역 생성

핵심

텍스트

파일 및 배치

이미지 및 미디어

비동기 작업

Gemini 네이티브

관리

요청 본문

응답

번역

핵심

텍스트

파일 및 배치

이미지 및 미디어

비동기 작업

Gemini 네이티브

관리

​요청 본문

​응답

​번역

요청 본문

응답

번역