Request Body
Arquivo de áudio para transcrever. Formatos suportados: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
Modelo a ser usado. Atualmente, apenas whisper-1 é suportado.
Idioma do áudio no formato ISO-639-1 (ex: en, zh, ja).
Texto opcional para guiar o estilo do modelo ou continuar um segmento anterior.
Formato de saída: json, text, srt, verbose_json, vtt.
Temperatura de amostragem (0 a 1).
Granularidade do timestamp: word e/ou segment. Requer verbose_json.
Response
Para verbose_json:
Duração do áudio em segundos.
Segmentos de transcrição com timestamps.
Timestamps em nível de palavra (se solicitado).
curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
-H "Authorization: Bearer sk-your-api-key" \
-F file="@audio.mp3" \
-F model="whisper-1" \
-F language="en"
{
"text": "Hello, this is a test of the transcription API."
}
Tradução
Para traduzir áudio para o inglês, use o endpoint de traduções:
response = client.audio.translations.create(
model="whisper-1",
file=audio_file
)