Corpo da Requisição
Arquivo de áudio para transcrever. Formatos suportados: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
Modelo a ser usado. Atualmente, apenas
whisper-1 é suportado.Idioma do áudio no formato ISO-639-1 (por exemplo,
en, zh, ja).Texto opcional para orientar o estilo do modelo ou continuar um segmento anterior.
Formato de saída:
json, text, srt, verbose_json, vtt.Temperatura de amostragem (0 a 1).
Granularidade de timestamp:
word e/ou segment. Requer verbose_json.Resposta
O texto transcrito.
verbose_json:
Sempre
transcribe.Idioma detectado.
Duração do áudio em segundos.
Segmentos da transcrição com timestamps.
Timestamps em nível de palavra (se solicitado).