Corps de la requête
Fichier audio à transcrire. Formats pris en charge : flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
Modèle à utiliser. Actuellement, seul whisper-1 est pris en charge.
Langue de l’audio au format ISO-639-1 (par ex., en, zh, ja).
Texte facultatif pour guider le style du modèle ou continuer un segment précédent.
Format de sortie : json, text, srt, verbose_json, vtt.
Température d’échantillonnage (0 à 1).
Granularité de l’horodatage : word et/ou segment. Nécessite verbose_json.
Réponse
Pour verbose_json :
Durée de l’audio en secondes.
Segments de transcription avec horodatages.
Horodatages au niveau des mots (si demandés).
curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
-H "Authorization: Bearer sk-your-api-key" \
-F file="@audio.mp3" \
-F model="whisper-1" \
-F language="en"
{
"text": "Hello, this is a test of the transcription API."
}
Traduction
Pour traduire de l’audio vers l’anglais, utilisez l’endpoint de traduction :
response = client.audio.translations.create(
model="whisper-1",
file=audio_file
)