الانتقال إلى المحتوى الرئيسي

جسم الطلب

file
file
مطلوب
ملف الصوت المراد تفريغه. التنسيقات المدعومة: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
model
string
افتراضي:"whisper-1"
النموذج المراد استخدامه. حاليًا لا يتم دعم سوى whisper-1.
language
string
لغة الصوت بتنسيق ISO-639-1 (على سبيل المثال: en, zh, ja).
prompt
string
نص اختياري لتوجيه أسلوب النموذج أو متابعة مقطع سابق.
response_format
string
افتراضي:"json"
تنسيق الإخراج: json, text, srt, verbose_json, vtt.
temperature
number
افتراضي:"0"
درجة حرارة أخذ العينات (من 0 إلى 1).
timestamp_granularities
array
دقة الطابع الزمني: word و/أو segment. يتطلب verbose_json.

الاستجابة

text
string
النص المُفرَّغ.
بالنسبة إلى verbose_json:
task
string
تكون دائمًا transcribe.
language
string
اللغة المكتشفة.
duration
number
مدة الصوت بالثواني.
segments
array
مقاطع التفريغ مع الطوابع الزمنية.
words
array
طوابع زمنية على مستوى الكلمات (إذا تم طلبها).
curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"
{
  "text": "Hello, this is a test of the transcription API."
}

الترجمة

لترجمة الصوت إلى الإنجليزية، استخدم endpoint الخاص بالترجمات:
response = client.audio.translations.create(
    model="whisper-1",
    file=audio_file
)