跳转到主要内容
OpenOpen8 提供三个兼容 OpenAI Audio API 的音频端点:语音转文字、音频翻译(任意语言转英文)和文字转语音。请求会自动路由到最佳可用的音频模型。

POST /v1/audio/transcriptions

将音频文件转录为原始语言的文字。兼容 OpenAI Whisper。

请求体

此端点使用 multipart/form-data 编码。
model
string
必填
转录模型,例如 whisper-1。可用值取决于你配置的渠道。
file
file
必填
要转录的音频文件。支持格式:mp3mp4mpegmpgam4aoggwavwebm。最大 25 MB。
language
string
音频语言的 ISO-639-1 代码(如 enzhfr)。提供此提示可提高准确率和速度。省略时模型自动检测。
response_format
string
转录输出格式。可选 jsontextsrtverbose_jsonvtt。默认 json
instructions
string
可选指引文本,用于引导模型的转录风格或词汇。

响应

response_format: json 时返回:
text
string
转录的文本。
response_format: verbose_json 时额外返回:
task
string
始终为 "transcribe"
language
string
检测到或指定的语言。
duration
number
音频时长(秒)。
segments
object[]
按时间对齐的转录片段。

示例

curl
curl https://openopen8.ai/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_TOKEN" \
  -F model="whisper-1" \
  -F file="@recording.mp3" \
  -F language="en" \
  -F response_format="json"

POST /v1/audio/translations

将音频文件转录并翻译为英文,不限源语言。

请求体

此端点使用 multipart/form-data 编码。
model
string
必填
翻译模型,例如 whisper-1
file
file
必填
要翻译的音频文件。格式限制同 /v1/audio/transcriptions
response_format
string
输出格式:jsontextsrtverbose_jsonvtt。默认 json
instructions
string
可选指引文本,用于引导模型的翻译风格。

响应

text
string
翻译后的英文文本。

示例

curl
curl https://openopen8.ai/v1/audio/translations \
  -H "Authorization: Bearer YOUR_TOKEN" \
  -F model="whisper-1" \
  -F file="@french-audio.mp3" \
  -F response_format="json"

POST /v1/audio/speech

从文本生成语音(文字转语音)。

请求体

model
string
必填
TTS 模型,例如 tts-1tts-1-hdtts-1-hd 音质更高但成本更高。
input
string
必填
要转换为语音的文本。最大 4,096 个字符。
voice
string
必填
合成使用的语音。OpenAI TTS 支持 alloyechofableonyxnovashimmer。可用语音取决于你配置的服务商。
response_format
string
音频输出格式。可选 mp3opusaacflac。默认 mp3
speed
number
生成音频的播放速度。取值 0.254.0。默认 1.0
instructions
string
可选文本指令,控制语音的风格、语气或节奏。

响应

响应体为指定 response_format 的原始音频二进制数据。将 HTTP 客户端设置为直接将响应保存到文件。

示例

curl https://openopen8.ai/v1/audio/speech \
  -H "Authorization: Bearer YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to OpenOpen8, your unified AI gateway.",
    "voice": "nova",
    "response_format": "mp3"
  }' \
  --output speech.mp3