音频 API — 语音转文字与文字转语音

OpenOpen8 提供三个兼容 OpenAI Audio API 的音频端点：语音转文字、音频翻译（任意语言转英文）和文字转语音。请求会自动路由到最佳可用的音频模型。

POST /v1/audio/transcriptions

将音频文件转录为原始语言的文字。兼容 OpenAI Whisper。

请求体

此端点使用 multipart/form-data 编码。

model

string

必填

转录模型，例如 whisper-1。可用值取决于你配置的渠道。

file

必填

要转录的音频文件。支持格式：mp3、mp4、mpeg、mpga、m4a、ogg、wav 和 webm。最大 25 MB。

language

string

音频语言的 ISO-639-1 代码（如 en、zh、fr）。提供此提示可提高准确率和速度。省略时模型自动检测。

response_format

string

转录输出格式。可选 json、text、srt、verbose_json 或 vtt。默认 json。

instructions

string

可选指引文本，用于引导模型的转录风格或词汇。

响应

response_format: json 时返回：

text

string

转录的文本。

response_format: verbose_json 时额外返回：

task

string

始终为 "transcribe"。

language

string

检测到或指定的语言。

duration

number

音频时长（秒）。

segments

object[]

按时间对齐的转录片段。

显示片段属性

integer

片段索引。

start

number

开始时间（秒）。

end

number

结束时间（秒）。

text

string

该片段的转录文本。

temperature

number

该片段使用的模型温度。

avg_logprob

number

该片段的平均对数概率。

compression_ratio

number

该片段文本的压缩比。

no_speech_prob

number

该片段不含语音的概率。

示例

curl

curl https://openopen8.ai/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_TOKEN" \
  -F model="whisper-1" \
  -F file="@recording.mp3" \
  -F language="en" \
  -F response_format="json"

POST /v1/audio/translations

将音频文件转录并翻译为英文，不限源语言。

请求体

此端点使用 multipart/form-data 编码。

model

string

必填

翻译模型，例如 whisper-1。

file

必填

要翻译的音频文件。格式限制同 /v1/audio/transcriptions。

response_format

string

输出格式：json、text、srt、verbose_json 或 vtt。默认 json。

instructions

string

可选指引文本，用于引导模型的翻译风格。

响应

text

string

翻译后的英文文本。

示例

curl

curl https://openopen8.ai/v1/audio/translations \
  -H "Authorization: Bearer YOUR_TOKEN" \
  -F model="whisper-1" \
  -F file="@french-audio.mp3" \
  -F response_format="json"

POST /v1/audio/speech

从文本生成语音（文字转语音）。

请求体

model

string

必填

TTS 模型，例如 tts-1 或 tts-1-hd。tts-1-hd 音质更高但成本更高。

input

string

必填

要转换为语音的文本。最大 4,096 个字符。

voice

string

必填

合成使用的语音。OpenAI TTS 支持 alloy、echo、fable、onyx、nova 和 shimmer。可用语音取决于你配置的服务商。

response_format

string

音频输出格式。可选 mp3、opus、aac 或 flac。默认 mp3。

speed

number

生成音频的播放速度。取值 0.25 到 4.0。默认 1.0。

instructions

string

可选文本指令，控制语音的风格、语气或节奏。

响应

响应体为指定 response_format 的原始音频二进制数据。将 HTTP 客户端设置为直接将响应保存到文件。

示例

curl https://openopen8.ai/v1/audio/speech \
  -H "Authorization: Bearer YOUR_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "tts-1",
    "input": "Welcome to OpenOpen8, your unified AI gateway.",
    "voice": "nova",
    "response_format": "mp3"
  }' \
  --output speech.mp3

概览

对话与补全

媒体与多模态

其他端点

音频 API — 语音转文字与文字转语音

POST /v1/audio/transcriptions

请求体

响应

示例

POST /v1/audio/translations

请求体

响应

示例

POST /v1/audio/speech

请求体

响应

示例

概览

对话与补全

媒体与多模态

其他端点

​POST /v1/audio/transcriptions

​请求体

​响应

​示例

​POST /v1/audio/translations

​请求体

​响应

​示例

​POST /v1/audio/speech

​请求体

​响应

​示例

POST /v1/audio/transcriptions

请求体

响应

示例

POST /v1/audio/translations

请求体

响应

示例

POST /v1/audio/speech

请求体

响应

示例