POST /v1/audio/transcriptions
将音频文件转录为原始语言的文字。兼容 OpenAI Whisper。请求体
此端点使用multipart/form-data 编码。
转录模型,例如
whisper-1。可用值取决于你配置的渠道。要转录的音频文件。支持格式:
mp3、mp4、mpeg、mpga、m4a、ogg、wav 和 webm。最大 25 MB。音频语言的 ISO-639-1 代码(如
en、zh、fr)。提供此提示可提高准确率和速度。省略时模型自动检测。转录输出格式。可选
json、text、srt、verbose_json 或 vtt。默认 json。可选指引文本,用于引导模型的转录风格或词汇。
响应
response_format: json 时返回:
转录的文本。
response_format: verbose_json 时额外返回:
始终为
"transcribe"。检测到或指定的语言。
音频时长(秒)。
按时间对齐的转录片段。
示例
curl
POST /v1/audio/translations
将音频文件转录并翻译为英文,不限源语言。请求体
此端点使用multipart/form-data 编码。
翻译模型,例如
whisper-1。要翻译的音频文件。格式限制同
/v1/audio/transcriptions。输出格式:
json、text、srt、verbose_json 或 vtt。默认 json。可选指引文本,用于引导模型的翻译风格。
响应
翻译后的英文文本。
示例
curl
POST /v1/audio/speech
从文本生成语音(文字转语音)。请求体
TTS 模型,例如
tts-1 或 tts-1-hd。tts-1-hd 音质更高但成本更高。要转换为语音的文本。最大 4,096 个字符。
合成使用的语音。OpenAI TTS 支持
alloy、echo、fable、onyx、nova 和 shimmer。可用语音取决于你配置的服务商。音频输出格式。可选
mp3、opus、aac 或 flac。默认 mp3。生成音频的播放速度。取值
0.25 到 4.0。默认 1.0。可选文本指令,控制语音的风格、语气或节奏。
响应
响应体为指定response_format 的原始音频二进制数据。将 HTTP 客户端设置为直接将响应保存到文件。