/v1/chat/completions 端点接收一组消息并返回模型的回复。OpenOpen8 完全实现了 OpenAI Chat Completions 格式,你只需修改 base URL 和 API key,就能将任何现有的 OpenAI SDK 或客户端指向 OpenOpen8,无需其他代码改动。
端点
认证
在Authorization 头中传入你的 OpenOpen8 token:
请求参数
用于生成补全的模型标识符。OpenOpen8 会将请求路由到该模型对应的上游渠道。对于 OpenAI o 系列推理模型,可使用后缀变体控制推理强度:
o3-mini-high、o3-mini-medium 或 o3-mini-low,分别对应 reasoning_effort 的 high、medium 和 low。按顺序排列的消息数组,表示对话历史。每条消息必须包含
role 和 content。设为
true 时,响应以 SSE(服务端推送事件)流式返回。每个事件包含一个 ChatCompletionChunk 部分对象。流以 data: [DONE] 结束。仅在
stream 为 true 时生效的选项。采样温度,范围
0 到 2。值越高输出越随机,值越低输出越确定。与 top_p 互斥——只用其中一个。核采样概率质量。模型只考虑累积概率达到
top_p 的 token。取值 0 到 1。与 temperature 互斥。模型可生成的最大 token 数量。未指定时使用模型默认限制。较新的 OpenAI 模型请用
max_completion_tokens。补全中可生成的最大 token 数量,包含推理 token。同时提供时优先于
max_tokens。控制模型在回复前的推理程度。可选值:
low、medium、high。适用于 OpenAI 推理模型(o 系列)。也可直接在模型名中编码推理强度:o3-mini-high、o3-mini-medium、o3-mini-low。一个或多个停止序列。模型遇到这些序列时停止生成,输出中不包含停止序列本身。
为每条消息生成多少个补全选项。
取值
-2.0 到 2.0。正值会惩罚在已有文本中频繁出现的 token,减少重复。取值
-2.0 到 2.0。正值会惩罚在已有文本中出现过的 token,增加话题多样性。设置后模型尝试产生确定性输出。不保证跨模型版本的可重复性。
是否返回输出 token 的对数概率。
在每个 token 位置返回最可能的 token 数量及其对数概率。需要
logprobs 为 true。取值 0 到 20。模型可调用的工具列表。每个工具定义一个模型可调用的函数。
控制模型如何选择工具。传
"none" 禁用 tool calling,"auto" 由模型决定,"required" 强制调用工具,或传对象 {"type": "function", "function": {"name": "..."}} 强制调用指定函数。是否允许模型在单轮中调用多个工具。
指定输出格式。传
{"type": "json_object"} 启用 JSON 模式。传 {"type": "json_schema", "json_schema": {...}} 强制遵循指定的 JSON Schema。响应字段
此次补全的唯一标识符,格式为
chatcmpl-...。非流式响应始终为
"chat.completion",流式块为 "chat.completion.chunk"。补全创建时间的 Unix 时间戳(秒)。
生成此补全所用的模型标识符。
补全选项数组。大多数请求返回一个选项(
n=1)。此次请求的 token 用量统计。
示例
- 非流式
- 流式
推理模型
使用 OpenAI 推理模型时,将model 设为 o 系列标识符。可通过 reasoning_effort 参数或直接在模型名中编码来控制推理强度:
-thinking 后缀模型名——例如 claude-3-7-sonnet-20250219-thinking。Gemini 思考模式在模型名后追加 -thinking,或使用 -low、-medium、-high 控制推理强度。