聊天完成
通过统一API使用各种AI模型创建对话式响应。
创建聊天完成
POST https://aiberm.com/v1/chat/completions
1curl https://aiberm.com/v1/chat/completions \2-H "Content-Type: application/json" \3-H "Authorization: Bearer YOUR_API_KEY" \4-d '{5 "model": "gpt-4",6 "messages": [7 {"role": "system", "content": "You are a helpful assistant."},8 {"role": "user", "content": "What is the capital of France?"}9 ],10 "temperature": 0.711}'请求参数
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
model | string | 是 | 要使用的模型ID |
messages | array | 是 | 消息对象数组 |
temperature | number | 否 | 采样温度(0-2)。默认值:1 |
max_tokens | integer | 否 | 生成的最大令牌数 |
top_p | number | 否 | 核采样参数 |
stream | boolean | 否 | 是否流式传输响应 |
消息角色
消息必须包含 role 和 content:
- system - 设置助手的行为/个性
- user - 来自最终用户的消息
- assistant - AI的先前响应
流式响应
启用流式传输以增量接收响应:
1from openai import OpenAI2 3client = OpenAI(4 api_key="YOUR_API_KEY",5 base_url="https://aiberm.com/v1"6)7 8stream = client.chat.completions.create(9 model="gpt-4",10 messages=[{"role": "user", "content": "Tell me a story"}],11 stream=True12)13 14for chunk in stream:15 if chunk.choices[0].delta.content:16 print(chunk.choices[0].delta.content, end="")最佳实践
优化您的请求
- 设置
max_tokens以限制成本 - 使用适当的
temperature值(较低用于事实性,较高用于创造性) - 包含系统消息以指导行为
- 流式传输响应以获得更好的用户体验
注意
注意每个模型的令牌限制。较长的对话可能需要对话历史记录管理。