文档 · API 参考
v1.4 · 2026-04 所有系统正常

AIComing API

一个 API Key,调用 200+ 主流大模型。完全兼容 OpenAI SDK,支持流式、函数调用、视觉、Embeddings、Rerank 与图像生成。把 base_url 换成 https://aicoming.top/v1,即可零成本切换。图片/视频生成模型请使用 https://api.aicoming.top/v1(无超时限制)。

当前版本 v1 最近更新 2026-04-22 ● 全节点正常 P50 延迟 312 ms
1

注册账号,领 ¥10 体验金

邮箱 / 手机号即可注册,完成实名后立即到账。

2

在控制台创建 API Key

支持按密钥设置预算上限、IP 白名单与可调模型。

3

替换 base_url 即可调用

OpenAI SDK / LangChain / 自研客户端 0 改造接入。

合规与隐私请求与响应不会被用于训练,仅在出现错误时缓存 7 天用于排障。境内调用通过国内备案节点,国际模型通过香港中转。数据处理协议 →

快速开始

下面这段代码展示了调用 GPT-4o 生成一段中文摘要的最小示例。把 $AICOMING_API_KEY 替换为你在控制台获取到的 key 即可立即运行。

curl https://aicoming.top/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AICOMING_API_KEY" \
  -d '{
    "model": "gpt-4o",
    "messages": [
      {"role": "system", "content": "你是一名简洁的中文助手。"},
      {"role": "user", "content": "用一句话介绍 AIComing。"}
    ],
    "temperature": 0.7
  }'

预期返回如下结构(已截断):

{
  "id": "chatcmpl-9eR2…",
  "object": "chat.completion",
  "created": 1745890123,
  "model": "gpt-4o-2024-11-20",
  "choices": [{
    "index": 0,
    "message": { "role": "assistant", "content": "AIComing 是一个统一接入 200+ 大模型的 AI 中转平台。" },
    "finish_reason": "stop"
  }],
  "usage": { "prompt_tokens": 38, "completion_tokens": 22, "total_tokens": 60 }
}

鉴权与密钥

AIComing 使用 Bearer Token 鉴权。在每个请求的 Authorization 头中携带你的 API Key:

Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Content-Type: application/json

密钥规范

  • 密钥前缀固定为 sk-,紧跟随机字符串。
  • 每个账户最多创建 20 个 Key,可分别绑定到生产 / 测试环境。
  • 支持 IP 白名单每日预算上限可调模型范围 三类细粒度策略。
  • 泄漏后请立刻在 控制台 · 密钥 撤销并轮换。
不要把 API Key 写进前端代码或公开仓库建议通过环境变量、Vault、KMS 等方式注入;可使用控制台「密钥扫描」自动检测公开仓库泄漏。

OpenAI 兼容性

AIComing 的核心 API 与 OpenAI 官方完全同构。你只需修改 base_url,即可让现有项目调用 Anthropic Claude、Google Gemini、智谱 GLM、DeepSeek、阿里通义、月之暗面 Kimi 等所有模型。

能力状态说明
/chat/completions完全兼容messages、tools、tool_choice、response_format、seed、logprobs、stream 全部支持。
/embeddings完全兼容支持 OpenAI、BGE、Jina、智谱 4 类向量模型。
/images/generationsBeta兼容 DALL·E 3、SDXL、可灵、即梦。qualitysize 字段语义对齐 OpenAI。
/audio/speechBeta支持 OpenAI tts-1 与火山引擎 TTS。
/audio/transcriptions完全兼容Whisper-1 / Whisper-large-v3。
/files · /batches新增批量推理 50% 折扣,24h 内完成。
/assistants不支持请使用我们的 Agents Runtime(独立产品)。

模型列表

调用 GET /models 可获取你账户当前可调用的全部模型。下表节选若干常用模型;完整列表与定价见 模型市场

GET /v1/models 返回当前账户可调用模型列表(按可用性排序)
gpt-4oOpenAI¥0.018 / 1k in
128k 上下文,原生多模态,function calling 与 JSON 模式稳定。
visiontoolsstream
claude-sonnet-4Anthropic¥0.024 / 1k in
长文本与代码任务领先,200k 上下文,支持 Artifacts。
visiontools200k
gemini-2.5-proGoogle¥0.014 / 1k in
1M 上下文,原生视频理解,适合超长文档与代码库。
vision1Mvideo
deepseek-v3DeepSeek¥0.001 / 1k in
极致性价比,中文与代码均衡;夜间 8 折。
streamtoolscache
qwen3-max阿里云¥0.012 / 1k in
中文场景表现最好,支持多模态与函数调用。
visiontools
moonshot-v1-128k月之暗面¥0.060 / 1k in
128k 中文长文专用,文档问答首选。
128kstream

Chat Completions

核心对话接口,所有文本类模型统一使用此端点。请求格式与 OpenAI 100% 一致,并扩展了 providercachefallback 三个字段。

POST /v1/chat/completions 幂等键 X-Idempotency-Key · 默认超时 600s

请求参数

参数类型说明
model必填 string

模型 ID,如 gpt-4o · claude-sonnet-4

可使用 auto 让平台按提示词与价格策略路由。

messages必填 array

消息数组,每条 {role, content}role 取值 system / user / assistant / tool

temperature number

0 – 2 之间,默认 1。值越大输出越发散。

max_tokens integer

本次响应最多生成的 token 数。不传时由模型自适应。

stream boolean

是否使用 SSE 流式返回。详见 流式输出

tools array

函数调用工具数组,结构与 OpenAI 一致。

response_format object

结构化输出。{ "type": "json_object" }{ "type": "json_schema", "schema": {…} }

fallback array<string>

AIComing 扩展 · 主模型异常时按顺序回退。例如 ["claude-sonnet-4", "deepseek-v3"]

cache object

AIComing 扩展 · 开启请求级 KV 缓存,命中则按 10% 计费。{ "ttl": 3600, "key": "..." }

user string

终端用户标识,用于风控与配额隔离。

在线试用

下方调用真实代理(不消耗你账户的额度)。修改参数后点击「运行」查看流式响应。

请求构造器 · POST /v1/chat/completions
响应 · application/event-stream
点击「运行」查看流式输出…
就绪

响应字段

idstring请求唯一 ID,可在控制台调用日志中检索。
choices[].message.contentstring模型文本输出。
choices[].finish_reasonstringstop · length · tool_calls · content_filter
usageobjectprompt_tokens + completion_tokens + total_tokens
x_aicoming.cache_hitboolean本次请求是否命中缓存。
x_aicoming.upstreamstring实际命中的上游路由,如 openai-azure-east

流式输出

设置 stream: true 即返回 Server-Sent Events。每个事件以 data: 开头,data: [DONE] 表示流结束。

data: {"id":"chatcmpl-1","choices":[{"delta":{"role":"assistant"},"index":0}]}

data: {"id":"chatcmpl-1","choices":[{"delta":{"content":"AIComing"},"index":0}]}

data: {"id":"chatcmpl-1","choices":[{"delta":{"content":" 是一个"},"index":0}]}

data: {"id":"chatcmpl-1","choices":[{"delta":{},"index":0,"finish_reason":"stop"}]}

data: [DONE]
断流自动续传当 TCP 连接中断,AIComing 会缓存已生成 tokens(最长 60s)。客户端使用 Last-Event-ID 重连即可从中断处继续,避免重复扣费。

Embeddings

把文本编码为向量,用于检索、聚类、相似度计算。

POST /v1/embeddings 最大批量 2048 条 · 单条 8192 token
{
  "model": "text-embedding-3-large",
  "input": ["AIComing 是 AI 中转平台。", "统一一个 API Key 调度 200+ 模型。"],
  "dimensions": 1536
}

返回 data[].embeddingfloat[]。常用模型:text-embedding-3-large · bge-m3 · jina-embeddings-v3

图像生成 Beta

统一接入 DALL·E 3、SDXL、可灵、即梦。请求字段对齐 OpenAI;返回 URL 默认有效期 1 小时,可设置 response_format: "b64_json" 直接返回 base64。

POST /v1/images/generations 单次 1–4 张 · 最大 1792×1792
参数类型说明
prompt必填string文本提示,最多 4000 字符。
modelstringdall-e-3 · sdxl-1.0 · kling-v2 · jimeng-3
sizestring1024x1024 · 1792x1024 · 1024x1792
qualitystringstandard / hd
ninteger生成张数,1–4。默认 1
response_formatstringurl(默认,1h 有效)或 b64_json

语音 Beta

包含 /v1/audio/speech(TTS)与 /v1/audio/transcriptions(ASR)。请求与 OpenAI 完全兼容;TTS 输出 mp3/aac/wav;ASR 支持 whisper-1 与 whisper-large-v3。

POST /v1/audio/speech TTS · 支持 tts-1、tts-1-hd、火山引擎 TTS
POST /v1/audio/transcriptions ASR · whisper-1 / whisper-large-v3
参数类型说明
model必填stringTTS:tts-1 · tts-1-hd。ASR:whisper-1
input必填(TTS)string要合成的文本,最多 4096 字符。
voicestringalloy · echo · fable · onyx · nova · shimmer
response_formatstringmp3 (default) · aac · wav · opus

Files

用于上传给 Batch 接口的 JSONL 文件,或视觉模型直接引用的图片。最大单文件 512 MB

POST /v1/files 上传文件 · multipart/form-data
GET /v1/files/{file_id} 查询文件元信息
DEL /v1/files/{file_id} 删除文件

批量推理 NEW

通过 /v1/files 上传 JSONL,再创建 /v1/batches 任务。承诺 24h 内完成,单价 5 折,特别适合离线评测、合规清洗、规模化标注等场景。

POST /v1/batches 完成后通过 output_file_id 下载结果
GET /v1/batches/{batch_id} 查询批量任务状态
JSONL 格式每行一个请求对象,包含 custom_id(用于结果对应)、method: "POST"url: "/v1/chat/completions"body 字段,结构与 OpenAI Batch API 完全一致。

官方 SDK

由于 API 完全兼容 OpenAI,直接使用 openai 官方 SDK 即可。我们另外提供更贴近平台扩展能力(fallback / cache / 路由)的轻量包:

LangChain · LlamaIndex · LiteLLM

在常见编排框架中只需配置 base_url 即可:

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="claude-sonnet-4",
    base_url="https://aicoming.top/v1",
    api_key=os.environ["AICOMING_API_KEY"],
)

错误码

所有错误以标准 HTTP 状态码 + JSON body 返回。Body 结构与 OpenAI 一致:{ "error": { "type", "code", "message", "param" } }

HTTPcode说明 · 处理建议
400invalid_request_error参数缺失或格式错误。检查 messagesmodel
401authentication_errorKey 无效或被撤销。请在控制台重新生成。
402insufficient_quota余额不足。请在控制台充值或开启自动续费。
403model_not_allowed该 Key 不可调用此模型,需在密钥策略中放开。
429rate_limit_exceeded触发限流。读取响应头 Retry-After 后重试。
499request_canceled客户端主动断开。流式中断,已生成部分按实际计费。
502upstream_error上游模型服务异常。开启 fallback 可自动切换。
503service_unavailable当前节点维护中。会自动路由到健康节点,无需处理。
504timeout超过 600s 未完成。建议拆分长上下文或开流式。

限流策略

限流分为 RPM(每分钟请求)TPM(每分钟 token)并发 三个维度,按 Key 与模型组合计算。各账户级别默认配额:

账户级别RPMTPM并发说明
体验2040,0004注册后 7 天内
个人200400,00020累计充值 ≥ ¥100
商业2,0004,000,000200累计充值 ≥ ¥10,000
企业自定义自定义自定义合同与 SLA 约定

每次响应都会返回如下响应头,便于客户端自适应:

x-ratelimit-limit-requests: 200
x-ratelimit-remaining-requests: 187
x-ratelimit-reset-requests: 38
x-ratelimit-limit-tokens: 400000
x-ratelimit-remaining-tokens: 392184

计费与扣费

  • 按量计费 · 按上游官方价 +5% ~ +12% 加价(视模型而定),无最低消费。
  • 缓存命中 · 命中 KV 缓存的请求 10% 计费。
  • 批量推理 · 50% 折扣。
  • 失败请求 · 4xx 不计费,5xx 不计费,finish_reason: content_filter 不计费。
  • 结算频率 · 实时扣费、T+1 出对账单、月底 10 号生成增值税专票。

详细价目表见 价格页,每月在 控制台 · 财务 可下载明细 CSV。

状态与延迟

实时反映各模型 P50 延迟与最近 5 分钟错误率。亚毫秒级更新,全量数据可见 status.aicoming.top

gpt-4o
P50 312 ms · err 0.02%
claude-sonnet-4
P50 488 ms · err 0.01%
deepseek-v3
P50 198 ms · err 0.04%
gemini-2.5-pro
P50 712 ms · err 0.31% · 部分降级
qwen3-max
P50 256 ms · err 0.03%

更新日志

2026-04-22
v1.4

批量推理 · 5 折新增 /v1/batches 端点,承诺 24h 内完成;JSONL 上传与下载完全对齐 OpenAI Batch API。

fallback 字段主模型异常时自动按列表回退,整个回退过程对调用方透明。

2026-03-30
v1.3.2

新增 claude-sonnet-4 · gemini-2.5-pro 上线。

响应头新增 x-aicoming-upstream 用于排障定位。

2026-03-04
v1.3

开放 请求级缓存 cache 字段,命中按 10% 计费。

结构化输出 response_format: json_schema 全模型可用。

2026-02-12
v1.2

新增图像生成(可灵 / 即梦)、TTS(火山)等多模态接口;统一计费维度。

需要更多帮助?访问 开发者社区 或加入 技术支持微信群,平台工程师 7×12 小时在线答疑;企业客户可申请专属 Slack Connect 通道。