AIComing API

一个 API Key，调用 200+ 主流大模型。完全兼容 OpenAI SDK，支持流式、函数调用、视觉、Embeddings、Rerank 与图像生成。把 base_url 换成 https://aicoming.top/v1，即可零成本切换。图片/视频生成模型请使用 https://api.aicoming.top/v1（无超时限制）。

当前版本 v1 最近更新 2026-04-22 ● 全节点正常 P50 延迟 312 ms

注册账号，领 ¥10 体验金

邮箱 / 手机号即可注册，完成实名后立即到账。

在控制台创建 API Key

支持按密钥设置预算上限、IP 白名单与可调模型。

替换 base_url 即可调用

OpenAI SDK / LangChain / 自研客户端 0 改造接入。

合规与隐私请求与响应不会被用于训练，仅在出现错误时缓存 7 天用于排障。境内调用通过国内备案节点，国际模型通过香港中转。数据处理协议 →

快速开始

下面这段代码展示了调用 GPT-4o 生成一段中文摘要的最小示例。把 $AICOMING_API_KEY 替换为你在控制台获取到的 key 即可立即运行。

curl https://aicoming.top/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AICOMING_API_KEY" \
  -d '{
    "model": "gpt-4o",
    "messages": [
      {"role": "system", "content": "你是一名简洁的中文助手。"},
      {"role": "user", "content": "用一句话介绍 AIComing。"}
    ],
    "temperature": 0.7
  }'

from openai import OpenAI

client = OpenAI(
    api_key=os.environ["AICOMING_API_KEY"],
    base_url="https://aicoming.top/v1",
)

resp = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "你是一名简洁的中文助手。"},
        {"role": "user",   "content": "用一句话介绍 AIComing。"},
    ],
    temperature=0.7,
)
print(resp.choices[0].message.content)

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.AICOMING_API_KEY,
  baseURL: "https://aicoming.top/v1",
});

const resp = await client.chat.completions.create({
  model: "gpt-4o",
  messages: [
    { role: "system", content: "你是一名简洁的中文助手。" },
    { role: "user",   content: "用一句话介绍 AIComing。" },
  ],
});
console.log(resp.choices[0].message.content);

package main

import (
    "context"
    "fmt"
    "github.com/sashabaranov/go-openai"
)

func main() {
    cfg := openai.DefaultConfig("$AICOMING_API_KEY")
    cfg.BaseURL = "https://aicoming.top/v1"
    c := openai.NewClientWithConfig(cfg)
    resp, _ := c.CreateChatCompletion(context.Background(),
        openai.ChatCompletionRequest{ Model: "gpt-4o" })
    fmt.Println(resp.Choices[0].Message.Content)
}

预期返回如下结构（已截断）：

{
  "id": "chatcmpl-9eR2…",
  "object": "chat.completion",
  "created": 1745890123,
  "model": "gpt-4o-2024-11-20",
  "choices": [{
    "index": 0,
    "message": { "role": "assistant", "content": "AIComing 是一个统一接入 200+ 大模型的 AI 中转平台。" },
    "finish_reason": "stop"
  }],
  "usage": { "prompt_tokens": 38, "completion_tokens": 22, "total_tokens": 60 }
}

鉴权与密钥

AIComing 使用 Bearer Token 鉴权。在每个请求的 Authorization 头中携带你的 API Key：

Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
Content-Type: application/json

密钥规范

密钥前缀固定为 sk-，紧跟随机字符串。
每个账户最多创建 20 个 Key，可分别绑定到生产 / 测试环境。
支持 IP 白名单、每日预算上限、可调模型范围 三类细粒度策略。
泄漏后请立刻在控制台 · 密钥撤销并轮换。

不要把 API Key 写进前端代码或公开仓库建议通过环境变量、Vault、KMS 等方式注入；可使用控制台「密钥扫描」自动检测公开仓库泄漏。

OpenAI 兼容性

AIComing 的核心 API 与 OpenAI 官方完全同构。你只需修改 base_url，即可让现有项目调用 Anthropic Claude、Google Gemini、智谱 GLM、DeepSeek、阿里通义、月之暗面 Kimi 等所有模型。

能力	状态	说明
/chat/completions	完全兼容	messages、tools、tool_choice、response_format、seed、logprobs、stream 全部支持。
/embeddings	完全兼容	支持 OpenAI、BGE、Jina、智谱 4 类向量模型。
/images/generations	Beta	兼容 DALL·E 3、SDXL、可灵、即梦。`quality`、`size` 字段语义对齐 OpenAI。
/audio/speech	Beta	支持 OpenAI tts-1 与火山引擎 TTS。
/audio/transcriptions	完全兼容	Whisper-1 / Whisper-large-v3。
/files · /batches	新增	批量推理 50% 折扣，24h 内完成。
/assistants	不支持	请使用我们的 Agents Runtime（独立产品）。

模型列表

调用 GET /models 可获取你账户当前可调用的全部模型。下表节选若干常用模型；完整列表与定价见模型市场。

GET /v1/models 返回当前账户可调用模型列表（按可用性排序）

gpt-4oOpenAI¥0.018 / 1k in

128k 上下文，原生多模态，function calling 与 JSON 模式稳定。

visiontoolsstream

claude-sonnet-4Anthropic¥0.024 / 1k in

长文本与代码任务领先，200k 上下文，支持 Artifacts。

visiontools200k

gemini-2.5-proGoogle¥0.014 / 1k in

1M 上下文，原生视频理解，适合超长文档与代码库。

vision1Mvideo

deepseek-v3DeepSeek¥0.001 / 1k in

极致性价比，中文与代码均衡；夜间 8 折。

streamtoolscache

qwen3-max阿里云¥0.012 / 1k in

中文场景表现最好，支持多模态与函数调用。

visiontools

moonshot-v1-128k月之暗面¥0.060 / 1k in

128k 中文长文专用，文档问答首选。

128kstream

Chat Completions

核心对话接口，所有文本类模型统一使用此端点。请求格式与 OpenAI 100% 一致，并扩展了 provider、cache、fallback 三个字段。

POST /v1/chat/completions 幂等键 X-Idempotency-Key · 默认超时 600s

请求参数

参数	类型	说明
model必填	string	模型 ID，如 `gpt-4o` · `claude-sonnet-4`。可使用 `auto` 让平台按提示词与价格策略路由。
messages必填	array	消息数组，每条 `{role, content}`。`role` 取值 `system` / `user` / `assistant` / `tool`。
temperature	number	0 – 2 之间，默认 `1`。值越大输出越发散。
max_tokens	integer	本次响应最多生成的 token 数。不传时由模型自适应。
stream	boolean	是否使用 SSE 流式返回。详见流式输出。
tools	array	函数调用工具数组，结构与 OpenAI 一致。
response_format	object	结构化输出。`{ "type": "json_object" }` 或 `{ "type": "json_schema", "schema": {…} }`。
fallback	array<string>	AIComing 扩展 · 主模型异常时按顺序回退。例如 `["claude-sonnet-4", "deepseek-v3"]`。
cache	object	AIComing 扩展 · 开启请求级 KV 缓存，命中则按 10% 计费。`{ "ttl": 3600, "key": "..." }`。
user	string	终端用户标识，用于风控与配额隔离。

在线试用

下方调用真实代理（不消耗你账户的额度）。修改参数后点击「运行」查看流式响应。

请求构造器 · POST /v1/chat/completions

model

system

user

temperature

stream

响应 · application/event-stream

点击「运行」查看流式输出…

就绪——

响应字段

id	string	请求唯一 ID，可在控制台调用日志中检索。
choices[].message.content	string	模型文本输出。
choices[].finish_reason	string	`stop` · `length` · `tool_calls` · `content_filter`。
usage	object	`prompt_tokens` + `completion_tokens` + `total_tokens`。
x_aicoming.cache_hit	boolean	本次请求是否命中缓存。
x_aicoming.upstream	string	实际命中的上游路由，如 `openai-azure-east`。

流式输出

设置 stream: true 即返回 Server-Sent Events。每个事件以 data: 开头，data: [DONE] 表示流结束。

data: {"id":"chatcmpl-1","choices":[{"delta":{"role":"assistant"},"index":0}]}

data: {"id":"chatcmpl-1","choices":[{"delta":{"content":"AIComing"},"index":0}]}

data: {"id":"chatcmpl-1","choices":[{"delta":{"content":" 是一个"},"index":0}]}

data: {"id":"chatcmpl-1","choices":[{"delta":{},"index":0,"finish_reason":"stop"}]}

data: [DONE]

断流自动续传当 TCP 连接中断，AIComing 会缓存已生成 tokens（最长 60s）。客户端使用 Last-Event-ID 重连即可从中断处继续，避免重复扣费。

Embeddings

把文本编码为向量，用于检索、聚类、相似度计算。

POST /v1/embeddings 最大批量 2048 条 · 单条 8192 token

{
  "model": "text-embedding-3-large",
  "input": ["AIComing 是 AI 中转平台。", "统一一个 API Key 调度 200+ 模型。"],
  "dimensions": 1536
}

{
  "object": "list",
  "data": [
    { "object": "embedding", "index": 0, "embedding": [-0.012, 0.034, …] },
    { "object": "embedding", "index": 1, "embedding": [0.023, -0.041, …] }
  ],
  "model": "text-embedding-3-large",
  "usage": { "prompt_tokens": 18, "total_tokens": 18 }
}

返回 data[].embedding 为 float[]。常用模型：text-embedding-3-large · bge-m3 · jina-embeddings-v3。

图像生成 Beta

统一接入 DALL·E 3、SDXL、可灵、即梦。请求字段对齐 OpenAI；返回 URL 默认有效期 1 小时，可设置 response_format: "b64_json" 直接返回 base64。

POST /v1/images/generations 单次 1–4 张 · 最大 1792×1792

参数	类型	说明
prompt必填	string	文本提示，最多 4000 字符。
model	string	`dall-e-3` · `sdxl-1.0` · `kling-v2` · `jimeng-3`。
size	string	`1024x1024` · `1792x1024` · `1024x1792`。
quality	string	`standard` / `hd`。
n	integer	生成张数，1–4。默认 `1`。
response_format	string	`url`（默认，1h 有效）或 `b64_json`。

语音 Beta

包含 /v1/audio/speech（TTS）与 /v1/audio/transcriptions（ASR）。请求与 OpenAI 完全兼容；TTS 输出 mp3/aac/wav；ASR 支持 whisper-1 与 whisper-large-v3。

POST /v1/audio/speech TTS · 支持 tts-1、tts-1-hd、火山引擎 TTS

POST /v1/audio/transcriptions ASR · whisper-1 / whisper-large-v3

参数	类型	说明
model必填	string	TTS：`tts-1` · `tts-1-hd`。ASR：`whisper-1`。
input必填（TTS）	string	要合成的文本，最多 4096 字符。
voice	string	`alloy` · `echo` · `fable` · `onyx` · `nova` · `shimmer`。
response_format	string	`mp3` (default) · `aac` · `wav` · `opus`。

Files

用于上传给 Batch 接口的 JSONL 文件，或视觉模型直接引用的图片。最大单文件 512 MB。

POST /v1/files 上传文件 · multipart/form-data

GET /v1/files/{file_id} 查询文件元信息

DEL /v1/files/{file_id} 删除文件

批量推理 NEW

通过 /v1/files 上传 JSONL，再创建 /v1/batches 任务。承诺 24h 内完成，单价 5 折，特别适合离线评测、合规清洗、规模化标注等场景。

POST /v1/batches 完成后通过 output_file_id 下载结果

GET /v1/batches/{batch_id} 查询批量任务状态

JSONL 格式每行一个请求对象，包含 custom_id（用于结果对应）、method: "POST"、url: "/v1/chat/completions" 与 body 字段，结构与 OpenAI Batch API 完全一致。

官方 SDK

由于 API 完全兼容 OpenAI，直接使用 openai 官方 SDK 即可。我们另外提供更贴近平台扩展能力（fallback / cache / 路由）的轻量包：

aicoming-python

pip install aicoming

aicoming-node

npm i @aicoming/sdk

aicoming-go

go get aicoming.top/sdk

aicoming-java

com.aicoming:sdk:1.4.0

aicoming-dotnet

dotnet add AIComing.SDK

PHP

aicoming-php

composer require aicoming/sdk

LangChain · LlamaIndex · LiteLLM

在常见编排框架中只需配置 base_url 即可：

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="claude-sonnet-4",
    base_url="https://aicoming.top/v1",
    api_key=os.environ["AICOMING_API_KEY"],
)

from llama_index.llms.openai import OpenAI

llm = OpenAI(
    model="gpt-4o",
    api_base="https://aicoming.top/v1",
    api_key=os.environ["AICOMING_API_KEY"],
)

import litellm

response = litellm.completion(
    model="openai/gpt-4o",
    messages=[{"role": "user", "content": "hello"}],
    api_base="https://aicoming.top/v1",
    api_key=os.environ["AICOMING_API_KEY"],
)

错误码

所有错误以标准 HTTP 状态码 + JSON body 返回。Body 结构与 OpenAI 一致：{ "error": { "type", "code", "message", "param" } }。

HTTP	code	说明 · 处理建议
400	invalid_request_error	参数缺失或格式错误。检查 `messages` 与 `model`。
401	authentication_error	Key 无效或被撤销。请在控制台重新生成。
402	insufficient_quota	余额不足。请在控制台充值或开启自动续费。
403	model_not_allowed	该 Key 不可调用此模型，需在密钥策略中放开。
429	rate_limit_exceeded	触发限流。读取响应头 `Retry-After` 后重试。
499	request_canceled	客户端主动断开。流式中断，已生成部分按实际计费。
502	upstream_error	上游模型服务异常。开启 `fallback` 可自动切换。
503	service_unavailable	当前节点维护中。会自动路由到健康节点，无需处理。
504	timeout	超过 600s 未完成。建议拆分长上下文或开流式。

限流策略

限流分为 RPM（每分钟请求）、TPM（每分钟 token）、并发三个维度，按 Key 与模型组合计算。各账户级别默认配额：

账户级别	RPM	TPM	并发	说明
体验	20	40,000	4	注册后 7 天内
个人	200	400,000	20	累计充值 ≥ ¥100
商业	2,000	4,000,000	200	累计充值 ≥ ¥10,000
企业	自定义	自定义	自定义	合同与 SLA 约定

每次响应都会返回如下响应头，便于客户端自适应：

x-ratelimit-limit-requests: 200
x-ratelimit-remaining-requests: 187
x-ratelimit-reset-requests: 38
x-ratelimit-limit-tokens: 400000
x-ratelimit-remaining-tokens: 392184

计费与扣费

按量计费 · 按上游官方价 +5% ~ +12% 加价（视模型而定），无最低消费。
缓存命中 · 命中 KV 缓存的请求 10% 计费。
批量推理 · 50% 折扣。
失败请求 · 4xx 不计费，5xx 不计费，finish_reason: content_filter 不计费。
结算频率 · 实时扣费、T+1 出对账单、月底 10 号生成增值税专票。

详细价目表见价格页，每月在控制台 · 财务可下载明细 CSV。

状态与延迟

实时反映各模型 P50 延迟与最近 5 分钟错误率。亚毫秒级更新，全量数据可见 status.aicoming.top。

gpt-4o

P50 312 ms · err 0.02%

claude-sonnet-4

P50 488 ms · err 0.01%

deepseek-v3

P50 198 ms · err 0.04%

gemini-2.5-pro

P50 712 ms · err 0.31% · 部分降级

qwen3-max

P50 256 ms · err 0.03%

更新日志

2026-04-22 v1.4	批量推理 · 5 折新增 `/v1/batches` 端点，承诺 24h 内完成；JSONL 上传与下载完全对齐 OpenAI Batch API。 fallback 字段主模型异常时自动按列表回退，整个回退过程对调用方透明。
2026-03-30 v1.3.2	新增 `claude-sonnet-4` · `gemini-2.5-pro` 上线。响应头新增 `x-aicoming-upstream` 用于排障定位。
2026-03-04 v1.3	开放请求级缓存 `cache` 字段，命中按 10% 计费。结构化输出 `response_format: json_schema` 全模型可用。
2026-02-12 v1.2	新增图像生成（可灵 / 即梦）、TTS（火山）等多模态接口；统一计费维度。

需要更多帮助？访问开发者社区或加入技术支持微信群，平台工程师 7×12 小时在线答疑；企业客户可申请专属 Slack Connect 通道。