2026 主流大模型 API 价格对比:GPT-5、Claude、Gemini、DeepSeek
2026 年大模型 API 的价格跨度极大——从每百万 token 几分钱到好几美元。为每个任务挑对模型、再从对的供应商买,是你手里最大的成本杠杆之一。本文讲清计费原理、2026 年大致格局,以及中转站如何改变这笔账。
注意:具体价格经常变动。把本文当框架用,决定前请务必查看实时价格(模型广场)。
大模型怎么计费
大多数供应商按 token 计费,输入(你的提示词和上下文)与输出(模型回复)分开算,通常以每百万 token 报价。要点:
- 输出通常比输入贵,所以长回复更费钱。
- 上下文长度很关键:大提示词和历史会抬高输入成本。
- 档位差距很大:"mini"/"flash" 模型可能比旗舰便宜 10-50 倍。
- 倍率:网关常用"在基准上乘倍率"按模型分组表达价格。
2026 年的大致格局
价格档位(方向性,按每百万输入 token)大致如下:
| 档位 | 示例 | 相对成本 |
|---|---|---|
| 超便宜 | 开源(Llama、Qwen)、DeepSeek | 最低 |
| 便宜推理 | DeepSeek Pro、GLM | 低 |
| 中端旗舰 | GPT-5 各档、Claude Sonnet、Gemini Pro | 中 |
| 高端 | Claude Opus、顶级推理模型 | 最高 |
开源和 DeepSeek/Qwen/GLM 往往折扣最深;旗舰推理模型在最顶端。所有档位里,输出 token 通常是输入价的数倍。
中转站如何改变这笔账
中转站批量采购、把折扣传给你,所以很多模型你实际付的价可能比官方低 30%-80%。这意味着:
- 折扣网关上的高端模型,可能比官方价的中端模型还便宜。
- 便宜模型变得更便宜。
- 对非开源模型,"最便宜的选项"很少是官方。
永远比较实际价格(折扣/倍率之后),而非官方标价。
一个成本估算方法
- 估每请求 token:输入(提示词+上下文)和输出。
- 乘以分 token 单价(按模型和供应商)。
- 乘以每月请求量。
- 加缓冲,覆盖重试和故障转移流量。
例子:每请求 1,000 输入 + 500 输出 token,每月 100,000 次 = 每月 1 亿输入 + 5,000 万输出 token。代入你模型的实际单价得到月度估算,再对比模型和供应商。
优化支出的实用技巧
- 按任务路由:简单活儿用便宜模型,难推理用高端。
- 精简 token:更短提示词、限制
max_tokens、摘要化历史。 - 用折扣网关 降低所有模型的基准价。
- 缓存重复请求。
- 看每个成功结果的成本,不只是每 token。
常见问题
输入和输出价格一样吗? 通常不一样。输出 token 一般更贵,所以回复长度驱动成本。
中转价为什么比官方低? 批量采购和路由效率,以折扣形式让给你。请确认供应商提供的是真模型。
2026 年哪些模型最便宜? 开源(Llama、Qwen)和 DeepSeek/GLM 往往最便宜;旗舰推理模型最贵。决定前查实时价格。