18个月,中国Token消化狂飙300倍！清华系AI Infra帮你腰斩API成本

这两天，Clawbot 病毒式裂变，仿佛是一年前 Manus 的魅影重现。

同样一夜之间站上风口，同样点燃了无数开发者对「泼天富贵」的想象，也顺手把 Token 烧成了新的「硬通货」。

最近一组数据，让人更有体感。

中国大模型数量已超过 1500 个，下游开发者已经开始「疯狂盖房子」。数据显示，2024 年初，中国日均 Token 消耗量约为 1000 亿；到 2025 年 6 月，这一数字已突破 30 万亿。一年半时间，增长超过 300 倍。

与三年前的 Chatbot 不同，「能干活」的 Agent 正以前所未有的强度，第一次把 API 调用推入「生产级」——

一次看似简单的操作，背后往往是十几次、甚至几十次模型调用在同时发生。任何一次服务「抽风」，都会在 Agent 链路中引发一场多米诺骨牌式崩溃。

问题在于，中国大模型 API 服务现状，远比 benchmark 复杂得多。

更像是开盲盒，有人调侃说，以为自己在用「DeepSeek V3.2」，实际可能是蒸馏/量化版本。有人花了两周时间反复测试，上线后仍遭遇性能回退。还有团队发现，模型会在某些凌晨时段准时「抽风」，延迟从 300ms 飙升至 2000ms 以上，客服秒变「智障」。

这些并非个案，而是高度碎片化的大模型API服务的「缩影」。

大模型 API 服务的「黑盒」，不只是模型不可解释，而是用户根本不知道，服务背后跑的是什么模型、什么配置、什么质量。清华系 AI Infra 创企清程极智联合创始人兼产品副总裁师天麾告诉机器之心。

中国大模型和大模型 API 服务商本来就多。多算力、多架构、多网络并存，同一个模型，在不同服务商、不同部署方式下，往往呈现出显著差异。

比如，同样调用 DeepSeek-V3 / R1，头部服务商可以维持毫秒级响应；而部分接入低质量算力或优化不足的服务商，其 TTFT（首 Token 时延）可能慢上 2～3 倍。

与此同时，免费 Token、补贴、打包套餐的价格战，让「性价比」变得更加扑朔迷离。

经济学家罗纳德·科斯曾指出，企业与制度的出现，本质上是为了替代高成本的市场交易。当模型服务因高度不透明与供给碎片化不断抬升交易成本时，市场往往会内生出新的中介形态与制度安排，用以收敛不确定性，降低决策与交易成本。

正是在这样的背景下，1 月 29 日，清程极智正式发布 AI Ping。这款被业内视为「中国版 OpenRouter + Artificial Analysis」产品，旨在重塑大模型 API 服务秩序，将上游服务的碎片化与「黑盒」，转化为下游用户手中稳定、可预期的生产力。

18个月,中国Token消化狂飙300倍！清华系AI Infra帮你腰斩API成本

电脑技巧更多>>