登录
首页 > 手机评测 > 18个月,中国Token消化狂飙300倍!清华系AI Infra帮你腰斩API成本

18个月,中国Token消化狂飙300倍!清华系AI Infra帮你腰斩API成本

发布时间:2026-02-02 17:39:15

这两天,Clawbot 病毒式裂变,仿佛是一年前 Manus 的魅影重现。

同样一夜之间站上风口,同样点燃了无数开发者对「泼天富贵」的想象,也顺手把 Token 烧成了新的「硬通货」。

最近一组数据,让人更有体感。

中国大模型数量已超过 1500 个,下游开发者已经开始「疯狂盖房子」。数据显示,2024 年初,中国日均 Token 消耗量约为 1000 亿;到 2025 年 6 月,这一数字已突破 30 万亿。一年半时间,增长超过 300 倍。

与三年前的 Chatbot 不同,「能干活」的 Agent 正以前所未有的强度,第一次把 API 调用推入「生产级」——

一次看似简单的操作,背后往往是十几次、甚至几十次模型调用在同时发生。任何一次服务「抽风」,都会在 Agent 链路中引发一场多米诺骨牌式崩溃。

问题在于,中国大模型 API 服务现状,远比 benchmark 复杂得多。

更像是开盲盒,有人调侃说,以为自己在用「DeepSeek V3.2」,实际可能是蒸馏/量化版本。有人花了两周时间反复测试,上线后仍遭遇性能回退。还有团队发现,模型会在某些凌晨时段准时「抽风」,延迟从 300ms 飙升至 2000ms 以上,客服秒变「智障」。

这些并非个案,而是高度碎片化的大模型API服务的「缩影」。

大模型 API 服务的「黑盒」,不只是模型不可解释,而是用户根本不知道,服务背后跑的是什么模型、什么配置、什么质量。清华系 AI Infra 创企清程极智联合创始人兼产品副总裁师天麾告诉机器之心。

中国大模型和大模型 API 服务商本来就多。多算力、多架构、多网络并存,同一个模型,在不同服务商、不同部署方式下,往往呈现出显著差异。

比如,同样调用 DeepSeek-V3 / R1,头部服务商可以维持毫秒级响应;而部分接入低质量算力或优化不足的服务商,其 TTFT(首 Token 时延)可能慢上 2~3 倍。

与此同时,免费 Token、补贴、打包套餐的价格战,让「性价比」变得更加扑朔迷离。

经济学家罗纳德·科斯曾指出,企业与制度的出现,本质上是为了替代高成本的市场交易。当模型服务因高度不透明与供给碎片化不断抬升交易成本时,市场往往会内生出新的中介形态与制度安排,用以收敛不确定性,降低决策与交易成本。

正是在这样的背景下,1 月 29 日,清程极智正式发布 AI Ping。这款被业内视为「中国版 OpenRouter + Artificial Analysis」产品,旨在重塑大模型 API 服务秩序,将上游服务的碎片化与「黑盒」,转化为下游用户手中稳定、可预期的生产力。

Copyright 2018-2025 速推科技 版权所有  京ICP备19012569号-1