如果你在用 Claude Code、OpenClaw 这类 AI Agent,你会发现: token 烧得飞起。
以前跟只是 ChatGPT 聊天,一个月 20 美金的订阅绰绰有余。
现在让几个 Agent 同时跑一个任务, 一个下午烧掉的算力比以前一个月还多。
Claude Sonnet 4.6 今天刚发布,性能超过了上一代 Opus,果然不出我所料, API 定价还是 3 美金/百万 token。
其最大特点是:在人类白领工作任务上跟 Opus4.6 一样,超过了人类平均水平。
也就是说同一个活,给这 AI 做,反而比雇一个实习生做更好,且更便宜。
这意味着 Claude 的 token 消耗将变得更大。
(虽然说算力供给一直在提升,数据中心在疯狂地建,但是每个人的算力需求也变得更大了。
从供需关系来看,确实是算力越来越不够用。)
所以怎么买到便宜的大模型 token,确实值得算算账,毕竟Claude API花的是美金,可太贵了。
官方订阅可能就是最便宜的
有个叫 she_llac 的人做了一件事: 他发现 Anthropic 在网页版的接口响应里忘了对一个浮点数四舍五入 ,露出了 17 位小数。
他用一种叫 Stern-Brocot 树的数学方法,从这个小数反推出了 Claude 内部的真实额度。
算出来的结果:
Max 5x,100 美金一个月,用满等价 1354 美金的 API 费用。
Max 20x,200 美金一个月,满打满算用完的话,等价 2708 美金的 API 费用。
算一下差不多就是便宜了 13.5 倍
而且订阅用户的 缓存读取是免费的 (API 模式要收费),算上缓存加成的话,差不多就是 20 倍。
如果你的用量能撑满额度, 没有任何渠道比官方订阅便宜。
用不满官方额度,可以看看中转站
也不是每个人都能用满 Max 订阅。
如果你用量没那么大,或者不想一次性掏一两百美金想先试试水,中转站是另一个选择。
API 中转站就是,运营者通过各种渠道拿到 Claude API 的能力再二次分发卖给你,你按照中转站的教程配置一下就能用了。
现在市面上比较便宜的 Claude 4.6 Opus 的渠道是 1.5 人民币/百万 token,注意是人民币,不是美金。
也就是比官方的 5 美金/百万 token便宜了 24 倍!
那去哪找?有个开源项目叫 RelayPulse (网址:https://relaypulse.top),相当于 AI 大模型中转站的「大众点评」,监控各家的可用率、延迟。
你可以先去看看哪些站可用率高、延迟低、且价格你能接受,建议找一家服务稳定的注册使用。
具体是哪家我这里就不做推荐,自行挑选。
记住:买的时候,用多少充多少,别充多了。
便宜 API 虽好,但有几件事你得心里有数。
中转站其实是一种灰产。
它的 API 来源有几种:
有官方 API 转售的,质量好但贵;
有订阅拼车的,质量看人数和管理;
还有一种是市面上便宜货的主要来源,逆向渠道。
即逆向 Claude Code 或 AWS Kiro 里面的大模型回答作为 API 给用户调用。
尤其是 Kiro 逆向,前面说的 1.5 人民币/百万 token 就是这个渠道。
比官方便宜了 24 倍,在 OpenClaw 上跑很爽,狂造一天也就花了几十块而已,但代价就是稳定性差。
有一个经典的三视图:
如果你想买到便宜又稳定的服务,那么质量就不会好。
如果你想买到质量好又稳定的服务,那么价格肯定不会低。
但如果你既要又要还要,那就不可能。
我自己踩过最大的坑:接入便宜 API 后,用 Claude Code 跑一个任务,跑到一半中转站挂了。
任务断了还不是最惨的,毕竟我可以切另一个渠道。
最惨的是上下文被污染了,断掉那一刻写入了残缺内容,整个会话废了,切到其他渠道也无法继续对话,一直报错。
只能新开一个对话重新聊。
看似省下了几块钱,但整个工作的心流就断了,重新启动又要花不少时间来进入那种状态。
所以能用更稳定的就用更稳定的,能用官方就用官方。
对了,如果你在用 OpenClaw 的话,接入这种中转站 API 时,建议把上下文长度设到 150K (即120K 左右开始自动压缩),
避免由于上下文过长还没来得及压缩就爆满了。
省 token 的隐性代价比 token 本身贵
我以前用按量计费的中转 API,有一个习惯: 时不时就看一下余额、看一下这一次对话烧了多少钱
跑一个长任务,心里一直在算这次大概要烧多少。
跟 AI 对话着对话着,会忍不住切过去看消耗了多少钱。
我还花了大量时间在找更便宜的 API 上,从一个中转站搬到另一个,对比响应速度、价格、智商表现,就为了省那一点钱。
后来我算了一笔账: 我花在「找便宜 token」和「盯余额」上的时间,换算成时薪,比我省下的 token 钱贵得多。
而且哪怕是公司报销的 API,消耗多了我也心疼。
这说明问题根本不在钱上,它是一种被按量计费模式训练出来的条件反射:
余额在变少,那个数字在提醒你「你在花钱」,你的注意力就被它劫持了一部分。
这部分注意力的代价我算不出来,但它一直在起作用:
结果就是,该用好模型的时候换了差模型,该让 AI 跑的任务选择了自己做,该进入心流的时候被一个忍不住想看余额给打断了。
后面,我切到 Claude 官方的包月订阅套餐之后,这种情况就消失了。
因为我是一次性付完的,平时看不到扣费过程。
反而会觉得:如果这个月的额度没用完,亏了。
这反而推动了我尽可能多地去榨干 AI 的价值、尽可能多地消耗 token。
还有一个很多人可能都没注意到的信号。
Claude 最近在 Claude Code 里推出了 快速模式(Fast Mode) ,Opus 4.6 的推理速度提升 2.5 倍,但 费用是标准模式的 6 倍 。
为什么要专门推出一个「加钱换速度」的模式?如果算力充裕,官方直接默认高速就行了。
单独拿出来卖,说明算力不够用了。
这意味着一件事:token 的价格长期来看, 只会越来越贵,趁现在还便宜,尽量多用。
给自己定一个 AI 预算
我自己的做法是 每个月除公司报销外,专门拿月收入的 5% 出来,花在 AI 订阅费/token 算力费上
我们天天说 AI 员工,但你想想,如果真的是员工,它只配每个月只拿 50 块工资吗?
所以,我们换一个视角:AI 订阅/token 费不是软件订阅费,而是雇一个员工的工资。
把杂活甩给 AI 省出来的时间,拿去做需要判断力的事,写东西、做产品、跟人聊,这些产出积累下来的价值,远超省下的那点 token 钱。
趁 token 还便宜,尽量让 AI 接手更多工作流。
预算定好了,剩下的事情就变简单了: 直接用就行,月底花完再说。
没花完说明你还可以用得更狠。
快速模式 5 倍定价只是开始,总体算力紧张的趋势不会逆转。
所以不要花太多时间在如何省 token 费用上,
而是要把时间放在:如何让 token 烧得更有价值!
Comments on "如何买到便宜20倍的海外大模型 API token" :