如何减少大模型 token 的消耗？-Seo优化-塔城地区网站建设公司

省Token不是不用AI，而是更精细地分配AI资源。

之前看到一个说法：用户连续向 ChatGPT 提问十几到几十次，背后算力、资源损耗换算下来，相当于白白消耗几百毫升水资源。抛开资源损耗不谈，现在主流大模型经过大规模 RLHF 人类反馈对齐后，统一养成了“端水大师”式的客服思维。

随便问个啥都给你：“好的，我来为您解答”，中间给你列个“首先、其次、最后”，结尾还要加一句“希望这个回答对您有帮助，如果您还有其他问题...”。

看似废话文学，，但就token计费来说，就相当于不断漏水的水龙头，都是白花花的银子。

网上其实有很多人提出了相关的处理办法：

比如说：

能用本地模型，就不用云端模型：对一些基础任务（比如录音转写），可以优先用本地模型处理，既能控制成本，也更利于保密。
确定的用脚本，不确定的用模型：重复性、流程明确的工作，尽量做成脚本或可复用的工具；真正需要探索、判断和生成的环节，再调用大模型。
用便宜模型给复杂项目写索引：在复杂项目里，先让成本较低的模型帮忙建立索引、整理结构，让更贵的模型能更高效地调用信息，避免在低效搜索上浪费Token。

还有人说有人提到英文通常比中文更省Token，嗯，，怎么能说不是一个灵机一动的好办法...

言归正传，想要大模型“好好说话”还可以试下这些方法：

先是大多数人用的多的日常对话，要解决的就是大模型的啰嗦病。

很多人觉得让模型简短，只要加一句“请简短回答”就行了。大错特错！你加这句，它只会回复：“好的，我会尽量简短回答：...”

对付这种讨好型人格，你的 Prompt 必须冷酷、具体、带有强制性。

1. 设定“极简/无情”的人设在对话开头或者 System Prompt 里，直接剥夺它的“客服属性”。

“你是一个惜字如金的资深专家。你的回答必须直击要害，禁止使用任何寒暄、过渡句、总结性废话。禁止说‘好的’、‘当然’、‘综上所述’。”

2. 限制输出格式（最有效的一招）大模型在自由发挥时最容易啰嗦，把它框死在特定格式里，它就没空说废话了。

写代码时：“只输出代码本身。禁止使用 Markdown 代码块标记，禁止任何解释和注释。”
提取信息时：“严格以 JSON 格式返回结果，不要包含任何 JSON 之外的文本，不要说‘这是您的JSON’。”
做选择题时：“只输出选项字母（如 A/B/C），不要输出选项内容，不要解释原因。”

3. 用 Few-shot（给例子）教它做人大模型是模仿大师。你光说“精简”没用，你直接给它看两个“一问一答、极其干练”的例子，它立马就能学会。

用户：中国的首都是哪？助手：北京。用户：水的化学式？助手：H2O。用户：[你的真实问题]

然后是API调用党：

如果你是开发者，在代码里调用 API，光靠Prompt约束是不够的（模型偶尔还是会幻觉发作），必须上工程手段。

1. 用好stop（停止词）参数，这是省token的一个好的办法，很多时候我们只需要模型输出一个词或一句话。你可以在 API 里设置stop序列。比如你让模型提取文章里的人名，设置stop=["\n", "."]。模型只要输出完人名，碰到换行符或句号，就会立刻强制停止生成，后面那些“提取到的人名是xxx”的废话全被物理掐断。

2. 调高惩罚参数（Penalty）在API参数里，把frequency_penalty（频率惩罚）和presence_penalty（存在惩罚）稍微调高一点（比如0.2到0.5之间）。这会迫使模型减少重复词汇和车轱辘话，虽然不能直接减少总长度，但能让内容更紧凑。

3.max_tokens兜底这个大家都知道，限制最大输出token数。但注意，这招是治标不治本的。如果你把max_tokens设得很小，模型话没说完就被掐断了，反而会导致输出残缺，你还得重新调，更费钱。所以它只能作为防失控的兜底，不能作为主要的省token手段。