429 的常见原因
- 短时间内请求过多,触发 RPM 或 TPM 限制。
- 批量任务并发过高,多个工作流同时调用同一模型。
- 单次输入或输出 token 太大,消耗速度超过限额。
- 上游模型繁忙,临时返回限流。
推荐处理方式
1. 降低并发
先把并发降到 1-3,确认业务可以稳定跑完,再逐步提高。
2. 指数退避重试
import time
for i in range(5):
try:
# call model api
break
except Exception as e:
wait = 2 ** i
time.sleep(wait)
3. 设置备用模型
对于客服、摘要、分类等任务,可以准备 GPT、Gemini、DeepSeek、Qwen 等备用模型。强依赖 Claude 的代码任务,也建议准备一个降级模型用于兜底。
Dify/FastGPT/n8n 中怎么处理
Dify 和 FastGPT 可以在工作流里加入错误分支或备用模型节点;n8n 可以给 HTTP Request 节点加重试,并在失败分支切到另一个模型。
如果你需要一个统一接口来做模型切换,可以先看 OpenAI 兼容 API 国内使用方案。