限流与用量

限流模型

触发限流时

返回 429「请求过于频繁」,并带 Retry-After 响应头(秒,向上取整、至少 1):

code
HTTP/2 429
Retry-After: 37

客户端正确姿势:读 Retry-After,等够再重发(指数退避亦可,但以该头为准更精确)。

语义细节(诚实说明)

用量统计

每次成功分派的 /v1/agent 调用记一条用量事件(agent_turn),按租户聚合:

配额建议

场景建议 rate_limit
本地开发 / 调试60(默认)
线上小应用按峰值 QPS × 60 估,留 2~3 倍余量
内部可信批处理0(不限流),跑完即撤销该 key