限流与用量

限流模型

返回 429「请求过于频繁」,并带 Retry-After 响应头(秒,向上取整、至少 1):

code

HTTP/2 429
Retry-After: 37

客户端正确姿势:读 Retry-After,等够再重发(指数退避亦可,但以该头为准更精确)。

限流计数存在边缘 KV,最终一致——高并发下窗口计数可能略有偏差,短时可能放过比上限略多的请求。这是「边缘可用性优先」的有意取舍,不要把它当成精确计费工具;
fail-open:万一限流存储故障,平台选择放行而不是拒绝——你的服务不会因为我们的限流组件抖动而瘫掉;
限流只看 key,与 session_id、IP 无关。

每次成功分派的 /v1/agent 调用记一条用量事件(agent_turn),按租户聚合: