缓存是谁存的?

→ AI 服务商的推理系统,不是模型自己。

缓存存什么?

→ 重复 prompt 前缀的 tokens / KV 中间计算状态,不是最终答案。

(OpenAI 文档说,Prompt Caching 会把请求路由到最近处理过相同 prompt 的服务器,命中后就复用 cached result;缓存自动用于 1024 tokens 或更长的 prompt)

缓存存多久?

→ 通常几分钟到一小时;有些平台支持 24 小时或手动 TTL。

缓存的对象不是“你的完整聊天记录”,也不是“最终答案”。

→ 缓存的是你发送给模型的 prompt 前缀 + 模型已经计算好的中间状态

假设你用 API 或某个 Agent 工具,连续发:

固定 system prompt
固定工具说明
固定评分标准
学生 A 作业

第二次发:

固定 system prompt
固定工具说明
固定评分标准
学生 B 作业

如果前面固定部分完全一样,而且还在缓存有效期内,那么你的账号/组织范围内就可能命中缓存。

但是别的用户即使也发了类似内容,一般不会用到你的缓存。

缓存归谁?

→ 一般归同一个 organization / workspace / project,不会跨用户公开共享。

新对话能不能命中?

→ 不是看新不新对话,而是看有没有再次发送相同长前缀,以及缓存有没有过期。

缓存指标更多是 API 或某些 Agent 工具里显示的。