
缓存是谁存的?
→ AI 服务商的推理系统,不是模型自己。
缓存存什么?
→ 重复 prompt 前缀的 tokens / KV 中间计算状态,不是最终答案。
(OpenAI 文档说,Prompt Caching 会把请求路由到最近处理过相同 prompt 的服务器,命中后就复用 cached result;缓存自动用于 1024 tokens 或更长的 prompt)
缓存存多久?
→ 通常几分钟到一小时;有些平台支持 24 小时或手动 TTL。
缓存的对象不是“你的完整聊天记录”,也不是“最终答案”。
→ 缓存的是你发送给模型的 prompt 前缀 + 模型已经计算好的中间状态
假设你用 API 或某个 Agent 工具,连续发:
固定 system prompt
固定工具说明
固定评分标准
学生 A 作业第二次发:
固定 system prompt
固定工具说明
固定评分标准
学生 B 作业如果前面固定部分完全一样,而且还在缓存有效期内,那么你的账号/组织范围内就可能命中缓存。
但是别的用户即使也发了类似内容,一般不会用到你的缓存。
缓存归谁?
→ 一般归同一个 organization / workspace / project,不会跨用户公开共享。
新对话能不能命中?
→ 不是看新不新对话,而是看有没有再次发送相同长前缀,以及缓存有没有过期。
缓存指标更多是 API 或某些 Agent 工具里显示的。