大模型的输入缓存是什么

缓存是谁存的？

→ AI 服务商的推理系统，不是模型自己。

缓存存什么？

→ 重复 prompt 前缀的 tokens / KV 中间计算状态，不是最终答案。

(OpenAI 文档说，Prompt Caching 会把请求路由到最近处理过相同 prompt 的服务器，命中后就复用 cached result；缓存自动用于 1024 tokens 或更长的 prompt)

缓存存多久？

→ 通常几分钟到一小时；有些平台支持 24 小时或手动 TTL。

缓存的对象不是“你的完整聊天记录”，也不是“最终答案”。

→ 缓存的是你发送给模型的 prompt 前缀 + 模型已经计算好的中间状态

假设你用 API 或某个 Agent 工具，连续发：

固定 system prompt
固定工具说明
固定评分标准
学生 A 作业

第二次发：

固定 system prompt
固定工具说明
固定评分标准
学生 B 作业

如果前面固定部分完全一样，而且还在缓存有效期内，那么你的账号/组织范围内就可能命中缓存。

但是别的用户即使也发了类似内容，一般不会用到你的缓存。

缓存归谁？

→ 一般归同一个 organization / workspace / project，不会跨用户公开共享。

新对话能不能命中？

→ 不是看新不新对话，而是看有没有再次发送相同长前缀，以及缓存有没有过期。

缓存指标更多是 API 或某些 Agent 工具里显示的。