返回热力追踪
关注Model Opensource

FlashMemory新技术:将DeepSeek-V4上下文显存压缩至1.3GB并提升准确率

DeepSeek-V4原生支持100万token上下文,原生需要约10GB显存。FlashMemory通过创新架构进一步压缩显存至1.3GB,在长文本评测中平均提升准确率0.6%,已公开论文并开源项目。

编辑视角

该技术大幅降低了长上下文大模型的推理显存门槛,让1M上下文大模型更容易在普通硬件部署,对AI工程落地有较高参考价值,值得从业者关注。

深度解读

主旨:该信号推出了针对DeepSeek-V4长上下文的显存压缩优化技术FlashMemory,核心通过神经内存索引器按需加载历史片段实现注意力降噪,同时采用解耦双编码器架构,训练无需加载DeepSeek-V4基座,大幅降低训练成本。证据:信号提供了公开ArXiv论文链接和GitHub开源项目地址,给出明确的显存压缩数据和准确率提升结果,DeepSeek-V4本身已于2026年4月正式开源发布,行业关注度高。边界:目前仅在公开长文本评测中验证效果,暂无大规模实际落地应用数据,该方法对其他长上下文大模型的适配效果尚未验证。后续可观察该方法的落地表现以及是否会被上游生态集成。

核心要点
  • FlashMemory将DeepSeek-V4 1M上下文显存从10GB压缩至1.3GB
  • 在LongBench-v2等长文本评测中平均提升准确率0.6%
  • 训练采用解耦架构,无需加载DeepSeek-V4基座,成本大降
  • 已公开ArXiv论文,同步开放对应开源项目代码
延伸阅读
  • DeepSeek V4 突然发布,DeepSeek-V4 技术报告深度解读了解DeepSeek-V4基础背景,辅助理解本次优化
  • 智源 FlagOS 完成 DeepSeek-V4-Flash 在八款芯片 Day0 适配了解DeepSeek-V4-Flash的多芯片落地适配进展