关注Model Opensource2026-06-12 11:33:14

FlashMemory新技术：将DeepSeek-V4上下文显存压缩至1.3GB并提升准确率

DeepSeek-V4原生支持100万token上下文，原生需要约10GB显存。FlashMemory通过创新架构进一步压缩显存至1.3GB，在长文本评测中平均提升准确率0.6%，已公开论文并开源项目。

编辑视角

该技术大幅降低了长上下文大模型的推理显存门槛，让1M上下文大模型更容易在普通硬件部署，对AI工程落地有较高参考价值，值得从业者关注。

深度解读

主旨：该信号推出了针对DeepSeek-V4长上下文的显存压缩优化技术FlashMemory，核心通过神经内存索引器按需加载历史片段实现注意力降噪，同时采用解耦双编码器架构，训练无需加载DeepSeek-V4基座，大幅降低训练成本。证据：信号提供了公开ArXiv论文链接和GitHub开源项目地址，给出明确的显存压缩数据和准确率提升结果，DeepSeek-V4本身已于2026年4月正式开源发布，行业关注度高。边界：目前仅在公开长文本评测中验证效果，暂无大规模实际落地应用数据，该方法对其他长上下文大模型的适配效果尚未验证。后续可观察该方法的落地表现以及是否会被上游生态集成。

核心要点

FlashMemory将DeepSeek-V4 1M上下文显存从10GB压缩至1.3GB
在LongBench-v2等长文本评测中平均提升准确率0.6%
训练采用解耦架构，无需加载DeepSeek-V4基座，成本大降
已公开ArXiv论文，同步开放对应开源项目代码