IF9.CN 消息,1 月 21 日,据量子位报道,DeepSeek-R1 发布一周年之际对新模型「MODEL1」进行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代码,横跨 114 个文件中有 28 处提到 MODEL1,与 V32 作为不同的模型出现。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架构。代码中的具体差异体现在 KV 缓存布局、稀疏性处理和 FP8 解码方面,在内存优化上有多处不同。
DeepSeek-R1发布一周年之际曝光新模型「MODEL1」
- THE END -
本文由 @决策财经 修订发布于 2026-01-20 23:59:00
本文来自投稿,不代表本站立场,如若转载,请注明出处:/news/live-news/140501
评论 (共 条评论,人围观)
