6月27日,DeepSeek团队联合北京大学发布名为《DSpark》的研究论文(基于speculative decoding方向) ,提出一种用于加速大模型推理的新方法。

论文指出,现有并行“草稿生成 ”方式虽然能一次生成更长token,但由于token间关联不足 ,容易导致被拒绝比例上升,并浪费验证算力 。为此,DSpark引入半自回归结构 ,在并行生成骨干上加入轻量级顺序模块,以增强token之间的依赖关系,提高草稿质量。

同时,DSpark提出“基于置信度的动态验证机制” ,根据不同请求的成功概率与系统负载,自适应调整验证长度,从而减少无效计算开销。在离线测试中 ,该方法显著提升了可接受生成长度;在DeepSeek-V4线上系统中,相比基线模型,推理速度提升约60%–85% ,并有效降低高并发下的吞吐损耗 。
论文同时开源模型检查点与训练框架DeepSpec,以推动社区进一步研究。
(文章来源:界面新闻)