如果你平时经常调用大模型 API，肯定有同一个感受：模型越来越聪明了，但生成速度

2026-06-27 17:15:48 陈玮玮科技

如果你平时经常调用大模型 API，肯定有同一个感受：模型越来越聪明了，但生成速度还是不够快。

这次 DeepSeek 和北大联合发布的 DSpark，就是让大模型更快了。它采用的是推测解码（Speculative Decoding）技术。简单理解，就是先让一个小模型提前“打草稿”，再交给大模型一次性验证。如果猜得够准，大模型就不用一个 Token 一个 Token 慢慢生成，而是一次输出一整段。

根据官方公布的数据，部署到 DeepSeek-V4 线上服务后，V4-Flash 单用户生成速度提升 60%~85%，V4-Pro 提升 57%~78%。

我觉得，大模型下一阶段竞争，比拼的可就不只是模型能力了，还有推理效率、响应速度和工程能力。毕竟，同样一句回答，如果别人2秒生成，你要等10秒，那用户体验完全不是一个级别的。deepseek发布dspark