扩展性

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布

DeepSeek R2，果然近了。最近，DeepSeek和清华的研究者发表的这篇论文，探讨了奖励模型的推理时Scaling方法。论文地址：https://arxiv.org/abs/2504.02495现在，强化学习（RL）已广泛应用于LLM的大规模后训练阶段。通过RL激励LLMs的推理能力表明，采

0 2025-04-04 18:25:00