摘要: 本文提出了一种名为“未来作为标签”的方法,通过将可验证的奖励扩展到现实世界中的时间预测,从而扩展了强化学习。该方法训练语言模型从因果掩码信息中做出概率预测,并在事件解决后使用适当的评分规则作为奖励函数。学习过程完全由实际结果驱动,实现了在开放世界预测中的可扩展的基于结果的监督。在现实世界的预测基准测试中,使用“前瞻性学习”训练的Qwen3-32B模型在Brier分数上提高了27%,与预训练基线相比,校准误差减少了一半,并且在构建的未来事件预测任务和Metaculus基准测试中优于Qwen3-235B模型,尽管参数数量减少了7倍。
讨论:
原文标题:Future-as-Label: Scalable Supervision from Real-World Outcomes
原文链接:https://arxiv.org/abs/2601.06336
讨论链接:https://news.ycombinator.com/item?id=46648981