摘要: Unsloth是一个新的框架,用于通过强化学习(RL)和GRPO训练OpenAI的gpt-oss模型。它提供了以下优势:
- 最快的推理速度(比现有实现快3倍),最低的VRAM使用量(比其他实现低50%),最长上下文长度(比其他实现长8倍),且没有精度损失。
- 通过重写推理代码,实现了3倍于Transformer代码的推理速度,并支持BF16,使得推理速度达到约30个token/s。
- 支持在15GB VRAM上训练gpt-oss-20b,并在Colab上免费使用。
- 引入了嵌入卸载功能,进一步减少了1GB的VRAM使用。
- 不支持vLLM与RL兼容的情况下的训练。
- 不支持Flash Attention 3(FA3),因为它不支持gpt-oss的注意力源反向传播。
- 通过Flex Attention实现,Unsloth是唯一支持4位RL的gpt-oss框架。
- 探索了如何防止奖励黑客攻击,包括懒惰、缓存和欺骗等行为。
讨论: 该内容主要讨论了人工智能领域的一些话题。mountainriver对unsloth的工作表示赞赏,并强调了新睡眠模式在vLLM中的优势,认为这使强化学习训练更加易于接触。decodebytes分享了DeepFabric工具的使用,可以用于生成推理和格式化数据集。Der_Einzige则对GPT-OSS的开放源代码模型提出了批评,认为其与最新模型相比质量较低,并指出大多数使用强化学习或后训练的尝试都因数据质量问题而失败。WOTERMEON对某些观点表示怀疑。
原文标题:GPT-OSS Reinforcement Learning
原文链接:https://docs.unsloth.ai/new/gpt-oss-reinforcement-learning
讨论链接:https://news.ycombinator.com/item?id=45392744