Nvidia Nemotron 3 系列模型

摘要： NVIDIA发布了Nemotron 3，这是一个用于代理人工智能应用的最高效的开放模型系列，具有领先的准确性。Nemotron 3系列包括三个模型：Nano、Super和Ultra，它们提供了强大的代理、推理和对话能力。Nano模型在保持成本效益的同时，在准确性上优于同类模型。Super模型针对协作代理和高负载工作如IT票务自动化进行了优化。Ultra模型提供最先进的准确性和推理性能。NVIDIA同时发布了Nemotron 3 Nano模型和技术报告，Super和Ultra模型的发布将在未来几个月内进行。Nemotron 3技术包括混合MoE架构、LatentMoE、多令牌预测、NVFP4训练、长上下文支持、多环境强化学习后训练以及推理时的细粒度推理预算控制。Nemotron 3 Nano是一个包含31.6亿个参数的模型，在多个基准测试中优于GPT-OSS-20B和Qwen3-30B-A3B-Thinking-2507。此外，还发布了开源的数据集和模型食谱，包括多个数据集和预训练代码等资源。

讨论： NVIDIA发布了一系列新的模型和功能，包括混合MoE架构、支持1M上下文长度的模型、在NVFP4上训练的模型，以及开源的预训练、中训练、SFT和RL数据集。用户对NVIDIA的这些新功能表示赞赏，尤其是对于成本效益和性能的提升。一些用户指出NVIDIA的模型在特定任务上表现出色，例如处理大量数据和高性能计算。同时，一些用户对NVIDIA在发布时未能确保所有链接和数据都可用表示不满。

原文标题：Nvidia Nemotron 3 Family of Models
原文链接：https://research.nvidia.com/labs/nemotron/Nemotron-3/
讨论链接：https://news.ycombinator.com/item?id=46275111