摘要: NVIDIA发布了Nemotron 3,这是一个用于代理人工智能应用的最高效的开放模型系列,具有领先的准确性。Nemotron 3系列包括三个模型:Nano、Super和Ultra,它们提供了强大的代理、推理和对话能力。Nano模型在保持成本效益的同时,在准确性上优于同类模型。Super模型针对协作代理和高负载工作如IT票务自动化进行了优化。Ultra模型提供最先进的准确性和推理性能。NVIDIA同时发布了Nemotron 3 Nano模型和技术报告,Super和Ultra模型的发布将在未来几个月内进行。Nemotron 3技术包括混合MoE架构、LatentMoE、多令牌预测、NVFP4训练、长上下文支持、多环境强化学习后训练以及推理时的细粒度推理预算控制。Nemotron 3 Nano是一个包含31.6亿个参数的模型,在多个基准测试中优于GPT-OSS-20B和Qwen3-30B-A3B-Thinking-2507。此外,还发布了开源的数据集和模型食谱,包括多个数据集和预训练代码等资源。
讨论: NVIDIA发布了一系列新的模型和功能,包括混合MoE架构、支持1M上下文长度的模型、在NVFP4上训练的模型,以及开源的预训练、中训练、SFT和RL数据集。用户对NVIDIA的这些新功能表示赞赏,尤其是对于成本效益和性能的提升。一些用户指出NVIDIA的模型在特定任务上表现出色,例如处理大量数据和高性能计算。同时,一些用户对NVIDIA在发布时未能确保所有链接和数据都可用表示不满。
原文标题:Nvidia Nemotron 3 Family of Models
原文链接:https://research.nvidia.com/labs/nemotron/Nemotron-3/
讨论链接:https://news.ycombinator.com/item?id=46275111