自适应学习投机系统(AdapTive-LeArning Speculator System,简称ATLAS):更快的LLM推理

Oct 12, 2025     Author:alecco     HN Points:195     HN Comments:10
Share this

摘要: Together AI 推出了名为 ATLAS 的新型自适应学习预测系统,旨在提高大语言模型的性能。ATLAS 通过结合算法、架构和建模方法,实现了自动性能提升,无需手动调整。该系统可以动态地适应工作负载的变化,并从历史模式和实时流量中学习,以实时地与目标模型的行为保持一致。ATLAS 在 DeepSeek-V3.1 和 Kimi-K2 上实现了高达 500 TPS 的速度,比标准解码快 2.65 倍。此外,文章还介绍了预测解码的概念和 Together AI 如何通过优化架构、稀疏性、算法和数据等来提高解码速度。

讨论: 上述内容主要讨论了MoonshotAI的K2-Vendor-Verifier工具,该工具在推理速度上表现出色,但存在较高的工具调用失败率。同时,讨论了模型推理速度的提升方法,包括使用快速推测模型和并行验证等技术。此外,还提到了Together Turbo Speculator和ATLAS等工具在特定场景下的性能表现,并与其他硬件和模型进行了比较。

原文标题:AdapTive-LeArning Speculator System (ATLAS): Faster LLM inference
原文链接:https://www.together.ai/blog/adaptive-learning-speculator-system-atlas
讨论链接:https://news.ycombinator.com/item?id=45556474