在96个H100 GPU上部署DeepSeek

Aug 29, 2025     Author:GabrielBianconi     HN Points:261     HN Comments:10
Share this

摘要: 本文介绍了如何使用SGLang在12节点、每节点8个H100 GPU的集群上,实现DeepSeek大语言模型的高效推理。通过采用prefill-decode解耦和大规模专家并行(EP)等技术,SGLang实现了每秒52.3k输入令牌和22.3k输出令牌的性能,接近官方DeepSeek报告中的吞吐量。文章详细介绍了并行设计、优化方法和结果,并提供了所有实验代码的开放访问。

讨论: 上述内容主要讨论了大型语言模型(LLM)推理的成本和效率问题。作者们分析了不同服务提供商的成本,并讨论了GPU利用率、数据中心成本和模型优化等因素对成本的影响。一些用户指出了特定服务提供商的成本与性能,并与其他选项进行了比较。此外,还提到了一些关于LLM推理部署和优化的实际案例,以及一些用户对特定技术和伦理问题的看法。

原文标题:Deploying DeepSeek on 96 H100 GPUs
原文链接:https://lmsys.org/blog/2025-05-05-large-scale-ep/
讨论链接:https://news.ycombinator.com/item?id=45064329