GPT-OSS 120B 在 Cerebras 上运行速度可达 3000 个 token/秒。

Nov 08, 2025     Author:samspenc     HN Points:45     HN Comments:6
Share this

摘要: OpenAI的GPT OSS 120B模型现已可在Cerebras上使用。这是OpenAI首个公开权重的推理模型,其准确度与o4-mini相当,在Cerebras Inference Cloud上每秒可处理高达3000个token。在Cerebras上,原本需要一分钟完成的推理任务只需一秒即可完成。OSS 120B今天推出,具有131K的上下文,每百万输入token的费用为0.25美元,每百万输出token的费用为0.69美元。该模型在数学推理、编码和与健康相关的查询等思维链任务中表现出色,具有行业领先的准确性和效率。

讨论: 用户讨论了Cerebras GML-4.6模型,认为它在编程方面非常有用。一些用户表示该模型运行速度快,可以用于快速执行多工具转换的代理。有用户对Cerebras的MiniMax M2表示期待,希望它能够提供更快的性能。此外,一些用户对某些网站的用户体验表示不满,认为强制注册链接会让他们离开。还有用户询问了系统的价格。

原文标题:GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras
原文链接:https://www.cerebras.ai/blog/openai-gpt-oss-120b-runs-fastest-on-cerebras
讨论链接:https://news.ycombinator.com/item?id=45853849