GPT-OSS 120B 在 Cerebras 上运行速度可达 3000 个 token/秒。

摘要： OpenAI的GPT OSS 120B模型现已可在Cerebras上使用。这是OpenAI首个公开权重的推理模型，其准确度与o4-mini相当，在Cerebras Inference Cloud上每秒可处理高达3000个token。在Cerebras上，原本需要一分钟完成的推理任务只需一秒即可完成。OSS 120B今天推出，具有131K的上下文，每百万输入token的费用为0.25美元，每百万输出token的费用为0.69美元。该模型在数学推理、编码和与健康相关的查询等思维链任务中表现出色，具有行业领先的准确性和效率。

讨论： 用户讨论了Cerebras GML-4.6模型，认为它在编程方面非常有用。一些用户表示该模型运行速度快，可以用于快速执行多工具转换的代理。有用户对Cerebras的MiniMax M2表示期待，希望它能够提供更快的性能。此外，一些用户对某些网站的用户体验表示不满，认为强制注册链接会让他们离开。还有用户询问了系统的价格。

原文标题：GPT-OSS 120B Runs at 3000 tokens/sec on Cerebras
原文链接：https://www.cerebras.ai/blog/openai-gpt-oss-120b-runs-fastest-on-cerebras
讨论链接：https://news.ycombinator.com/item?id=45853849