Cerebras推出Qwen3-235B,每秒处理1.5k个token。

Jul 23, 2025     Author:mihau     HN Points:359     HN Comments:34
Share this

摘要: Cerebras Systems今日宣布,其推理云平台现已提供搭载Qwen3-235B的全面支持,该模型具有131K的上下文支持。这一突破性的进展将前沿智能与前所未有的速度相结合,成本仅为闭源模型的十分之一,从而彻底改变了企业AI的部署。Qwen3-235B在科学、编码和通用知识基准测试中与Claude 4 Sonnet、Gemini 2.5 Flash和DeepSeek R1等前沿模型相媲美。Cerebras通过Wafer Scale Engine将Qwen3-235B加速到每秒1,500个标记,将响应时间从1-2分钟缩短到0.6秒。此外,Cerebras还与Cline合作,为开发者提供快速代码生成服务。

讨论: 该内容主要讨论了Cerebras芯片在处理大型语言模型时的性能和成本问题。用户们分享了对于Qwen 3 Coder 405B版本的评价,指出其与Claude 4 Sonnet-level模型相比,在速度上有显著提升,但同时也存在一些问题,如成本高昂、可扩展性有限、以及实际生产中的速率限制和token数量分配问题。讨论中还涉及了不同模型在处理特定任务时的优缺点,以及对未来AI发展前景的展望。

原文标题:Cerebras launches Qwen3-235B, achieving 1.5k tokens per second
原文链接:https://www.cerebras.ai/press-release/cerebras-launches-qwen3-235b-world-s-fastest-frontier-ai-model-with-full-131k-context-support
讨论链接:https://news.ycombinator.com/item?id=44657727