德国实验室出现了一种新的、更快的DeepSeek R1-0528变体。

Jul 05, 2025     Author:saubeidl     HN Points:75     HN Comments:7
Share this

摘要: DeepSeek,一家中国人工智能初创公司,发布了其开源模型DeepSeek R1-0528的最新版本。该模型因其训练成本低和推理能力强而受到关注。德国公司TNG Technology Consulting GmbH基于此发布了DeepSeek-TNG R1T2 Chimera,这是一种大型语言模型,在保持高推理能力的同时显著降低了推理成本。R1T2采用了“专家集合”(AoE)方法,将多个预训练模型的权重张量进行选择性合并。R1T2在Hugging Face上以MIT许可证发布,对企业和研究用户开放。

讨论: 这段内容主要讨论了关于TNG公司、AI模型性能、欧盟AI法案以及一个名为Deepseek的项目的相关话题。其中,TNG被描述为一个允许人们在工作间隙进行项目开发的咨询公司。有关AI模型性能的讨论包括减少token输出和基准分数的下降。欧盟AI法案的新规定对模型的使用提出了要求,并引发了对合规性和法律问题的讨论。此外,还提到了一个名为Deepseek的项目,有人将其比喻为病毒,而另一些人则认为这种比喻不够恰当。最后,有人分享了体验Deepseek项目的链接,并对性能提升和性能下降进行了权衡。

原文标题:A new, faster DeepSeek R1-0528 variant appears from German lab
原文链接:https://venturebeat.com/ai/holy-smokes-a-new-200-faster-deepseek-r1-0528-variant-appears-from-german-lab-tng-technology-consulting-gmbh/
讨论链接:https://news.ycombinator.com/item?id=44470746