摘要: Andromeda Cluster是一个为初创企业提供的高性能计算集群,拥有15 exaflops的计算能力。集群由400个节点组成,每个节点配备3,200个H100 GPU,通过3.2Tbps的infiniband进行互联。此外,还有54个节点和768个A100 GPU用于训练和推理。集群支持实验、训练运行和推理操作,用户可以排队进行整个集群或部分节点的训练运行,也可以通过SSH登录。数据可以存储在本地NAS上或通过流式传输,无入口/出口费用。价格优惠,没有最小使用时间限制。集群足以在一周内训练65B的Llama模型。集群总重量为4,862公斤(仅计算GPU重量)。该集群由Nat Friedman和Daniel Gross的投资初创公司使用。如需访问,请联系相关人员或登录系统。此外,还运营一个名为gpulist.ai的第三方GPU市场。
讨论: 该内容主要讨论了一个名为集群的系统,包括对其性能、构建、命名、以及与现有技术的比较等方面的讨论。用户们提出了关于集群的图片展示、性能指标、数据中心的定位、管理团队以及与OpenAI集群的比较等问题。同时,还提到了集群的用途和潜在的限制,以及对超级计算机性能评估的新指标建议。
原文标题:Andromeda Cluster: 10 Exaflops* for Startups from Nat Friedman and Daniel Gross
原文链接:https://andromedacluster.com/
讨论链接:https://news.ycombinator.com/item?id=36312385