安德里亚德集群：Nat Friedman和Daniel Gross为初创公司提供10 Exaflops*的计算能力

摘要： Andromeda Cluster是一个为初创企业提供的高性能计算集群，拥有15 exaflops的计算能力。集群由400个节点组成，每个节点配备3,200个H100 GPU，通过3.2Tbps的infiniband进行互联。此外，还有54个节点和768个A100 GPU用于训练和推理。集群支持实验、训练运行和推理操作，用户可以排队进行整个集群或部分节点的训练运行，也可以通过SSH登录。数据可以存储在本地NAS上或通过流式传输，无入口/出口费用。价格优惠，没有最小使用时间限制。集群足以在一周内训练65B的Llama模型。集群总重量为4,862公斤（仅计算GPU重量）。该集群由Nat Friedman和Daniel Gross的投资初创公司使用。如需访问，请联系相关人员或登录系统。此外，还运营一个名为gpulist.ai的第三方GPU市场。

讨论： 该内容主要讨论了一个名为集群的系统，包括对其性能、构建、命名、以及与现有技术的比较等方面的讨论。用户们提出了关于集群的图片展示、性能指标、数据中心的定位、管理团队以及与OpenAI集群的比较等问题。同时，还提到了集群的用途和潜在的限制，以及对超级计算机性能评估的新指标建议。

原文标题：Andromeda Cluster: 10 Exaflops* for Startups from Nat Friedman and Daniel Gross
原文链接：https://andromedacluster.com/
讨论链接：https://news.ycombinator.com/item?id=36312385