构建堆栈:为预训练而排列30个PB的硬盘

Oct 01, 2025     Author:nee1r     HN Points:392     HN Comments:54
Share this

摘要: 本文介绍了如何通过自建数据中心存储大量视频数据,以降低成本并满足机器学习训练需求。文章详细描述了选择自建数据中心的原因、成本计算、硬件选择、网络搭建和数据存储软件等关键步骤。与云服务相比,自建数据中心在存储成本方面具有显著优势,同时文章也分享了在建设过程中遇到的挑战和经验教训。

讨论: 本文档总结了关于Discord存储和数据中心运营的一些讨论。内容包括对Discord如何存储和管理数万亿条消息的探讨,以及团队成员如何通过监控系统性能来观看足球比赛。此外,还讨论了数据中心的建设、存储设备的选择、成本效益分析以及与其他云服务提供商的比较。一些评论者提出了关于存储设备配置、数据传输、成本谈判和磁盘故障率的问题。

原文标题:Building the heap: racking 30 petabytes of hard drives for pretraining
原文链接:https://si.inc/posts/the-heap/
讨论链接:https://news.ycombinator.com/item?id=45438496