我们在地下室收集了10,000小时的神经语言数据。

Dec 08, 2025     Author:nee1r     HN Points:111     HN Comments:22
Share this

摘要: 本文介绍了如何收集用于训练思想到文本模型的神经语言数据集。作者团队在6个月内收集了约10,000小时的数据,这是世界上最大的神经语言数据集之一。文章详细描述了数据收集过程,包括参与者如何进行,使用的硬件和软件,以及如何进行操作和机器学习。文章还讨论了如何提高数据质量,降低噪声,以及如何扩大规模以收集更多数据。最后,作者分享了他们的经验和见解,并提供了有关如何使用这些数据的更多信息。

讨论: 本文档记录了关于一个数据收集项目的讨论。Nick分享了他是如何从数据参与者转变为项目成员,并介绍了项目从少量到大量数据收集的进展,以及他对数据管道和运营方面的改进。社区成员对此表示了兴趣,并提出了各种反馈和建议,包括对项目规模的猜测、对模型泛化能力的讨论、对硬件和软件问题的评论以及对未来改进的设想。一些成员对项目中未提及的团队和创始人表示好奇,并建议添加“关于我们”页面。

原文标题:We collected 10k hours of neuro-language data in our basement
原文链接:https://condu.it/thought/10k-hours
讨论链接:https://news.ycombinator.com/item?id=46195109