我们在地下室收集了10,000小时的神经语言数据。

摘要： 本文介绍了如何收集用于训练思想到文本模型的神经语言数据集。作者团队在6个月内收集了约10,000小时的数据，这是世界上最大的神经语言数据集之一。文章详细描述了数据收集过程，包括参与者如何进行，使用的硬件和软件，以及如何进行操作和机器学习。文章还讨论了如何提高数据质量，降低噪声，以及如何扩大规模以收集更多数据。最后，作者分享了他们的经验和见解，并提供了有关如何使用这些数据的更多信息。

讨论： 本文档记录了关于一个数据收集项目的讨论。Nick分享了他是如何从数据参与者转变为项目成员，并介绍了项目从少量到大量数据收集的进展，以及他对数据管道和运营方面的改进。社区成员对此表示了兴趣，并提出了各种反馈和建议，包括对项目规模的猜测、对模型泛化能力的讨论、对硬件和软件问题的评论以及对未来改进的设想。一些成员对项目中未提及的团队和创始人表示好奇，并建议添加“关于我们”页面。

原文标题：We collected 10k hours of neuro-language data in our basement
原文链接：https://condu.it/thought/10k-hours
讨论链接：https://news.ycombinator.com/item?id=46195109