摘要: 本课程《从零开始构建 DeepSeek 模型》介绍了如何构建 DeepSeek 模型,这是一种具有创新性的大型语言模型(LLM)。课程内容包括实现 DeepSeek 的核心架构创新,如多头潜在注意力(MLA)和专家混合层(MoE),构建高效的生产级训练流程,以及应用并行化策略等。此外,课程还涵盖了模型压缩、蒸馏和推理能力的提升。通过学习本课程,学员可以掌握 DeepSeek 模型的构建方法,并了解其在 LLM 领域的创新点。
讨论:
原文标题:Build a DeepSeek model from scratch
原文链接:https://www.manning.com/books/build-a-deepseek-model-from-scratch
讨论链接:https://news.ycombinator.com/item?id=45955817