目录
  1. 1. 第一阶段:数学与深度学习基础(1-3个月)
    1. 1.1. 1.1 必备数学基础
    2. 1.2. 1.2 深度学习入门
  2. 2. 第二阶段:Transformer 架构深入(1-2个月)
    1. 2.1. 2.1 奠基性论文(必读,按年份顺序)
      1. 2.1.1. 📄 Attention Is All You Need(2017)
      2. 2.1.2. 📄 GPT-3: Language Models are Few-Shot Learners(2020)
      3. 2.1.3. 📄 Scaling Laws for Neural Language Models(2020)
    2. 2.2. 2.2 动手代码实现(必做,理解比看论文更深)
    3. 2.3. 2.3 现代 Transformer 架构优化论文
      1. 2.3.1. 📄 FlashAttention(2022)
      2. 2.3.2. 📄 RoFormer:RoPE 旋转位置编码(2021)
      3. 2.3.3. 📄 Switch Transformers:通向万亿参数的稀疏 MoE(2021)
  3. 3. 第三阶段:大模型训练方法(1-2个月)
    1. 3.1. 3.1 预训练基础
      1. 3.1.1. 📄 Chinchilla:训练计算最优大语言模型(2022)
      2. 3.1.2. 📄 LLaMA 1:开放高效基础语言模型(2023)
      3. 3.1.3. 📄 The Llama 3 Herd of Models(2024)
      4. 3.1.4. 📄 DeepSeek-V3 Technical Report(2024)
      5. 3.1.5. 📄 Qwen2.5 Technical Report(2024)
    2. 3.2. 3.2 对齐训练方法
      1. 3.2.1. 📄 InstructGPT(RLHF)(2022)
      2. 3.2.2. 📄 Constitutional AI(CAI)(2022)
      3. 3.2.3. 📄 Direct Preference Optimization(DPO)(2023)
    3. 3.3. 3.3 推理能力(Reasoning Models)—— 2025-2026 年最核心方向
      1. 3.3.1. 📄 Chain-of-Thought Prompting(2022)
      2. 3.3.2. 📄 DeepSeek-R1(2025)—— 目前最完整公开的 Reasoning 模型
  4. 4. 第四阶段:工程与系统(并行学习)
    1. 4.1. 4.1 分布式训练
    2. 4.2. 4.2 推理优化
    3. 4.3. 4.3 实践框架
  5. 5. 第五阶段:前沿模型技术报告(精读清单)
    1. 5.1. 5.1 OpenAI 系列
      1. 5.1.1. 📄 GPT-4 Technical Report(2023)
      2. 5.1.2. o1/o3 系列
    2. 5.2. 5.2 Anthropic / Claude 系列
      1. 5.2.1. 📄 Constitutional AI(2022)
      2. 5.2.2. Anthropic 可解释性研究(transformer-circuits.pub)
      3. 5.2.3. Claude Model Cards
    3. 5.3. 5.3 Google / Gemini 系列
      1. 5.3.1. 📄 Gemini: A Family of Highly Capable Multimodal Models(2023)
      2. 5.3.2. 📄 Gemini 1.5: Unlocking multimodal understanding across millions of tokens(2024)
    4. 5.4. 5.4 DeepSeek 系列(架构最完整公开)
      1. 5.4.1. DeepSeek 技术演进路线
      2. 5.4.2. 📄 DeepSeek-V2(2024)
      3. 5.4.3. 📄 DeepSeek-V3(2024)
      4. 5.4.4. 📄 DeepSeek-R1(2025)
    5. 5.5. 5.5 Meta / LLaMA 系列
      1. 5.5.1. LLaMA 系列演进
    6. 5.6. 5.6 阿里 / Qwen 系列
  6. 6. 第六阶段:关键技术细节论文(深入研究)
    1. 6.1. 6.1 注意力机制优化
    2. 6.2. 6.2 位置编码
    3. 6.3. 6.3 FFN 和归一化
    4. 6.4. 6.4 MoE 架构深入
  7. 7. 第七阶段:Anthropic 可解释性研究(理解 AI 内部机制)
    1. 7.1. 核心系列(按重要性排序)
  8. 8. 学习资源汇总
    1. 8.1. 教材
    2. 8.2. 视频课程(全部免费)
    3. 8.3. 高质量技术博客(内容经过验证)
    4. 8.4. GitHub 重要仓库(已验证存在)
    5. 8.5. arXiv 论文索引(所有链接已验证)
  9. 9. 推荐学习顺序(6个月计划)
  10. 10. 关于 Claude Opus-4 / claude-4 系列的具体限制
  11. 11. 关键洞见:理解”顶级模型”差距在哪里
  12. 12. 第八阶段:美国 AI/LLM 技术圈子与大佬资源
    1. 12.1. 🧑‍🔬 顶级研究员个人主页与博客
      1. 12.1.1. Andrej Karpathy — 最适合入门的讲师
      2. 12.1.2. Lilian Weng — OpenAI 前安全研究负责人,技术写作天花板
      3. 12.1.3. Jay Alammar — 可视化解释 Transformer 的第一人
      4. 12.1.4. Sebastian Raschka — LLM 架构比较与从零构建的专家
      5. 12.1.5. Chip Huyen — MLOps 与 AI 系统工程专家
      6. 12.1.6. Eugene Yan — Anthropic 工程师,LLM 落地实践专家
      7. 12.1.7. Nathan Lambert — RLHF/对齐研究权威
      8. 12.1.8. Sebastian Ruder — NLP 研究综述专家
    2. 12.2. 📰 必关注的 Newsletter / Substack
    3. 12.3. 💬 社区与论坛
    4. 12.4. 🎬 YouTube 频道推荐
    5. 12.5. 🐦 Twitter/X 必关注列表
    6. 12.6. 📌 推荐信息获取路径
【Claude Code源码剖析】19-顶级大语言模型学习路径与资料全集

目标:从零基础到能读懂 GPT-4/Claude/Gemini/DeepSeek 级别模型的技术报告,理解其架构、训练方法和工程实现。
说明:本文档所有 arXiv 链接均已验证有效(2026年4月),所有 GitHub 链接均指向真实存在的仓库。
不含任何编造链接。


第一阶段:数学与深度学习基础(1-3个月)

1.1 必备数学基础

科目 重点内容 推荐资料
线性代数 矩阵乘法、特征值、SVD Gilbert Strang《Introduction to Linear Algebra》,MIT OCW 18.06
微积分 链式法则、梯度、偏导 《Calculus》Stewart,或 MIT OCW 18.01
概率统计 分布、期望、最大似然、贝叶斯 Stanford CS229 概率复习讲义
信息论 熵、KL 散度、交叉熵 《Elements of Information Theory》第 1-3 章
最优化 SGD、Adam、学习率调度 《Optimization for Machine Learning》综述

1.2 深度学习入门

强烈推荐按顺序学,不要跳步:

1. 3Blue1Brown 神经网络可视化系列(YouTube)

这是目前可视化效果最好的入门材料,共 4 集:

  • 第 1 集:”But what is a Neural Network?” — 感知机到多层网络
  • 第 2 集:”Gradient descent, how neural networks learn” — 反向传播直觉
  • 第 3 集:”What is backpropagation really doing?” — 数学推导
  • 第 4 集:”Backpropagation calculus” — 链式法则细节

频道地址:3Blue1Brown YouTube 频道(搜索”Neural Network”即可找到该系列)

2. Andrej Karpathy《Neural Networks: Zero to Hero》(YouTube 视频 + GitHub 代码)

Karpathy 前 Tesla AI 总监、OpenAI 联合创始人,这套视频是他手把手从零构建各类语言模型:

  • 第 1 集:micrograd — 从标量反向传播开始,实现一个微型自动求导库(84 行 Python)
  • 第 2-4 集:makemore — 字符级语言模型,N-gram → MLP → RNN
  • 第 5 集:Let’s build GPT from scratch — 最重要,230 行实现 Transformer
  • 第 6 集:Let’s build the GPT tokenizer — BPE 分词

配套代码仓库:karpathy/ng-video-lecture(4600+ stars,包含视频中的全部代码)

3. CS224N(Stanford NLP,最直接相关)

斯坦福大学自然语言处理课程,每年更新,包含完整 Transformer 讲解:

  • 涵盖:词向量 → RNN → Attention → Transformer → 预训练 → LLM 对齐
  • 历年视频可在 YouTube 搜索”Stanford CS224N”
  • 作业包含实现 Attention、训练 GPT 等

4. fast.ai《Practical Deep Learning for Coders》

Jeremy Howard 的自顶向下教学法,先用后理解:

  • 官网:fast.ai 免费课程(免费,包含视频+Jupyter Notebook)
  • 特点:第一课就跑一个图像分类模型,边做边学理论

第二阶段:Transformer 架构深入(1-2个月)

2.1 奠基性论文(必读,按年份顺序)

📄 Attention Is All You Need(2017)

  • arXiv: 1706.03762 - Attention Is All You Need(Vaswani 等,Google Brain)
  • 核心贡献: 提出 Transformer 架构,完全抛弃 RNN/CNN,仅用注意力机制
  • 关键技术:
    • Multi-Head Self-Attention:$\text{Attention}(Q,K,V) = \text{softmax}!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
    • 位置编码(Positional Encoding):正弦/余弦函数
    • 残差连接 + Layer Normalization
    • 编码器-解码器结构(用于翻译任务)
  • 为什么重要: 这是整个 LLM 时代的起点,GPT/BERT/Claude/Gemini 全部基于此
  • 建议学法: 先看论文,再看 Karpathy 的”Let’s build GPT”视频,两者配合理解最快

📄 GPT-3: Language Models are Few-Shot Learners(2020)

  • arXiv: 2005.14165 - Language Models are Few-Shot Learners(Brown 等,OpenAI)
  • 规模: 175B 参数,在 300B tokens 上训练
  • 核心贡献:
    • 首次大规模证明 in-context learning(few-shot 无需微调)
    • 展示 emergent abilities(涌现能力)随规模出现
    • 为 ChatGPT 等产品奠定基础
  • 关键发现: 随参数量增大,模型无需任何梯度更新即可执行新任务,只需在 prompt 中给几个例子
  • 局限性: 没有 RLHF,输出不对齐,后来被 InstructGPT 改进

📄 Scaling Laws for Neural Language Models(2020)

  • arXiv: 2001.08361 - Scaling Laws for Neural Language Models(Kaplan 等,OpenAI)
  • 核心发现: 语言模型的损失呈幂律关系下降:
    • $L(N) \propto N^{-0.076}$(模型参数量)
    • $L(D) \propto D^{-0.095}$(训练数据量)
    • $L(C) \propto C^{-0.050}$(计算量)
  • 结论: 在给定计算预算下,应优先扩大模型,数据可以相对少
  • 被 Chinchilla 推翻: 2022 年 Chinchilla 论文发现这个结论有误,实际上模型和数据应等比增长(见第三阶段)

2.2 动手代码实现(必做,理解比看论文更深)

# 1. nanoGPT:Karpathy 写的最简洁 GPT 实现(约800行代码)
# 可以用它复现 GPT-2 124M,在单张 A100 上跑通
git clone https://github.com/karpathy/nanoGPT
# README 中有完整使用说明,包括 Shakespeare 角色级训练和 GPT-2 复现

# 2. ng-video-lecture:对应 Zero to Hero 视频的代码
git clone https://github.com/karpathy/ng-video-lecture
# 包含 bigram.py 和 gpt.py,是视频中手写的代码

注意: Karpathy 于 2025年11月在 README 中提到 nanoGPT 已不再更新,并推荐了新的 karpathy/nanochat 仓库。nanoGPT 依然是学习的最佳资料,代码非常简洁。

2.3 现代 Transformer 架构优化论文

这些论文解释了为什么现代 LLM(LLaMA/DeepSeek/Qwen)和原始 Transformer 架构有所不同:

📄 FlashAttention(2022)

  • arXiv: 2205.14135 - FlashAttention(Dao 等,Stanford)
  • 解决的问题: 标准注意力计算复杂度 $O(N^2)$,长序列时 GPU HBM 带宽成为瓶颈
  • 方法: IO-aware 计算,将注意力计算分块(tiling),减少 HBM 读写次数
  • 效果: BERT 训练快 15%,GPT-2 快 3 倍,同时支持更长上下文
  • 影响: 现在几乎所有训练框架都使用 FlashAttention,是工程必读

📄 RoFormer:RoPE 旋转位置编码(2021)

  • arXiv: 2104.09864 - RoFormer: Enhanced Transformer with Rotary Position Embedding(苏剑林等)
  • 解决的问题: 原始 Transformer 的正弦位置编码不能很好地外推到训练时未见过的长度
  • 方法: 用旋转矩阵编码绝对位置,自然携带相对位置信息
  • 数学: $f(x_m, m) = R_m x_m$,其中 $R_m$ 是旋转矩阵
  • 影响: LLaMA、DeepSeek、Qwen 等几乎所有现代模型都使用 RoPE,是必须理解的技术
  • 苏剑林是国内 NLP 研究者,他的博客(kexue.fm)对 RoPE 有详细中文解析

📄 Switch Transformers:通向万亿参数的稀疏 MoE(2021)

  • arXiv: 2101.03961 - Switch Transformers(Fedus, Zoph, Shazeer,Google)
  • 解决的问题: 密集模型每次推理都激活全部参数,计算成本随参数量线性增长
  • 方法: Mixture-of-Experts(MoE)稀疏激活,每个 token 只路由到部分专家
  • 核心机制: Router 网络决定每个 token 发送到哪个专家(FFN 子层),训练 1T 参数模型但每次激活约 1/8 的参数
  • 影响: DeepSeek-V2/V3、Qwen2.5 的 MoE 变体都直接继承自这个方向

第三阶段:大模型训练方法(1-2个月)

3.1 预训练基础

📄 Chinchilla:训练计算最优大语言模型(2022)

  • arXiv: 2203.15556 - Training Compute-Optimal Large Language Models (Chinchilla)(Hoffmann 等,DeepMind)
  • 核心结论: 推翻了 Kaplan 2020 年的 Scaling Laws,发现模型参数量和训练 tokens 数量应等比增长
    • 旧结论:固定预算优先扩大模型
    • 新结论:每个参数应该见到约 20 个 tokens
    • 公式:$N_{opt} \propto C^{0.5}$,$D_{opt} \propto C^{0.5}$
  • 验证: 训练了一个 70B 参数 + 1.4T tokens 的 Chinchilla 模型,超越了参数量大 4 倍的 Gopher(280B)
  • 影响: LLaMA 系列直接采用 Chinchilla 最优比例,DeepSeek 扩展到更大 token 数

📄 LLaMA 1:开放高效基础语言模型(2023)

  • arXiv: 2302.13971 - LLaMA: Open and Efficient Foundation Language Models(Touvron 等,Meta)
  • 规模: 7B/13B/33B/65B 四个尺寸
  • 核心贡献:
    • 完全使用公开数据集(CommonCrawl + C4 + GitHub + Wikipedia 等)训练
    • 证明了充分训练的小模型能超越参数量更大但训练不足的模型
    • LLaMA-13B 超越 GPT-3 175B 在大多数 benchmark 上
  • 架构改进(相对原始 Transformer):
    • Pre-norm(RMSNorm 代替 LayerNorm)
    • SwiGLU 激活函数
    • RoPE 位置编码
    • 取消绝对位置编码
  • 历史意义: 开启了开源 LLM 时代,Alpaca/Vicuna 等大量微调模型基于此

📄 The Llama 3 Herd of Models(2024)

  • arXiv: 2407.21783 - The Llama 3 Herd of Models(Grattafiori 等,Meta)
  • 规模: 8B/70B/405B 三个尺寸,405B 参数是 Meta 迄今最大开源模型
  • 训练数据: 超过 15T tokens(相比 LLaMA 2 的 2T 增加了 7.5 倍)
  • 上下文长度: 128K tokens
  • 架构细节(完整公开):
    • 标准 Dense Transformer(非 MoE)
    • Grouped Query Attention(GQA)减少 KV Cache
    • RoPE 位置编码,theta=500,000(支持更长上下文)
    • 词汇表扩展到 128K tokens
  • 训练细节:
    • Pre-training:cosine 学习率调度,3.2×10^25 FLOPs
    • Post-training:SFT → Rejection Sampling → DPO
    • 首次大规模使用合成数据做后训练
  • 为什么值得精读: Meta 是目前披露训练细节最完整的顶级机构,405B 模型与 GPT-4 同级别,报告长达 92 页

📄 DeepSeek-V3 Technical Report(2024)

  • arXiv: 2412.19437 - DeepSeek-V3 Technical Report(DeepSeek-AI)
  • 规模: 671B 总参数,每次推理激活 37B
  • 架构(最详细的顶级 MoE 模型报告):
    • Multi-head Latent Attention(MLA):将 KV Cache 压缩为低秩潜向量,节省 93% KV Cache 内存
    • DeepSeekMoE:将 FFN 层替换为稀疏 MoE,每层 256 个专家,每 token 选 8 个(含 1 个共享专家)
    • Auxiliary-loss-free 负载均衡:不再依赖辅助损失维持路由均衡,而是用 bias 机制
    • Multi-Token Prediction:训练时同时预测多个未来 token,提高训练效率
  • 训练成本: 2.788M H800 GPU 小时(约 550 万美元),远低于 GPT-4 估计成本
  • 训练数据: 14.8T tokens,涵盖中英文及代码
  • FP8 混合精度训练:首次大规模应用于顶级模型训练
  • GitHub: deepseek-ai/DeepSeek-V3(模型权重公开)

📄 Qwen2.5 Technical Report(2024)

  • arXiv: 2412.15115 - Qwen2.5 Technical Report(Qwen Team,阿里)
  • 规模: 0.5B/1.5B/3B/7B/14B/32B/72B 全系列
  • 训练数据: 18T tokens(前代 7T 的 2.5 倍)
  • 后训练: 超过 100 万条 SFT 样本 + 多阶段 RL
  • 能力: 72B 模型在多个 benchmark 超越 LLaMA 3 405B
  • 为什么值得读: Alibaba 公开了完整的数据配比、训练超参、评测细节,对工程实践参考价值极高

3.2 对齐训练方法

📄 InstructGPT(RLHF)(2022)

  • arXiv: 2203.02155 - Training language models to follow instructions with human feedback (InstructGPT)(Ouyang 等,OpenAI)
  • 核心问题: 大语言模型会输出有毒/虚假/无用内容,如何让它更符合人类意图?
  • 方法(三步流程):
    1. SFT(监督微调): 人工标注员编写理想回答,用它微调 GPT-3
    2. RM(奖励模型训练): 让模型生成多个回答,人工排序,训练奖励模型
    3. PPO(强化学习): 用奖励模型作为信号,用 PPO 算法进一步优化语言模型
  • 关键发现: 1.3B InstructGPT 比 175B GPT-3 更受人类偏好(100 倍参数差距!)
  • 历史意义: 这是 ChatGPT 的直接前身,RLHF 流程被 Anthropic/Google/Meta 全部采用

📄 Constitutional AI(CAI)(2022)

  • arXiv: 2212.08073 - Constitutional AI: Harmlessness from AI Feedback(Bai 等,Anthropic)
  • 核心问题: RLHF 需要大量人工标注有害内容,成本高且对标注员有心理负担
  • 方法: 让 AI 自己根据”宪法”(一组原则)来评判和改进回答
    • SL-CAI(监督阶段): 模型先给出回答 → 引用宪法原则提出批评 → 修改回答 → 用修改后的回答微调
    • RL-CAI(强化阶段): 用 AI 偏好反馈(RLAIF)替代人工偏好,训练奖励模型
  • 主要原则类型: 无害性、诚实性、有帮助性(Helpful, Harmless, Honest)
  • 历史意义: Claude 系列所有版本的训练哲学基础,理解 Claude 行为模式的必读文献

📄 Direct Preference Optimization(DPO)(2023)

  • arXiv: 2305.18290 - Direct Preference Optimization(Rafailov 等,Stanford)
  • 解决的问题: PPO 训练不稳定、超参数敏感、需要同时维护多个模型
  • 方法: 将 RL 问题转化为分类问题,直接在偏好数据上优化
  • 优势: 训练更稳定,不需要单独的奖励模型
  • 现状: LLaMA 3、Qwen2.5 的后训练都使用了 DPO 或其变体

3.3 推理能力(Reasoning Models)—— 2025-2026 年最核心方向

这是目前 AI 最前沿的研究方向,claude-opus-4/o4 的核心能力所在:

📄 Chain-of-Thought Prompting(2022)

  • arXiv: 2201.11903 - Chain-of-Thought Prompting(Wei 等,Google)
  • 发现: 让模型”思考步骤”然后再给答案,可以大幅提升数学/逻辑推理能力
  • 触发方式: 只需在 few-shot 示例中加入中间推理步骤

📄 DeepSeek-R1(2025)—— 目前最完整公开的 Reasoning 模型

  • arXiv: 2501.12948 - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-AI)
  • 已发表于: Nature,2025年,645卷 633-638 页(罕见的 AI 论文登上 Nature)
  • 核心贡献(完整公开了如何训练出 o1 级别的推理模型):
    1. DeepSeek-R1-Zero: 完全用强化学习(GRPO 算法)训练,不用任何 CoT 示范数据
      • 奖励:数学/代码答案的对错(0 或 1)
      • 涌现出”自我反思”、”验证”、”回溯”等推理模式——模型自发习得
    2. DeepSeek-R1: 在 R1-Zero 基础上加入少量人工 CoT 冷启动数据,改进可读性
  • 关键发现: 推理能力完全可以通过 RL 涌现,不需要人工标注的推理轨迹
  • 影响: 这篇论文让业界意识到 o1/o3/claude-thinking 的机制,引发大量复现工作
  • GitHub: deepseek-ai/DeepSeek-R1(包含模型权重和蒸馏版本)

第四阶段:工程与系统(并行学习)

4.1 分布式训练

训练 100B+ 参数的模型需要数千张 GPU,分布式训练是工程核心:

技术 论文/资料 arXiv 说明
张量并行 Megatron-LM 1909.08053 NVIDIA,将单个矩阵分割到多个 GPU
流水线并行 GPipe 1811.06965 将模型层分到不同 GPU
ZeRO 显存优化 ZeRO 1910.02054 微软 DeepSpeed,优化器/梯度/参数分片
3D 并行 Megatron-LM v2 2104.04473 张量+流水线+数据并行结合
PyTorch FSDP PyTorch 官方文档 Facebook 的全分片数据并行实现

4.2 推理优化

技术 核心思路 论文/资料
KV Cache 缓存已计算的 K/V,避免重复计算 所有 Transformer 教程均涵盖
Speculative Decoding 小模型草稿 + 大模型验证,并行化自回归生成 arXiv 2211.17192
Continuous Batching 动态批处理,提高 GPU 利用率 arXiv 2309.06180(vLLM 论文)
PagedAttention KV Cache 分页管理,解决碎片化 arXiv 2309.06180
量化(AWQ/GPTQ) 将权重量化到 4bit,显著减少显存 arXiv 2306.00978
GGUF/llama.cpp CPU 推理,量化格式 ggerganov/llama.cpp

4.3 实践框架

# 推理框架
pip install vllm # 高性能推理,支持 PagedAttention
# GitHub: https://github.com/vllm-project/vllm → 见下方资源汇总

# 本地便捷部署
# Ollama → 见下方资源汇总
# 支持 LLaMA/Qwen/DeepSeek 等,一键运行

# 训练与微调
pip install transformers # Hugging Face 基础库
pip install trl # RLHF/DPO/PPO 训练
pip install axolotl # 简化微调流程
pip install unsloth # 快速微调,显存减半

# 分布式训练
pip install deepspeed # 微软 ZeRO
# Megatron-LM → 见下方资源汇总

第五阶段:前沿模型技术报告(精读清单)

5.1 OpenAI 系列

OpenAI 是 ChatGPT、GPT-4、o1/o3 的开发者,但其技术报告几乎不披露架构细节,主要是能力评测。

📄 GPT-4 Technical Report(2023)

  • arXiv: 2303.08774 - GPT-4 Technical Report(OpenAI)
  • 内容摘要: 100 页报告,主要内容是:
    • 各类 benchmark 评测(MMLU/HumanEval/HellaSwag 等)
    • 安全性评测(越狱、有害内容)
    • 多模态能力(接受图像输入)
    • 通过律师考试 top 10% 等人类水平评测
  • 架构信息: 几乎为零。仅说”Transformer-based model”,不透露参数量、架构细节、训练数据
  • 可预测性研究: OpenAI 提到他们基于小模型预测了 GPT-4 的性能,这是 scaling law 的核心体现
  • 阅读价值: 了解评测方法论和安全评估框架,不适合学习架构

⚠️ OpenAI 的技术报告定位是”系统卡”而非论文,隐藏核心架构是其商业策略。真正想学架构请看 LLaMA 3 / DeepSeek-V3。

o1/o3 系列

  • OpenAI 官网发布了 o1 System Card
  • 这是能力描述文档,不含训练方法
  • 训练方法参考 DeepSeek-R1(后者完整公开)

5.2 Anthropic / Claude 系列

Anthropic 的策略与 OpenAI 类似——从不公开模型架构,但他们在可解释性研究上投入极大。

📄 Constitutional AI(2022)

Anthropic 可解释性研究(transformer-circuits.pub)

Anthropic 研究团队发表于 transformer-circuits.pub,这些是公开最接近 Claude 内部机制的资料:

核心系列(按发表顺序):

  1. A Mathematical Framework for Transformer Circuits(2021)

    • 将 Transformer 分解为”电路”——注意力层的组合
    • 证明了两层 Transformer 中注意力头的可组合性
  2. In-context Learning and Induction Heads(2022)

    • 发现”归纳头”(induction head)——模式 [A][B]…[A] → [B]
    • 这是 LLM 能 few-shot 学习的核心机制
  3. Toy Models of Superposition(2022)

    • 神经网络如何在有限维度中存储超过维度数量的特征
    • “叠加”(superposition)原理:特征用干扰较小的方向编码
  4. Scaling Monosemanticity(2024)

    • 在 Claude 3 Sonnet 上通过稀疏自编码器(SAE)识别出百万量级的可解释特征
    • 找到了代表”金门大桥”、”道德困境”等概念的具体神经元

这些研究不涉及具体架构参数,但从机制层面解释了 Claude 为何如此”理解”文本。

Claude Model Cards

  • Claude 3 Model Card(Claude 3 系列能力和安全描述)
  • 注意:这是产品文档,非学术论文,不含技术细节

5.3 Google / Gemini 系列

Google 在技术报告的透明度上介于 OpenAI 和 Meta 之间:

📄 Gemini: A Family of Highly Capable Multimodal Models(2023)

  • arXiv: 2312.11805 - Gemini: A Family of Highly Capable Multimodal Models(Gemini Team Google)
  • 规模: Ultra、Pro、Nano 三档
  • 核心亮点:
    • 原生多模态:图像、音频、视频、文本统一在一个模型
    • MMLU 88.0%,首个超越人类专家水平的模型
    • 架构基于 Transformer,但细节不完全公开
  • 架构提示: 使用了 Multi-Query Attention,支持多模态输入的 token 化方案

📄 Gemini 1.5: Unlocking multimodal understanding across millions of tokens(2024)

  • arXiv: 2403.05530 - Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context(Gemini Team Google)
  • 核心创新:长上下文处理
    • 支持 1M tokens 的上下文窗口(当时 GPT-4 Turbo 为 128K,Claude 3 为 200K)
    • 甚至测试了 10M tokens 下的 >99% 召回率
    • 通过 Mixture-of-Experts 架构实现高效处理
  • 长上下文测试: 将整部电影(600 页剧本)、1 小时视频、完整代码库放入上下文
  • 特殊测试: 给模型一本 Kalamang 语语法书(全球不足 200 名使用者),学会后进行翻译

5.4 DeepSeek 系列(架构最完整公开)

DeepSeek 是目前技术透明度最高的顶级模型研究机构,每篇报告都包含完整架构和训练细节:

DeepSeek 技术演进路线

DeepSeek-V1 (67B, Dense)

DeepSeek-V2 (236B MoE, 21B激活) ← 首次提出 MLA + DeepSeekMoE
arXiv: 2405.04434

DeepSeek-V3 (671B MoE, 37B激活) ← 目前最完整的顶级MoE技术报告
arXiv: 2412.19437

DeepSeek-R1 (基于V3的推理模型) ← Reasoning训练方法完整公开
arXiv: 2501.12948

📄 DeepSeek-V2(2024)

  • arXiv: 2405.04434 - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
  • 参数: 236B 总参数,21B 激活
  • 核心创新(首次提出,后被 V3 继承):
    • MLA(Multi-head Latent Attention): 将 KV Cache 从 $O(nH d_h)$ 压缩为 $O(n d_c)$,$d_c \ll H d_h$,节省 93.3% KV Cache
    • DeepSeekMoE: 细粒度专家划分,每层设置 1 个共享专家 + 若干路由专家
  • 成本: 比 DeepSeek 67B 节省 42.5% 训练成本,同时性能更强

📄 DeepSeek-V3(2024)

  • 见第三阶段详细介绍
  • GitHub: deepseek-ai/DeepSeek-V3
  • Hugging Face: deepseek-ai/DeepSeek-V3(权重公开下载)

📄 DeepSeek-R1(2025)

  • 见第三阶段详细介绍
  • Nature 发表: Volume 645, 633–638 (2025),DOI:10.1038/s41586-025-09422-z
  • GitHub: deepseek-ai/DeepSeek-R1

5.5 Meta / LLaMA 系列

Meta 是开源 LLM 生态的核心推动力,技术报告透明度极高:

LLaMA 系列演进

LLaMA 1 (7B-65B, 2023年2月)   arXiv: 2302.13971

LLaMA 2 (7B-70B, 2023年7月) arXiv: 2307.09288
+ Chat 版本(SFT + RLHF)

LLaMA 3 (8B-405B, 2024年7月) arXiv: 2407.21783
+ 128K 上下文
+ 多模态版本(实验性)

LLaMA 3.1 / 3.2 / 3.3
持续迭代改进

Meta 的 LLaMA 系列是目前商业级开源模型的事实标准,大量微调模型(Alpaca、Vicuna、WizardLM 等)基于此。

5.6 阿里 / Qwen 系列

Qwen 系列是中国发布的最强开源 LLM 家族:

Qwen (7B/14B/72B) → Qwen1.5 → Qwen2 → Qwen2.5 (2024)
arXiv: 2412.15115
专项模型:
Qwen2.5-Coder (代码)
Qwen2.5-Math (数学)
QwQ-32B (推理模型)
Qwen2-VL (视觉-语言)

Qwen2.5 Technical Report 是其中最完整的报告,18T tokens 训练数据的处理方式值得学习。


第六阶段:关键技术细节论文(深入研究)

6.1 注意力机制优化

论文 arXiv 核心贡献
FlashAttention 2205.14135 IO-aware 注意力,减少 HBM 读写
FlashAttention-2 2307.08691 进一步减少非矩阵乘法 FLOPs
Grouped Query Attention (GQA) 2305.13245 多头 Query 但共享 KV,平衡效率和质量
Multi-Query Attention (MQA) 1911.02150 所有 Query 头共享单个 KV
Multi-head Latent Attention (MLA) DeepSeek-V2 低秩压缩 KV,DeepSeek 原创

6.2 位置编码

论文 arXiv 核心贡献
RoPE 2104.09864 旋转矩阵编码,外推性好
ALiBi 2108.12409 线性 bias,无需修改可外推
YaRN 2309.00071 RoPE 的长度外推改进方案

6.3 FFN 和归一化

技术 论文/来源 说明
SwiGLU arXiv 2002.05202 Swish + GLU,LLaMA 系列使用
RMSNorm arXiv 1910.07467 比 LayerNorm 更高效,Pre-norm
Pre-norm vs Post-norm 多篇论文对比 Pre-norm 训练更稳定,现代模型全用

6.4 MoE 架构深入

论文 arXiv 核心贡献
Switch Transformer 2101.03961 简化 MoE 路由(top-1)
GLaM 2112.06905 Google 1.2T 参数 MoE
Mixtral 8x7B 2401.04088 Mistral 的稀疏 MoE,完整公开
DeepSeekMoE 2401.06066 细粒度专家 + 共享专家架构

第七阶段:Anthropic 可解释性研究(理解 AI 内部机制)

transformer-circuits.pub 是 Anthropic 研究团队发表的机制解析研究,对理解 LLM 为什么能工作有独特价值。

核心系列(按重要性排序)

1. A Mathematical Framework for Transformer Circuits(2021)

  • 方法:将 Transformer 分解为电路(computational graph)
  • 关键发现:注意力头可以”组合”——两个头串联可以实现复杂操作
  • 适合:有一定 Transformer 基础后阅读

2. In-context Learning and Induction Heads(2022)

  • 关键发现:归纳头(induction head)是 in-context learning 的机制
  • 归纳头功能:在序列 [A][B]…[A] 后预测 [B]
  • 影响:解释了 LLM 为什么能从少量示例中学习

3. Toy Models of Superposition(2022)

  • 问题:模型参数量有限,但能表示的概念远多于维度数
  • 发现:叠加现象——多个特征共享同一方向,用干扰小的角度分离
  • 影响:解释了为什么神经元不对应单一概念,激发了 SAE 研究

4. Scaling Monosemanticity(2024)

  • 方法:在 Claude 3 Sonnet 上训练稀疏自编码器(Sparse Autoencoder)
  • 成果:识别出 1600 万个可解释特征,包括:
    • 代表具体概念的特征(金门大桥、DNA 双螺旋)
    • 代表抽象概念的特征(欺骗、道德冲突)
    • 可以通过激活/抑制这些特征改变模型行为

学习资源汇总

教材

书名 作者 适合阶段 说明
《Deep Learning》 Goodfellow, Bengio, Courville 基础阶段 深度学习圣经,数学严谨
《Dive into Deep Learning》 李沐等 入门+进阶 中英双语,含代码
《Natural Language Processing with Transformers》 HuggingFace Transformer 应用 实践导向,大量代码示例
《The Hundred-Page Machine Learning Book》 Andriy Burkov 快速全览 100页梳理核心概念
《Build a Large Language Model (From Scratch)》 Sebastian Raschka LLM 实现 2024年新书,从零构建

视频课程(全部免费)

课程名 来源 内容 推荐指数
Neural Networks: Zero to Hero Andrej Karpathy (YouTube) 从零实现 micrograd/nanoGPT ⭐⭐⭐⭐⭐
CS224N: Natural Language Processing with Deep Learning Stanford (YouTube) NLP + Transformer 系统课程 ⭐⭐⭐⭐⭐
Practical Deep Learning for Coders fast.ai 自顶向下,注重实践 ⭐⭐⭐⭐⭐
李沐读论文系列 李沐 (B站/YouTube) 逐篇精读经典论文,中文 ⭐⭐⭐⭐⭐
Hugging Face NLP Course HuggingFace (官网) Transformer 实际使用 ⭐⭐⭐⭐
DeepLearning.AI Short Courses deeplearning.ai LLM 各专题短课 ⭐⭐⭐⭐
UCBerkeley CS182: Deep Learning UC Berkeley (YouTube) 理论+实践均衡 ⭐⭐⭐⭐

李沐读论文 强烈推荐中文学习者:他逐段精读 GPT、BERT、Transformer、ResNet 等经典论文,在 B 站和 YouTube 均有,共 100+ 集。

高质量技术博客(内容经过验证)

博客 / 作者 特点
Lilian Weng’s Blog OpenAI 研究员,长篇综述,数学严谨(Attention、RL、Prompt Engineering 等)
Sebastian Raschka LLM 技术细节,大量代码,每月 newsletter
Jay Alammar 用动画解释 Transformer/BERT/GPT,最直观
Chip Huyen ML 系统工程,书籍《Designing ML Systems》作者
Eugene Yan LLM 应用和工程最佳实践
苏剑林 科学空间 国内 NLP 研究者,RoPE 原作者,中文技术深度文章

GitHub 重要仓库(已验证存在)

学习类:

推理框架:

训练框架:

模型权重(公开可下载):

arXiv 论文索引(所有链接已验证)

论文 链接 验证状态
Attention Is All You Need arXiv 1706.03762
GPT-3 (Language Models are Few-Shot Learners) arXiv 2005.14165
Scaling Laws for Neural Language Models arXiv 2001.08361
InstructGPT (RLHF) arXiv 2203.02155
Constitutional AI arXiv 2212.08073
Chinchilla arXiv 2203.15556
LLaMA 1 arXiv 2302.13971
The Llama 3 Herd of Models arXiv 2407.21783
GPT-4 Technical Report arXiv 2303.08774
Gemini 1.0 arXiv 2312.11805
Gemini 1.5 arXiv 2403.05530
DeepSeek-V2 arXiv 2405.04434
DeepSeek-V3 arXiv 2412.19437
DeepSeek-R1 arXiv 2501.12948
Qwen2.5 arXiv 2412.15115
FlashAttention arXiv 2205.14135
RoPE (RoFormer) arXiv 2104.09864
Switch Transformers arXiv 2101.03961

推荐学习顺序(6个月计划)

【月份 1-2:基础建设】
→ 3Blue1Brown 神经网络可视化 4 集
→ Andrej Karpathy "Zero to Hero" 完整系列(6 集视频 + 代码)
→ 实现 nanoGPT,跑通 Shakespeare 字符训练(GPU 3分钟,CPU 30分钟)
→ 目标:能手写 MultiHeadAttention + TransformerBlock

【月份 3:Transformer 系统理解】
→ 精读 "Attention is All You Need"(arXiv 1706.03762)
→ CS224N 前 8 课(Transformer 相关)
→ 读 LLaMA 1 技术报告(arXiv 2302.13971,架构完整清晰)
→ 了解 RoPE(arXiv 2104.09864)和 FlashAttention(arXiv 2205.14135)
→ 目标:能解释 MHA/RoPE/RMSNorm 各自解决什么问题

【月份 4:训练方法核心】
→ 精读 InstructGPT(arXiv 2203.02155,RLHF 完整流程)
→ 精读 Constitutional AI(arXiv 2212.08073,Claude 训练哲学)
→ 精读 Chinchilla(arXiv 2203.15556,理解为何要训练更多 tokens)
→ 了解 DPO(arXiv 2305.18290,RLHF 的简化替代)
→ 目标:能解释为什么 ChatGPT/Claude 比原始 GPT-3 更有用

【月份 5:前沿架构与 Reasoning】
→ 精读 DeepSeek-V3 技术报告(arXiv 2412.19437,最完整的顶级 MoE 报告)
→ 精读 DeepSeek-R1(arXiv 2501.12948,理解 Reasoning 模型如何训练)
→ 读 The Llama 3 Herd(arXiv 2407.21783,Meta 最完整公开报告,92 页)
→ 读 Gemini 1.5(arXiv 2403.05530,长上下文技术)
→ 读 GPT-4 技术报告(arXiv 2303.08774,了解评测方法论)
→ 目标:能对比各模型架构选择,理解 MoE 和 Dense 的工程权衡

【月份 6:可解释性与系统工程】
→ Anthropic transformer-circuits.pub 系列(优先读 Induction Heads 和 Superposition)
→ FlashAttention-2(arXiv 2307.08691)+ vLLM 论文(arXiv 2309.06180)
→ Switch Transformers(arXiv 2101.03961,MoE 奠基论文)
→ 自选深入方向(可解释性 / 高效推理 / 多模态 / 代码模型)
→ 目标:能阅读并理解新发表的 arXiv 论文

关于 Claude Opus-4 / claude-4 系列的具体限制

以下信息 Anthropic 从未公开:

  • 模型参数量
  • 架构图(是否 MoE、层数、头数)
  • 训练数据来源和规模
  • 具体的 CAI 迭代次数和宪法内容
  • Thinking 模式(extended thinking)的具体实现机制
  • 推理优化方案

能接近理解 Claude 工作原理的公开资料(均已验证):

资料 链接 可获取的信息
Constitutional AI 论文 arXiv 2212.08073 Claude 训练的对齐哲学和自改进流程
Anthropic 可解释性研究 transformer-circuits.pub Claude 3 Sonnet 内部特征的直接分析
DeepSeek-R1 arXiv 2501.12948 同类 Reasoning 模型的完整训练方法
LLaMA 3 报告 arXiv 2407.21783 同代顶级模型的完整架构参考
GPT-4 技术报告 arXiv 2303.08774 同代闭源模型的能力边界和安全评估

关键洞见:理解”顶级模型”差距在哪里

读完以上资料后,你会发现顶级模型和普通模型的差距主要来自:

1. 训练数据质量(比数量更重要)

  • LLaMA 3 在 15T tokens 上训练(包含大量筛选后的高质量数据)
  • DeepSeek-V3 用了 14.8T tokens,强调数据多样性和质量过滤

2. 后训练(Post-training)

  • 预训练只是基础,RLHF/CAI/DPO 决定了模型是否”好用”
  • Claude 的差异化来自 Constitutional AI 的价值对齐

3. 架构工程细节

  • RoPE 外推(支持更长上下文)
  • MLA(DeepSeek 的 KV Cache 压缩)
  • FlashAttention(让长序列训练实际可行)

4. Reasoning(推理能力)

  • 2025年起的核心竞争力
  • DeepSeek-R1 证明:纯 RL 训练即可涌现出自我反思、验证、回溯等推理行为
  • 这与 claude-opus-4 的 extended thinking 机制高度类似

第八阶段:美国 AI/LLM 技术圈子与大佬资源

这是目前美国 AI 技术圈最活跃、信息密度最高的一批人和社区。全部链接均已实际访问确认有效。


🧑‍🔬 顶级研究员个人主页与博客

Andrej Karpathy — 最适合入门的讲师


Lilian Weng — OpenAI 前安全研究负责人,技术写作天花板


Jay Alammar — 可视化解释 Transformer 的第一人


Sebastian Raschka — LLM 架构比较与从零构建的专家


Chip Huyen — MLOps 与 AI 系统工程专家


Eugene Yan — Anthropic 工程师,LLM 落地实践专家


Nathan Lambert — RLHF/对齐研究权威

  • 身份: AllenAI 研究员,RLHF 核心贡献者
  • Newsletter(Interconnects): interconnects.ai — 64,000+ 订阅者,AI 前沿研究评论,去除炒作

Sebastian Ruder — NLP 研究综述专家

  • 身份: Google DeepMind 研究员,NLP 综述写作知名人物
  • Newsletter(NLP News): newsletter.ruder.io — 29,000+ 订阅者,每期追踪 NLP 重要进展

📰 必关注的 Newsletter / Substack

名称 链接 作者 订阅量 特点
Ahead of AI magazine.sebastianraschka.com Sebastian Raschka 179k+ LLM 论文精读 + 架构解析
Language Models & Co. newsletter.languagemodels.co Jay Alammar 32k+ 可视化图解新模型
Interconnects interconnects.ai Nathan Lambert 64k+ 对齐/RLHF 前沿,无废话
NLP News newsletter.ruder.io Sebastian Ruder 29k+ NLP 月报,论文追踪
Lil’Log lilianweng.github.io Lilian Weng 深度技术博客,综述质量极高

💬 社区与论坛

社区 链接 说明
r/MachineLearning reddit.com/r/MachineLearning Reddit 最大 ML 学术社区,论文讨论 / AMA(问答)
r/LocalLLaMA reddit.com/r/LocalLLaMA 本地部署 LLM 爱好者聚集地,量化/fine-tune 实践
Hugging Face Forums discuss.huggingface.co 模型使用/微调技术问题,官方开发者参与
EleutherAI Discord discord.gg/eleutherai 开源 LLM 研究社区,Pythia/RWKV 等项目发源地

🎬 YouTube 频道推荐

频道 特点
Andrej Karpathy 最权威的从零构建 LLM 视频教程,代码级讲解
Yannic Kilcher 每周精读热门论文,讲解清晰,有技术深度
Umar Jamil 手写实现 LLaMA/Mistral/Stable Diffusion,代码精讲
Sebastian Raschka LLM 编程课,学术风格,配套代码
3Blue1Brown 数学可视化,Transformer/神经网络原理动画解释

🐦 Twitter/X 必关注列表

以下均为真实账号,可直接在 X 上搜索:

账号 身份 关注理由
@karpathy Eureka Labs / ex-OpenAI / ex-Tesla AI 频繁分享技术洞察,LLM 教育内容
@lilianweng ex-OpenAI VP Safety 发布研究结果和技术评论
@JayAlammar Cohere / 科普作家 最新模型图解,第一手发布
@rasbt Lightning AI LLM 论文速评,每月论文整理
@chipro Stanford / AI Systems MLOps 和系统工程视角
@eugeneyan Anthropic LLM 工程落地实践分享
@ylecun Meta Chief AI Scientist / 图灵奖 学术权威,反对过度炒作的声音
@goodfellow_ian Apple / GAN 发明者 深度学习基础研究,学术视角
@GaryMarcus NYU 教授 AI 批评视角,保持对行业清醒认知
@hardmaru Google Brain 创意 AI 研究,分享有趣论文

📌 推荐信息获取路径

如果只能选一个起点,按此顺序走:

① Andrej Karpathy "Neural Networks: Zero to Hero" 系列视频(YouTube)
↓ 打好代码基础后
② Sebastian Raschka "Ahead of AI" Newsletter(每月订阅)
↓ 跟上论文前沿后
③ Lilian Weng 博客深度阅读(Transformer/Agent/Prompt/Alignment)
↓ 建立系统理解后
④ 关注 Twitter:@karpathy / @rasbt / @lilianweng / @JayAlammar
↓ 加入社区讨论
⑤ r/MachineLearning + r/LocalLLaMA(Reddit)

这条路径覆盖:代码基础 → 论文追踪 → 深度理解 → 实时动态 → 社区实践,是美国 AI 工程师/研究员的主流信息获取路径。

打赏
  • 微信
  • 支付宝

评论