大模型学习路线

这部分是一个「能落地」的大模型学习路线：先建立直觉，再补齐工程实践，最后补齐评测与上线。

你将学到什么

大模型（LLM）的核心机制：Transformer、注意力、Token、上下文窗口
Prompt 设计与常见范式（Few-shot / CoT / ReAct / Tool calling）
RAG（检索增强生成）：切分、向量化、召回、重排、引用
微调与对齐：SFT、LoRA、偏好优化（RLHF/DPO 的概念）
评测：离线指标 + 人评 + 线上 A/B
上线：推理性能、缓存、限流、观测、成本控制

整体架构

┌─────────────────────────────────────────────────────────────────────┐
│                    研究/开发者                                  │
└────────────────────┬──────────────────────────────────────────────────┘
                     │
                     ▼
┌───────────────────────────────────────────────────────────────────┐
│                      1. 训练阶段                         │
│                                                              │
│  ┌────────────────┬────────────────┬───────────────────────┐  │
│  │    PyTorch     │   TensorFlow   │      JAX          │  │
│  │    (Meta)       │   (Google)    │     (DeepMind)    │  │
│  │                 │                │                     │  │
│  └─────────┬───────┴────────────────┴───────────┬───────┘  │
│            ▼                               ▼            │          │
│  ┌─────────────────────────────────────────────────┐          │
│  │      Transformers (Python) 训练/微调工具     │          │
│  └─────────────────┬───────────────────────────────┘          │
│                    ▼                                │          │
│  ┌───────────────────────────────────────────────┐          │
│  │      训练得到模型文件                      │          │
│  │      (.pth / .bin / .safetensors)       │          │
│  └────────────────────┬─────────────────────────────┘          │
└─────────────────────────┼───────────────────────────────────────────────┘
                      │
                      ▼
┌───────────────────────────────────────────────────────────────────┐
│                      2. 模型转换/导出                     │
│                                                              │
│  ┌─────────────────────────────────────┬────────────────────┐ │
│  │   直接使用 PyTorch 格式       │   导出 ONNX 格式   │ │
│  │   （服务器端推理）              │   （浏览器端推理）   │ │
│  └─────────┬──────────────────────────┴──────┬───────────┘ │
│            ▼                              ▼            │
│  ┌──────────────────────┐   ┌──────────────────────┐  │
│  │  .pt/.pth 文件     │   │  .onnx 文件      │  │
│  └─────────┬──────────────┘   └─────────┬──────────────┘  │
│            ▼                              ▼            │
│       ┌─────────────────────────────────────────┐         │
│       │   上传到 Hugging Face Hub         │         │
│       │   （模型仓库）                    │         │
│       └─────────────────┬───────────────────────┘         │
└─────────────────────────┼───────────────────────────────────────┘
                      │
                      ▼
┌───────────────────────────────────────────────────────────────────┐
│                      3. 部署阶段                              │
│                                                              │
│  ┌─────────────────────────────────────────────────────────────┐    │
│  │                  推理环境选择                       │    │
│  └──────────────┬───────────────────────────────────────┬───┘    │
│                 ▼                               ▼        │    │
│  ┌──────────────────┐                 ┌──────────────────┐    │
│  │   服务器端部署     │                 │  浏览器端部署    │    │
│  │   （生产环境）     │                 │  （客户端/边缘）   │    │
│  └─────────┬──────────┘                 └─────────┬──────────┘    │
│             ▼                                     ▼           │
│  ┌─────────────────────────────┐   ┌───────────────────────────┐   │
│  │   Transformers + PyTorch  │   │  Transformers.js + ONNX  │   │
│  │   （或 vLLM 加速）      │   │   （或 WebGPU 加速）     │   │
│  └─────────┬──────────────────┘   └─────────┬───────────────────┘   │
│             ▼                                 │           │
│    ┌────────────────────────────────────┐           │           │
│    │  可选：vLLM 性能优化层        │           │
│    │  - PagedAttention                 │           │
│    │  - 连续批处理                   │           │
│    │  - 多 GPU 并行                   │           │
│    │  - CUDA Graph 编译               │           │
│    └─────────┬──────────────────────────────┘           │
│               ▼                                │
│  ┌───────────────────────────────────────────────────────┐  │
│  │              推理引擎                  │  │
│  └───────────────────────────────────┬───────────────┘  │
│                                  │              │        │
│                                  ▼              │        │
│         ┌──────────────────────┬───────────────────┐        │
│         │  API 服务端       │  浏览器应用     │        │
│         │  (HTTP/gRPC)     │  (React/Vue)    │        │
│         └──────────┬───────────┘   └─────────┬───────────┘        │
└─────────────────────────┼──────────────────┼──────────────────────────────┘
                      │              │
                      ▼              ▼
┌─────────────────────────────────┐  ┌───────────────────────────┐
│      用户/企业调用           │  │   用户浏览器访问          │
└─────────────────────────────────┘  └───────────────────────────┘

大模型学习路线

你将学到什么

整体架构

目录

第零阶段：环境准备（建议 15-60 分钟）

第一阶段：基础概念（建议 1-3 天）

第二阶段：Prompt 工程（建议 3-7 天）

第三阶段：RAG（建议 1-2 周）

第四阶段：微调与对齐（建议 1-2 周）

第五阶段：评测与上线（建议 1-2 周）

第六阶段：安全与合规（持续）

推荐学习方式

大模型学习路线 ​

你将学到什么 ​

整体架构 ​

目录 ​

第零阶段：环境准备（建议 15-60 分钟） ​

第一阶段：基础概念（建议 1-3 天） ​

第二阶段：Prompt 工程（建议 3-7 天） ​

第三阶段：RAG（建议 1-2 周） ​

第四阶段：微调与对齐（建议 1-2 周） ​

第五阶段：评测与上线（建议 1-2 周） ​

第六阶段：安全与合规（持续） ​

推荐学习方式 ​

大模型学习路线

你将学到什么

整体架构

目录

第零阶段：环境准备（建议 15-60 分钟）

第一阶段：基础概念（建议 1-3 天）

第二阶段：Prompt 工程（建议 3-7 天）

第三阶段：RAG（建议 1-2 周）

第四阶段：微调与对齐（建议 1-2 周）

第五阶段：评测与上线（建议 1-2 周）

第六阶段：安全与合规（持续）

推荐学习方式