外观
大模型学习路线
这部分是一个「能落地」的大模型学习路线:先建立直觉,再补齐工程实践,最后补齐评测与上线。
你将学到什么
- 大模型(LLM)的核心机制:Transformer、注意力、Token、上下文窗口
- Prompt 设计与常见范式(Few-shot / CoT / ReAct / Tool calling)
- RAG(检索增强生成):切分、向量化、召回、重排、引用
- 微调与对齐:SFT、LoRA、偏好优化(RLHF/DPO 的概念)
- 评测:离线指标 + 人评 + 线上 A/B
- 上线:推理性能、缓存、限流、观测、成本控制
整体架构
┌─────────────────────────────────────────────────────────────────────┐
│ 研究/开发者 │
└────────────────────┬──────────────────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────┐
│ 1. 训练阶段 │
│ │
│ ┌────────────────┬────────────────┬───────────────────────┐ │
│ │ PyTorch │ TensorFlow │ JAX │ │
│ │ (Meta) │ (Google) │ (DeepMind) │ │
│ │ │ │ │ │
│ └─────────┬───────┴────────────────┴───────────┬───────┘ │
│ ▼ ▼ │ │
│ ┌─────────────────────────────────────────────────┐ │
│ │ Transformers (Python) 训练/微调工具 │ │
│ └─────────────────┬───────────────────────────────┘ │
│ ▼ │ │
│ ┌───────────────────────────────────────────────┐ │
│ │ 训练得到模型文件 │ │
│ │ (.pth / .bin / .safetensors) │ │
│ └────────────────────┬─────────────────────────────┘ │
└─────────────────────────┼───────────────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────┐
│ 2. 模型转换/导出 │
│ │
│ ┌─────────────────────────────────────┬────────────────────┐ │
│ │ 直接使用 PyTorch 格式 │ 导出 ONNX 格式 │ │
│ │ (服务器端推理) │ (浏览器端推理) │ │
│ └─────────┬──────────────────────────┴──────┬───────────┘ │
│ ▼ ▼ │
│ ┌──────────────────────┐ ┌──────────────────────┐ │
│ │ .pt/.pth 文件 │ │ .onnx 文件 │ │
│ └─────────┬──────────────┘ └─────────┬──────────────┘ │
│ ▼ ▼ │
│ ┌─────────────────────────────────────────┐ │
│ │ 上传到 Hugging Face Hub │ │
│ │ (模型仓库) │ │
│ └─────────────────┬───────────────────────┘ │
└─────────────────────────┼───────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────┐
│ 3. 部署阶段 │
│ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 推理环境选择 │ │
│ └──────────────┬───────────────────────────────────────┬───┘ │
│ ▼ ▼ │ │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ 服务器端部署 │ │ 浏览器端部署 │ │
│ │ (生产环境) │ │ (客户端/边缘) │ │
│ └─────────┬──────────┘ └─────────┬──────────┘ │
│ ▼ ▼ │
│ ┌─────────────────────────────┐ ┌───────────────────────────┐ │
│ │ Transformers + PyTorch │ │ Transformers.js + ONNX │ │
│ │ (或 vLLM 加速) │ │ (或 WebGPU 加速) │ │
│ └─────────┬──────────────────┘ └─────────┬───────────────────┘ │
│ ▼ │ │
│ ┌────────────────────────────────────┐ │ │
│ │ 可选:vLLM 性能优化层 │ │
│ │ - PagedAttention │ │
│ │ - 连续批处理 │ │
│ │ - 多 GPU 并行 │ │
│ │ - CUDA Graph 编译 │ │
│ └─────────┬──────────────────────────────┘ │
│ ▼ │
│ ┌───────────────────────────────────────────────────────┐ │
│ │ 推理引擎 │ │
│ └───────────────────────────────────┬───────────────┘ │
│ │ │ │
│ ▼ │ │
│ ┌──────────────────────┬───────────────────┐ │
│ │ API 服务端 │ 浏览器应用 │ │
│ │ (HTTP/gRPC) │ (React/Vue) │ │
│ └──────────┬───────────┘ └─────────┬───────────┘ │
└─────────────────────────┼──────────────────┼──────────────────────────────┘
│ │
▼ ▼
┌─────────────────────────────────┐ ┌───────────────────────────┐
│ 用户/企业调用 │ │ 用户浏览器访问 │
└─────────────────────────────────┘ └───────────────────────────┘目录
第零阶段:环境准备(建议 15-60 分钟)
第一阶段:基础概念(建议 1-3 天)
第二阶段:Prompt 工程(建议 3-7 天)
第三阶段:RAG(建议 1-2 周)
建议先跑通 RAG 章节里的“最小 Demo”,再继续做优化。
第四阶段:微调与对齐(建议 1-2 周)
RTX 3050 建议优先:小模型(0.5B~1.5B)+ LoRA/QLoRA,先跑通再追求更大模型。
第五阶段:评测与上线(建议 1-2 周)
建议先做 20 条 JSONL 离线评测集 + 一键 runner,再谈上线优化。
第六阶段:安全与合规(持续)
上线前建议做一组“提示注入回归用例”,每次改 prompt/检索策略都要跑。
推荐学习方式
- 先做一个小 Demo:一个带 RAG 的问答页面(哪怕只有命令行)。
- 只跟踪 2-3 个指标:回答是否引用到来源、平均延迟、单位成本。
- 写“失败案例”笔记:大模型工程最值钱的是失败集合。
