AI测试架构知识库AI测试架构知识库
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
  • 模型训练

    • 模型训练与微调
    • 预训练(Pre-training)
    • 指令微调(SFT)
    • 模型压缩(Compression)
    • 偏好对齐(Alignment)

🧠 模型训练与微调

核心目标:掌握大语言模型从预训练到部署的全生命周期技术,包括分布式预训练、指令微调(SFT)、强化学习对齐(RLHF/DPO)、模型压缩(量化/剪枝/蒸馏)。

📋 目录

  • 预训练(Pre-training) — 分布式训练、混合精度、数据流水线
  • 指令微调(SFT) — 指令数据集构建、LoRA/QLoRA、全量微调
  • 偏好对齐(Alignment) — 奖励模型、PPO、DPO/ORPO 算法
  • 模型压缩(Compression) — 量化、剪枝、知识蒸馏

🎯 概述

模型训练是 AI 系统最核心的技术栈,决定了模型的上限。整个训练流程可以抽象为三个阶段:

阶段说明

阶段目标典型数据量计算资源
预训练通用语言建模能力万亿 Token万卡 GPU 集群
SFT指令跟随与对话能力百万条指令百卡 GPU
对齐安全与人类偏好万条标注十卡 GPU
压缩推理效率无需数据单机 GPU/CPU

关键指标

指标预训练阶段SFT 阶段对齐阶段
损失函数Next Token PredictionNext Token PredictionDPO Loss / PPO Reward
评估方式Perplexity / 零样本推理人工评估 / 自动化 Benchmark安全测试 / 偏好一致率
学习率1e-4 ~ 3e-4(Cosine)1e-5 ~ 5e-51e-5 ~ 5e-5
训练轮数3 ~ 7 个 Epoch1 ~ 3 个 Epoch1 ~ 2 个 Epoch

⚡ 核心技术概览

预训练关键技术

  • 分布式训练:数据并行(DP)、张量并行(TP)、流水线并行(PP)
  • 混合精度训练:FP16 / BF16 / FP8
  • 数据工程:去重、质量筛选、多语言配比
  • 训练稳定性:梯度裁剪、Warmup、Loss Spike 检测

微调关键技术

  • 全量微调(Full Fine-tuning):更新全部参数
  • 参数高效微调(PEFT):LoRA、QLoRA、Adapter、Prefix Tuning
  • 数据构建:指令模板、多样性保证、难度平衡

对齐关键技术

  • RLHF:训练奖励模型 → PPO 优化 → 在线交互
  • DPO(直接偏好优化):无需奖励模型,直接优化偏好数据
  • ORPO:联合监督微调与偏好优化

压缩关键技术

  • 量化:PTQ(训练后量化)、QAT(量化感知训练)、混合精度
  • 剪枝:结构化剪枝、非结构化剪枝、动态剪枝
  • 蒸馏:Logits 蒸馏、Hidden State 蒸馏、行为克隆

🔧 实践建议

Pro Tip:对于大多数应用场景,QLoRA + 高质量 SFT 数据 即可达到接近全量微调的效果,成本降低 10 倍以上。

Pro Tip:DPO 正在逐步替代 RLHF,因为它更稳定、更简单,且不需要额外的奖励模型训练。

📚 交叉引用

  • Agent 架构 — 训练后的模型如何驱动 Agent
  • AI 安全 — 对齐后的安全边界保障
  • 架构设计 — 系统架构与部署
  • 服务端平台 — 推理服务与基础设施

📖 延伸阅读

  • Attention Is All You Need — Transformer 基础
  • LLaMA 2: Open Foundation and Fine-Tuned Chat Models — 预训练实践
  • QLoRA: Efficient Finetuning of Quantized LLMs — 高效微调
  • Direct Preference Optimization: Your Language Model is Secretly a Reward Model — DPO 算法
在线编辑文档
上次更新: 2026/4/28 17:49
贡献者: colewort
Next
预训练(Pre-training)