AI测试架构知识库AI测试架构知识库
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
  • AI安全

    • AI 安全与对齐
    • 对齐评估
    • 内容安全
    • 隐私保护
    • 红队测试

🔒 AI 安全与对齐

核心目标:构建 AI 系统的安全防线,包括对抗攻击检测、内容安全过滤、隐私保护、对齐评估等全栈技术。

📋 目录

  • 红队测试 — 越狱攻击、提示注入、数据泄露
  • 内容安全 — 有害内容检测、偏见评估、事实核查
  • 隐私保护 — 差分隐私、联邦学习、安全推理
  • 对齐评估 — 对齐度量、人类偏好一致性、红队基准

🎯 概述

AI 安全是确保大模型在开放场景中安全、可靠、可控运行的关键技术栈:

安全威胁地图

威胁类型攻击面影响
提示注入用户输入绕过安全限制
越狱攻击对话交互输出有害内容
数据泄露模型参数/推理训练数据泄露
偏见输出模型生成歧视性内容
幻觉输出模型生成虚假信息传播
模型窃取API 接口知识产权损失

⚡ 关键技术栈

输入侧安全

  • 输入过滤:恶意内容检测、Prompt 注入检测
  • 对抗鲁棒性:对抗样本训练、输入验证
  • 权限控制:基于角色的访问控制、工具调用权限

输出侧安全

  • 内容过滤:分类模型实时过滤有害输出
  • 事实核查:RAG + 事实知识库验证
  • 偏见审计:公平性度量 + 偏见缓解

训练侧安全

  • 安全微调:Safety SFT / Safety DPO
  • 红队对抗:对抗数据增强训练
  • 宪法 AI:基于原则的自我约束

运行时安全

  • 实时监测:推理时异常检测
  • 速率限制:API 调用频率控制
  • 审计日志:完整操作可追溯

🔗 相关主题

  • 模型训练/对齐 — 对齐算法技术细节
  • 架构设计/质量平台 — 安全质量保障体系
  • Agent 架构 — Agent 安全边界设计

📚 延伸阅读

  • SPIRED: Safety Evaluation
  • TrojanLMS — 安全分析
  • Privacy in LLMs — 隐私综述
在线编辑文档
上次更新: 2026/4/28 17:49
贡献者: colewort
Next
对齐评估