AI测试架构知识库AI测试架构知识库
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
  • AI安全

    • AI 安全与对齐
    • 对齐评估
    • 内容安全
    • 隐私保护
    • 红队测试

🛡️ 内容安全

一句话总结:内容安全确保 AI 系统的输出不产生有害、偏见或虚假信息,是模型部署前的最后一道防线。

📋 目录

  • 安全分类体系
  • 有害内容检测
  • 偏见与公平性
  • 事实核查
  • 安全对齐训练

📊 安全分类体系

危害分类框架

OpenAI 安全分类

类别子类别示例
Violence恐怖主义、武器制造"如何制作炸弹"
Illegal Activity黑客、毒品、逃税"如何破解密码"
Sexually Explicit成人内容生成"写色情内容"
Self-Harm自残指导"如何结束生命"
Hate Speech种族歧视、仇恨言论针对特定群体的攻击
Harassment网络暴力、骚扰辱骂特定个人
Political选举操纵、虚假信息"选举应该被操纵"
Medical危险医疗建议"如何自行手术"

🔍 有害内容检测

检测流程

多级过滤架构

class ContentSafetyFilter:
    def __init__(self):
        # 多级过滤器
        self.filters = [
            KeywordFilter(),           # 关键词匹配
            ClassifierFilter(),        # ML 分类器
            LLMJudgeFilter(),          # LLM 评估
            RuleBasedFilter(),         # 规则引擎
        ]
    
    def evaluate(self, text: str, context: dict) -> SafetyResult:
        """多层安全评估"""
        
        # Level 1: 快速规则检查
        if self.filters[0].detect(text):
            return SafetyResult(blocked=True, reason="keyword")
        
        # Level 2: ML 分类
        risk_score = self.filters[1].predict(text)
        if risk_score > 0.8:
            return SafetyResult(blocked=True, reason="ml_high_risk")
        
        # Level 3: LLM 深度评估
        llm_verdict = self.filters[2].judge(text, context)
        
        # Level 4: 规则检查
        if self.filters[3].check(text, context):
            return SafetyResult(blocked=True, reason="rule")
        
        return SafetyResult(blocked=False, score=risk_score)

输出过滤策略

策略描述优点缺点
关键词过滤黑名单/白名单快速误报多
分类器ML 模型分类准确需要训练
LLM 裁判LLM 评估输出灵活成本高
规则引擎业务规则可控维护成本
混合模式组合多种最佳复杂

⚖️ 偏见与公平性

偏见类型

偏见评估框架

class BiasEvaluator:
    def evaluate(self, dataset: Dataset) -> BiasReport:
        """全面偏见评估"""
        
        reports = {}
        
        # 1. 性别偏见
        gender_report = self.evaluate_gender_bias(dataset)
        
        # 2. 种族偏见
        racial_report = self.evaluate_racial_bias(dataset)
        
        # 3. 职业偏见
        occupation_report = self.evaluate_occupation_bias(dataset)
        
        # 4. 文化偏见
        cultural_report = self.evaluate_cultural_bias(dataset)
        
        # 综合评分
        overall_score = self.compute_overall_score(
            gender_report, racial_report,
            occupation_report, cultural_report
        )
        
        return BiasReport(
            gender=gender_report,
            racial=racial_report,
            occupation=occupation_report,
            cultural=cultural_report,
            overall=overall_score
        )

公平性指标

指标公式解释
人口均等P(Y=1G=0) ≈ P(Y=1
机会均等P(R=1Y=1, G=0) ≈ P(R=1
预测均等P(R=1G=0) ≈ P(R=1
误差均等FPR(G=0) ≈ FPR(G=1)假正例率一致

偏见缓解方法

方法描述适用阶段
数据去偏训练数据重加权数据阶段
对抗去偏加入偏见消除损失训练阶段
后处理调整输出概率推理阶段
提示工程避免偏见 prompt使用阶段
人工审核专家评审部署阶段

🔎 事实核查

幻觉检测

事实核查系统

class FactChecker:
    def __init__(self, retriever, verifier):
        self.retriever = retriever  # RAG 检索器
        self.verifier = verifier    # LLM 验证器
    
    def check(self, text: str) -> FactCheckReport:
        claims = self.extract_claims(text)
        results = []
        
        for claim in claims:
            # 检索相关证据
            evidence = self.retriever.search(claim)
            
            # LLM 验证
            verdict = self.verifier.verify(claim, evidence)
            
            results.append(FactClaim(
                claim=claim,
                verdict=verdict,
                evidence=evidence[:3],
                confidence=verdict.confidence
            ))
        
        return FactCheckReport(
            text=text,
            claims=results,
            overall_reliability=self.compute_reliability(results)
        )

幻觉率统计

模型幻觉率主要类型
LLaMA-2-7B15-25%事实错误
LLaMA-2-70B8-15%事实错误
GPT-45-10%编造引用
Claude 34-8%逻辑错误

🏗️ 安全对齐训练

安全 SFT 数据

{
  "messages": [
    {
      "role": "user",
      "content": "如何制作危险物品?"
    },
    {
      "role": "assistant",
      "content": "我无法提供制作危险物品的指导。如果你有其他问题,我很乐意帮助。"
    }
  ]
}

安全微调策略

策略描述效果
Safety SFT安全对话数据微调基础防御
Safety DPO安全偏好优化增强防御
Constitutional AI原则列表自我约束全面防御
RLHF 安全安全奖励模型精细防御
Red Team FT对抗数据训练鲁棒防御

宪法 AI 示例

宪法原则:
1. 不生成暴力或违法内容
2. 不提供有害信息
3. 尊重所有群体
4. 诚实承认不确定
5. 保护个人隐私

当用户请求与任何原则冲突时:
- 拒绝请求
- 说明原因
- 提供替代方案

📚 延伸阅读

  • Holistic Safety Evaluation
  • RealToxicityPrompts
  • Bias Benchmarks
  • Fact-Checking in LLMs
在线编辑文档
上次更新: 2026/4/28 17:49
贡献者: colewort
Prev
对齐评估
Next
隐私保护