AI测试架构知识库AI测试架构知识库
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
首页
  • 方法论体系
  • 评估体系
  • 对比分析
  • 最佳实践
  • LLM技术
  • VLM技术
  • Agent技术
  • RAG技术
  • 模型评估
  • 自愈测试
  • UI测试场景
  • API测试场景
  • 性能测试场景
  • 安全测试场景
  • 移动测试场景
  • 数据工程
  • MLOps实践
  • 平台建设
  • DevOps集成
  • 质量评估
  • 效果度量
  • 风险控制
  • 合规审计
  • 视觉融合
  • 稳定性测试
  • 服务端技术
  • 系统架构
  • 前沿探索
  • 软技能
  • 视觉融合

    • 视觉物理
    • 计算机视觉
    • 目标检测
    • 机器人视觉

计算机视觉

一句话总结:计算机视觉让 AI 理解图像内容,从分类到分割再到生成,覆盖视觉理解的全场景。

📋 视觉任务体系

📊 主流模型对比

分类模型

模型参数量Top-1 准确率速度 (FPS)
ResNet-5025M76.1%1000+
ViT-B/1686M81.8%500+
ConvNeXt-L200M84.8%300+
Swin-L197M86.6%200+

分割模型

模型任务mAP速度 (FPS)
DeepLabV3+语义分割45.430
Mask R-CNN实例分割40.520
SAM零样本分割-15
YOLOv8-Seg实时分割38.280

🔧 核心算法

图像分类

# 使用 torchvision 训练分类模型
from torchvision import models, transforms
from PIL import Image

# 加载预训练模型
model = models.resnet50(pretrained=True)
model.eval()

# 预处理
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                        std=[0.229, 0.224, 0.225])
])

# 推理
image = Image.open('input.jpg')
input_tensor = preprocess(image)
output = model(input_tensor.unsqueeze(0))

语义分割

# 使用 torchseg 进行语义分割
import torch
from torchseg import create_segmentation_model

# 加载分割模型
model = create_segmentation_model(
    arch='deeplabv3+',
    encoder_name='efficientnet-b4',
    classes=21  # PASCAL VOC 类别数
)

# 推理
with torch.no_grad():
    segmentation = model(input_image)

⚡ 视觉生成

图像生成模型

模型类型分辨率特点
DALL-E 3Text-to-Image1024²高质量文本理解
Stable DiffusionText-to-Image512²开源可定制
MidjourneyText-to-Image1024²艺术风格
SoraText-to-Video1080p视频生成

📚 延伸阅读

  • ImageNet — 大规模视觉识别挑战
  • SAM — 分割一切模型
  • DALL-E — 文本生成图像
在线编辑文档
上次更新: 2026/4/28 17:49
贡献者: colewort
Prev
视觉物理
Next
目标检测