一句话总结:AI 数据存储需要同时满足大规模预训练的数据吞吐和推理时的低延迟访问。
| 格式 | 压缩率 | 读取速度 | 随机访问 | 适用场景 |
|---|
| Parquet | 高 | 快 | 中 | 批量训练 |
| Avro | 中 | 中 | 高 | 流式数据 |
| HDF5 | 中 | 快 | 高 | 科学计算 |
| TFRecord | 低 | 快 | 低 | TensorFlow |
import faiss
import numpy as np
dimension = 768
index = faiss.IndexFlatIP(dimension)
vectors = np.random.random((1000000, dimension)).astype('float32')
index.add(vectors)
query = np.random.random((100, dimension)).astype('float32')
distances, indices = index.search(query, k=10)
| 索引 | 精度 | 速度 | 内存 | 适用场景 |
|---|
| Flat | 100% | 慢 | 高 | 小数据集 |
| IVF | 95% | 快 | 中 | 百万级 |
| HNSW | 98% | 很快 | 高 | 亿级 |
| DiskANN | 96% | 中 | 低 | 超大规模 |
| 策略 | 命中率提升 | 实现复杂度 |
|---|
| Prompt 缓存 | 30-50% | 低 |
| 结果缓存 | 20-40% | 低 |
| KV Cache | 40-60% | 中 |
| 模型蒸馏 | - | 高 |