# RAM++ Zero-shot Evaluation on VOC2012

测试原始RAM++模型在PASCAL VOC2012数据集上的零样本（zero-shot）表现。

## 🎯 目的

评估RAM++模型在没有针对VOC数据进行训练的情况下，直接识别VOC 20个类别的能力。这是一个重要的**域外（Out-of-Distribution, OOD）评估**。

## 📁 相关文件

- **`test_zeroshot_voc.py`** - 完整的零样本评估脚本
- **`quick_zeroshot_test.py`** - 快速测试脚本（少量数据）

## 🚀 使用方法

### 1. 快速测试（推荐先运行）

```bash
cd /home/gyf/iclr/recognize-anything/cltag
python quick_zeroshot_test.py
```

这会测试10个batch，快速了解性能。

### 2. 完整评估

```bash
python test_zeroshot_voc.py \
    --pretrained /path/to/ram_plus_swin_large_14m.pth \
    --voc-data-root /path/to/VOC2012 \
    --device cuda:1 \
    --save-results \
    --output-dir ./zeroshot_results
```

### 3. 自定义参数

```bash
python test_zeroshot_voc.py \
    --pretrained pretrained/ram_plus_swin_large_14m.pth \
    --voc-data-root VOC2012 \
    --split trainval \
    --batch-size 16 \
    --device cuda:1 \
    --max-batches 50 \
    --save-results
```

## 📊 输出指标

### 核心指标
- **mAP**: 平均精度均值（主要指标）
- **Precision/Recall/F1**: 精准率、召回率、F1分数
- **Per-class AP**: 每个类别的平均精度

### 示例输出
```
🚀 RAM++ Zero-shot Performance on VOC2012
============================================================

📊 Overall Metrics:
  mAP:              0.1234
  Precision (micro): 0.2345
  Recall (micro):    0.1456
  F1 (micro):        0.1789

📋 Per-class Results:
  Class          | AP     | Prec   | Rec    | F1     | #Pos
  --------------------------------------------------------
  person         | 0.4567 | 0.3456 | 0.2345 | 0.2789 |  1234
  car            | 0.2345 | 0.1234 | 0.0987 | 0.1098 |   567
  ...
```

## 🔧 工作原理

### 1. 标签映射
RAM++训练时使用4000+标签，需要映射到VOC的20个类别：

```python
# 直接映射
'car' -> 'car'
'person' -> 'person'

# 别名映射
'aeroplane' -> ['airplane', 'aircraft', 'plane']
'motorbike' -> ['motorcycle', 'motor bike']
'diningtable' -> ['dining table', 'table']
```

### 2. 评估流程
1. **加载模型**: 使用预训练的RAM++模型
2. **数据加载**: 加载VOC2012图像和标签
3. **预测**: 对每张图像生成标签预测
4. **映射**: 将RAM++标签映射到VOC类别
5. **计算指标**: 计算mAP、精准率、召回率等

### 3. 零样本特点
- **无训练**: 模型从未见过VOC数据
- **域迁移**: 从通用图像标注到特定数据集
- **标签映射**: 依赖语义相似性进行类别匹配

## ⚙️ 参数说明

| 参数 | 默认值 | 说明 |
|------|--------|------|
| `--pretrained` | 必需 | RAM++预训练模型路径 |
| `--voc-data-root` | 必需 | VOC2012数据集根目录 |
| `--split` | trainval | 评估的数据分割 |
| `--device` | cuda:1 | 使用的设备 |
| `--batch-size` | 16 | 批处理大小 |
| `--max-batches` | None | 最大批次数（快速测试用） |
| `--save-results` | False | 是否保存结果到JSON |

## 🎯 期待结果

### 典型性能范围
- **mAP**: 0.05-0.20（零样本通常较低）
- **高性能类别**: person, car, cat, dog（常见物体）
- **低性能类别**: 专门术语类别（如diningtable, pottedplant）

### 影响因素
1. **标签映射质量**: 映射准确度直接影响性能
2. **类别覆盖度**: RAM++训练数据中的类别覆盖
3. **视觉相似性**: VOC类别与RAM++训练类别的视觉相似度

## 🔍 结果分析

### 成功案例
- 通用物体（person, car, dog, cat）通常表现较好
- 视觉特征明显的类别容易识别

### 挑战案例
- 复合词类别（diningtable, pottedplant）
- 同义词变化（aeroplane vs airplane）
- 上下文相关的类别

## 📈 改进方向

1. **优化标签映射**: 更精确的同义词映射
2. **置信度阈值**: 调整不同类别的阈值
3. **多模态信息**: 结合视觉和文本特征
4. **领域适应**: 少样本学习适应VOC领域

这个评估为理解RAM++的泛化能力和在特定领域的适用性提供了重要基准。