# GRPO (Group Relative Policy Optimization) 训练

本文件夹包含GRPO训练的完整实现，用于优化SFT后的LLM模型。

## 概述

GRPO是一种基于组内相对优势的强化学习方法，通过以下步骤优化模型：

1. **样本生成**：为每个电路数据生成多个代码样本
2. **奖励计算**：使用Representation模型计算embedding距离，距离越近奖励越高
3. **模型优化**：使用组内相对优势进行强化学习

## 文件说明

- `generate_samples.py`: 生成训练样本
- `compute_rewards.py`: 计算GRPO奖励
- `train.py`: GRPO训练主脚本
- `inference.py`: 使用训练后的模型进行推理
- `README.md`: 本文件

## 使用流程

### 1. 生成样本

为每个电路数据生成5个Python代码样本，并运行得到对应的JSON结果：

```bash
cd /research/d7/gds/yhhan25/Research/LLM-PnR
python GRPO/generate_samples.py
```

这将：
- 加载SFT训练好的模型
- 为data文件夹下的每个JSON文件生成5个样本
- 运行每个样本获得routed JSON结果
- 保存到`GRPO/samples/`和`GRPO/results/`目录

### 2. 计算奖励

调用Representation模型计算embeddings和奖励：

```bash
python GRPO/compute_rewards.py
```

这将：
- 运行ground truth脚本获取基准结果
- 调用`Representation/inference.py`计算所有JSON的embeddings
- 计算样本与ground truth之间的embedding距离
- 基于距离计算GRPO奖励（距离越近，奖励越高）
- 保存奖励到`GRPO/rewards.json`

### 3. GRPO训练

使用计算的奖励进行强化学习训练：

```bash
python GRPO/train.py
```

训练配置：
- 学习率: 1e-6（比SFT更小）
- Epochs: 3
- Batch size: 1
- KL系数: 0.1（防止偏离SFT模型太远）
- Clip range: 0.2（PPO-style clipping）

### 4. 推理

使用训练好的GRPO模型进行推理：

```bash
# 对所有电路推理
python GRPO/inference.py

# 对特定电路推理
python GRPO/inference.py --circuit circuit_data.json
```

## 目录结构

```
GRPO/
├── README.md                   # 本文件
├── generate_samples.py         # 样本生成脚本
├── compute_rewards.py          # 奖励计算脚本
├── train.py                    # GRPO训练脚本
├── inference.py                # 推理脚本
├── samples/                    # 生成的样本代码
│   ├── circuit_data/
│   │   ├── sample_1.py
│   │   ├── sample_2.py
│   │   └── ...
│   └── circuit_data_2/
│       └── ...
├── results/                    # 运行结果JSON
│   ├── circuit_data/
│   │   ├── sample_1_routed.json
│   │   ├── sample_2_routed.json
│   │   └── ground_truth_routed.json
│   └── ...
├── embeddings/                 # Representation计算的embeddings
│   └── ...
├── output/                     # 训练输出
│   ├── checkpoint-epoch-1/
│   ├── checkpoint-epoch-2/
│   ├── checkpoint-epoch-3/
│   └── final_model/
├── inference_output/           # 推理输出
│   └── ...
├── samples_metadata.json       # 样本元数据
├── rewards.json                # 计算的奖励
└── distances.json              # Embedding距离
```

## GRPO算法原理

### 奖励函数

对于每个电路的样本组：

1. 计算每个样本的routed JSON的embedding（使用Representation模型）
2. 计算与ground truth embedding的欧氏距离
3. 在组内按距离排序，赋予相对奖励：
   - 最好的样本（距离最小）：reward = 1.0
   - 最差的样本（距离最大）：reward = -1.0
   - 中间样本线性插值

### 损失函数

```python
total_loss = policy_loss + kl_penalty

policy_loss = -E[min(ratio * advantage, clip(ratio) * advantage)]
kl_penalty = kl_coef * KL(policy || reference)

其中：
- ratio = exp(log_prob_policy - log_prob_reference)
- advantage = reward - kl_coef * KL
- clip(ratio) = clip(ratio, 1-ε, 1+ε)
```

### 优化目标

最大化组内相对优势，同时保持与SFT模型的接近度（通过KL散度约束）。

## 依赖要求

- PyTorch
- Transformers
- PEFT
- numpy
- 已训练的SFT模型（位于`SFT/output/final_model/`）
- 已训练的Representation模型（位于`Representation/checkpoints/best_model.pt`）

## 注意事项

1. **确保SFT模型已训练**：GRPO需要以SFT模型为基础
2. **确保Representation模型已训练**：用于计算embedding和奖励
3. **GPU显存**：需要足够的显存同时加载policy和reference模型
4. **样本多样性**：通过调整temperature参数控制样本多样性
5. **超参数调整**：可根据实际情况调整KL系数、learning rate等

## 预期效果

经过GRPO训练后，模型应该：
- 生成的代码更接近最优解
- Embedding距离更小
- 布局和路由质量更好
- 保持与SFT模型相似的代码风格（受KL散度约束）

## 故障排除

### 问题：样本生成失败
- 检查SFT模型是否存在
- 检查GPU显存是否足够
- 查看错误日志

### 问题：奖励计算失败
- 检查Representation模型是否存在
- 确保所有样本JSON文件已正确生成
- 检查inference.py的参数配置

### 问题：训练显存不足
- 减小batch_size
- 增加gradient_accumulation_steps
- 使用更小的模型或量化

## 联系方式

如有问题，请查看主项目的README或提交issue。
