# 车辆经验数据收集系统

## 概述

本系统在交通仿真中收集每辆车的经验数据，用于强化学习训练。每辆车的经验数据格式为：

```
{s_{t-1}, a_{t-1}, r, s_t}
```

其中：
- `s_{t-1}`: 上一时刻状态 (上一时刻路段, 上一时刻排队长度)
- `a_{t-1}`: 上一时刻动作 (上一时刻将要进入的路段ID)
- `r`: 上一时刻奖励 (上一时刻将要进入的路段权重)
- `s_t`: 当前时刻状态 (当前路段, 当前排队长度)

## 系统架构

### 1. VehicleExperienceCollector 类

负责收集和管理每辆车的经验数据。

**主要方法：**
- `collect_vehicle_experience()`: 收集单辆车的经验数据
- `get_vehicle_experiences()`: 获取指定车辆的经验数据
- `get_all_experiences()`: 获取所有车辆的经验数据
- `save_experiences_to_file()`: 保存经验数据到文件

### 2. Simulation 类扩展

在原有的仿真类中添加了经验数据收集功能。

**新增方法：**
- `collect_vehicle_data()`: 收集每辆车的经验数据
- `get_experience_data()`: 获取所有经验数据
- `save_experience_data()`: 保存经验数据
- `get_vehicle_experience()`: 获取指定车辆的经验数据

## 数据格式

### 单条经验数据格式

```python
{
    's_prev': ('E1', 5),           # 上一时刻状态: (上一时刻路段, 上一时刻排队长度)
    'a_prev': 'E2',                # 上一时刻动作: 上一时刻将要进入的路段ID
    'r_prev': 0.8,                 # 上一时刻奖励: 上一时刻将要进入的路段权重
    's_current': ('E2', 3),        # 当前状态: (当前路段, 当前排队长度)
    'timestamp': 1640995200.123    # 时间戳
}
```

### 完整数据结构

```python
{
    'car_1': [
        {
            's_prev': ('E1', 5),
            'a_prev': 'E2',
            'r_prev': 0.8,
            's_current': ('E2', 3),
            'timestamp': 1640995200.123
        },
        # ... 更多经验数据
    ],
    'car_2': [
        # ... 车辆2的经验数据
    ],
    # ... 更多车辆
}
```

## 使用方法

### 1. 基本使用

```python
from app.simulation.Simulation import Simulation
import torch

# 初始化仿真
Simulation.start()

# 创建权重数据
num_edges = len(Simulation.edge_ids)
model_weights = torch.rand(num_edges)

# 创建车辆ID映射
car_id_map = {f"car_{i}": i for i in range(100)}

# 运行仿真并收集数据
for tick in range(100):
    vehicle_data = Simulation.loop(model_weights, car_id_map)

# 获取经验数据
all_experiences = Simulation.get_experience_data()
print(f"收集到 {len(all_experiences)} 辆车的经验数据")
```

### 2. 获取特定车辆的经验数据

```python
# 获取车辆 'car_1' 的经验数据
car_experiences = Simulation.get_vehicle_experience('car_1')
print(f"车辆 car_1 有 {len(car_experiences)} 条经验")

# 打印第一条经验
if car_experiences:
    exp = car_experiences[0]
    print(f"上一时刻状态: {exp['s_prev']}")
    print(f"上一时刻动作: {exp['a_prev']}")
    print(f"上一时刻奖励: {exp['r_prev']}")
    print(f"当前状态: {exp['s_current']}")
```

### 3. 保存经验数据

```python
# 保存到文件
Simulation.save_experience_data('./app/data/vehicle_experiences.json')
```

### 4. 构建强化学习训练数据

```python
# 获取所有经验数据
all_experiences = Simulation.get_experience_data()

# 构建训练数据
training_data = []
for car_id, experiences in all_experiences.items():
    car_data = []
    for exp in experiences:
        training_sample = {
            'state_prev': exp['s_prev'],      # (上一时刻路段, 上一时刻排队长度)
            'action_prev': exp['a_prev'],     # 上一时刻将要进入的路段ID
            'reward_prev': exp['r_prev'],     # 上一时刻将要进入的路段权重
            'state_current': exp['s_current'], # (当前路段, 当前排队长度)
            'car_id': car_id
        }
        car_data.append(training_sample)
    
    training_data.append({
        'car_id': car_id,
        'experiences': car_data
    })

print(f"构建了 {len(training_data)} 个车辆的训练数据集")
```

## 数据收集逻辑

### 数据收集流程

1. **状态收集**: 在 `collect_vehicle_data()` 方法中收集当前路段和排队长度
2. **动作收集**: 当前路段ID作为上一时刻将要进入的路段ID
3. **奖励收集**: 当前路段的权重作为上一时刻将要进入的路段权重
4. **数据存储**: 在 `VehicleExperienceCollector` 中构建经验数据

### 数据收集位置

数据收集发生在 `Simulation.loop()` 方法中，具体位置：

1. **状态收集**: 在 `collect_vehicle_data()` 方法中
2. **动作收集**: 从当前路段ID获取
3. **奖励收集**: 从路段权重模型中获取
4. **数据存储**: 在 `VehicleExperienceCollector` 中

## 文件输出

系统会生成以下文件：

1. **经验数据文件**: `vehicle_experiences_YYYYMMDD_HHMMSS.json`
2. **训练数据文件**: `training_data_YYYYMMDD_HHMMSS.json`

## 注意事项

1. **车辆过滤**: 系统会自动跳过在交叉路口（路段ID包含":"）的车辆
2. **异常处理**: 系统会忽略已删除的车辆，避免程序崩溃
3. **内存管理**: 长时间运行可能需要定期清理经验数据
4. **数据格式**: 确保路段ID在 `edge_ids` 列表中存在
5. **时间序列**: 经验数据严格按照时间序列构建，确保数据的连续性

## 数据格式说明

### 经验数据字段

- `s_prev`: (上一时刻路段ID, 上一时刻排队长度)
- `a_prev`: 上一时刻将要进入的路段ID
- `r_prev`: 上一时刻将要进入的路段权重
- `s_current`: (当前路段ID, 当前排队长度)
- `timestamp`: 时间戳

### 数据收集规则

1. **第一次收集**: 只记录当前状态，不生成经验数据
2. **后续收集**: 使用当前状态作为下一时刻的上一时刻状态
3. **动作定义**: 当前路段ID作为上一时刻将要进入的路段ID
4. **奖励定义**: 当前路段权重作为上一时刻将要进入的路段权重

## 示例输出

运行示例程序后的输出：

```
开始收集车辆经验数据...
数据格式: s(上一时刻路段,排队长度), a(上一时刻将要进入的路段id), r(上一时刻将要进入的路段权重), s'(当前路段,排队长度)
时间步 0: 收集到 0 辆车的经验数据
时间步 10: 收集到 15 辆车的经验数据
时间步 20: 收集到 23 辆车的经验数据
...

总共收集到 25 辆车的经验数据
车辆 car_1: 45 条经验
  示例经验数据:
    经验 1:
      s_prev: ('E1', 5) (上一时刻路段, 上一时刻排队长度)
      a_prev: E2 (上一时刻将要进入的路段ID)
      r_prev: 0.8 (上一时刻将要进入的路段权重)
      s_current: ('E2', 3) (当前路段, 当前排队长度)

经验数据已保存到: ./app/data/vehicle_experiences_20241201_120000.json
构建了 25 个车辆的训练数据集
训练数据已保存到: ./app/data/training_data_20241201_120000.json
```

## 数据格式验证

系统严格按照以下格式构建经验数据：

```python
# 示例经验数据
{
    's_prev': ('E1', 5),           # (上一时刻路段, 上一时刻排队长度)
    'a_prev': 'E2',                # 上一时刻将要进入的路段ID
    'r_prev': 0.8,                 # 上一时刻将要进入的路段权重
    's_current': ('E2', 3),        # (当前路段, 当前排队长度)
    'timestamp': 1640995200.123    # 时间戳
}
```

这个格式完全符合您的要求：`{s, a, r, s'}` 其中：
- `s`: (上一时刻路段, 上一时刻排队长度)
- `a`: 上一时刻将要进入的路段ID
- `r`: 上一时刻将要进入的路段权重
- `s'`: (当前路段, 当前排队长度) 