# Sandbox 跨轮复用机制

## 🎯 问题描述

在一个15轮的multi-turn rollout中，我们希望：
1. **同一个trajectory的所有轮次共享同一个sandbox**
2. **ExecuteCode和ExecuteShell工具共享同一个sandbox**
3. **前一轮写入的文件在后续轮次中仍然存在**

## ❌ 原始实现的问题

### 问题1: 每轮创建新的sandbox

原始的 `agent_loop.py` 实现：

```python
# 每次工具调用
instance_id, _ = await tool.create(...)        # 创建新的instance
await tool.execute(instance_id, ...)
await tool.release(instance_id)                # 销毁instance
```

导致：
- 第1轮：create sandbox_1 → execute → **destroy sandbox_1** ❌
- 第2轮：create sandbox_2 → execute → **destroy sandbox_2** ❌
- 第3轮：create sandbox_3 → execute → **destroy sandbox_3** ❌

### 问题2: 工具间sandbox隔离

即使在同一轮中：
- ExecuteCode: create sandbox_A → execute → destroy sandbox_A
- ExecuteShell: create sandbox_B → execute → destroy sandbox_B

两个工具看不到彼此的状态！

## ✅ 解决方案

### 1. 全局Sandbox注册表

在 `fileagent_sandbox_tool.py` 中添加：

```python
# 全局沙盒管理器 - 让不同工具和不同轮次共享sandbox
_SHARED_SANDBOX_REGISTRY = {}
```

### 2. 使用 request_id 作为持久化标识

修改 `agent_loop.py`，传递固定的 `request_id`：

```python
# 使用 request_id 作为 instance_id
# request_id 在整个rollout中是固定的
instance_id, _ = await tool.create(
    instance_id=agent_data.request_id,  # ← 关键！
    create_kwargs=...
)
```

### 3. Sandbox复用逻辑

在 `create()` 方法中：

```python
async def create(self, instance_id: Optional[str] = None, **kwargs):
    # 检查是否已有共享的sandbox
    if instance_id in _SHARED_SANDBOX_REGISTRY:
        # 复用现有sandbox
        session_id = _SHARED_SANDBOX_REGISTRY[instance_id]
        self._session_ids[instance_id] = session_id
        logger.info(f"Reusing shared sandbox {session_id}")
        return instance_id, ToolResponse(...)
    
    # 创建新sandbox并注册
    response = create_sandbox()
    session_id = json.loads(response.result)["session_id"]
    
    # 同时保存到本地和全局注册表
    self._session_ids[instance_id] = session_id
    _SHARED_SANDBOX_REGISTRY[instance_id] = session_id  # ← 全局注册
    
    logger.info(f"Created NEW sandbox {session_id}")
    return instance_id, ToolResponse(...)
```

### 4. 延迟销毁策略

在 `release()` 方法中：

```python
async def release(self, instance_id: str, **kwargs):
    # 只从本地字典移除，不真正销毁sandbox
    session_id = self._session_ids.pop(instance_id, None)
    
    # 除非显式要求强制销毁
    force_destroy = kwargs.get("force_destroy", False)
    if force_destroy:
        destroy_sandbox(session_id)
        del _SHARED_SANDBOX_REGISTRY[instance_id]
    else:
        # sandbox保留在全局注册表中，供后续复用
        logger.debug(f"Released (but not destroyed) sandbox")
```

## 📊 现在的行为

### 同一个Trajectory的15轮对话

```
第1轮 ExecuteCode:
  - 检查 _SHARED_SANDBOX_REGISTRY[request_id] → 不存在
  - create sandbox_ABC → 注册到全局
  - execute
  - release (不销毁，保留在全局注册表)

第2轮 ExecuteShell:
  - 检查 _SHARED_SANDBOX_REGISTRY[request_id] → 存在！
  - **复用 sandbox_ABC** ✅
  - execute (可以访问第1轮的文件！)
  - release (不销毁)

第3轮 ExecuteCode:
  - 检查 _SHARED_SANDBOX_REGISTRY[request_id] → 存在！
  - **复用 sandbox_ABC** ✅
  - execute (可以访问第1、2轮的文件！)
  - release (不销毁)

...

第15轮:
  - **仍然复用 sandbox_ABC** ✅
  - 所有历史状态都在！
```

## 🎯 效果

### ✅ 实现的目标

1. **跨轮复用** - 同一个trajectory的15轮都使用同一个sandbox
2. **工具间共享** - ExecuteCode和ExecuteShell共享sandbox
3. **状态持久化** - 文件、环境变量等状态跨轮保留

### 📈 示例场景

```python
# 第1轮 - ExecuteCode
"""
import pandas as pd
df = pd.read_csv('data.csv')
df.to_csv('processed.csv')
"""

# 第2轮 - ExecuteShell  
"""
ls -la processed.csv  # ✅ 文件存在！
"""

# 第3轮 - ExecuteCode
"""
import pandas as pd
df = pd.read_csv('processed.csv')  # ✅ 可以读取！
print(df.head())
"""
```

## 🔧 清理机制

Sandbox会在以下情况被清理：

1. **Ray worker重启** - 全局注册表会被清空
2. **显式force_destroy** - 调用 `release(force_destroy=True)`
3. **Trajectory结束** - (可选) 在rollout结束时清理

### 可选：在Rollout结束时清理

如果想在每个rollout结束后清理sandbox，可以在 `agent_loop.py` 的 `run()` 方法末尾添加：

```python
async def run(self, ...):
    # ... 现有代码 ...
    
    # 在return之前清理sandbox
    if self.tools:
        for tool in self.tools.values():
            try:
                await tool.release(agent_data.request_id, force_destroy=True)
            except Exception as e:
                logger.warning(f"Failed to cleanup tool: {e}")
    
    return output
```

## 📝 注意事项

1. **内存管理** - sandbox会一直存在，直到worker重启或显式销毁
2. **并发安全** - 不同的trajectory使用不同的 `request_id`，不会冲突
3. **错误处理** - 如果sandbox创建失败，不会影响其他trajectory

---

## 🎓 总结

通过三个关键改动：

1. ✅ **全局注册表** - `_SHARED_SANDBOX_REGISTRY`
2. ✅ **固定instance_id** - 使用 `request_id` 
3. ✅ **延迟销毁** - `release()` 不立即销毁

实现了：
- **15轮对话共享同一个sandbox**
- **ExecuteCode和ExecuteShell状态共享**
- **文件和环境变量跨轮持久化**

---

最后更新: 2025-10-17
作者: AI Assistant

