﻿# Tools：Time / Memory / FLOPs Benchmark（硬口径）

本目录提供一套**尽量可复现、口径明确**的性能/资源测量工具，用于在同一套模型/数据/超参下，对不同训练算法（Local Rule / BPTT / TBPTT / E-Prop / FPTT 等）做对比：

- **Time**：每次训练更新（train update）的耗时（用 CUDA sync 避免异步误差）
- **Memory**：单次训练更新期间的 GPU 峰值显存（allocated / reserved）及其 delta
- **FLOPs**：优先用 **Nsight Compute `ncu`** 的硬件计数器（`flop_count_*`），通过 NVTX 过滤只统计一次 update

> 注意：`ncu` 会引入 profiling 开销，**不要**用 `ncu` 的运行时间当作真实性能时间；时间用本仓库的计时路径（见下）。

---

## 1) 依赖与前置检查

1. 已安装 PyTorch（GPU 测量需要 CUDA 可用）
2. 若要测 FLOPs：安装 **Nsight Compute CLI**（命令 `ncu` 可用）

建议先在命令行确认：

```powershell
python -c "import torch; print('cuda', torch.cuda.is_available())"
ncu --version
```

### 1.1 AutoDL（Linux / 容器）运行指令（可直接复制）

AutoDL 的容器里经常出现 `$HOME` 不可写（尤其是 root 用户）的情况，`ncu` 会报错：
`Could not deploy stock section files ... Set the HOME environment variable to a writable directory.`

建议在**仓库根目录**按下面步骤运行（把 `~/autodl-tmp` 改成你的实际路径）：

```bash
cd ~/autodl-tmp

# 1) 安装依赖
python3 -m venv .venv
source .venv/bin/activate
pip install -U pip
pip install -r requirements.txt

# 2) 检查 CUDA / ncu
python -c "import torch; print('torch', torch.__version__); print('cuda', torch.cuda.is_available())"
ncu --version

# 3) 关键：让 ncu 的 Sections/Rules 能写入（避免 HOME 权限问题）
export HOME="$(pwd)/.ncu_home"
NCU_VER="$(ncu --version | sed -E -n 's/.*Version ([0-9]+\.[0-9]+\.[0-9]+).*/\1/p' | head -n1)"
mkdir -p "$HOME/Documents/NVIDIA Nsight Compute/$NCU_VER/Sections"
mkdir -p "$HOME/Documents/NVIDIA Nsight Compute/$NCU_VER/Rules"

# 4) 跑 UCI HAR cost sweep（time + memory + FLOPs）
python tools/profile_uci_har_cost_sweep.py \
  --device cuda \
  --steps 16,32,64,128 \
  --batch-size 64 \
  --hidden 128 \
  --tbptt 10 \
  --mem-mode delta \
  --cuda-mem allocated \
  --flops-mode ncu \
  --ncu-path ncu \
  --out-dir plots/uci_har_cost_sweep

# If ncu fails with ERR_NVGPUCTRPERM, rerun with: --flops-mode torch
```

如果你不想修改当前 shell 的 `HOME`，也可以用“一次性环境变量”：

```bash
NCU_VER="$(ncu --version | sed -E -n 's/.*Version ([0-9]+\.[0-9]+\.[0-9]+).*/\1/p' | head -n1)"
mkdir -p ".ncu_home/Documents/NVIDIA Nsight Compute/$NCU_VER/Sections"
mkdir -p ".ncu_home/Documents/NVIDIA Nsight Compute/$NCU_VER/Rules"
HOME="$(pwd)/.ncu_home" python tools/profile_uci_har_cost_sweep.py --device cuda --flops-mode ncu --ncu-path ncu --out-dir plots/uci_har_cost_sweep
```

> 备注：代码里 `tools/perf_utils.py` 会在 ncu 报上述 Sections/Rules 错误时自动创建所需目录，并在必要时临时切换到可写 `HOME` 重试。

---

## 2) 一键跑：UCI HAR 的 cost sweep（time + memory + FLOPs）

脚本：`tools/profile_uci_har_cost_sweep.py`

它会在 **UCI HAR** 数据上，对多个 `steps` 与多个方法做一次“单次 update”的时间/显存/FLOPs 测量，并输出 CSV/JSON/图。

### 2.1 典型用法（GPU + ncu FLOPs）

```powershell
# 在仓库根目录运行（例如 D:\Analysis）
python tools/profile_uci_har_cost_sweep.py `
  --device cuda `
  --steps 16,32,64,128 `
  --batch-size 64 `
  --hidden 128 `
  --tbptt 10 `
  --mem-mode delta `
  --cuda-mem allocated `
  --flops-mode ncu `
  --ncu-path ncu `
  --out-dir plots/uci_har_cost_sweep
```

输出（示例）：
- `plots/uci_har_cost_sweep/<tag>_uci_har_cost_sweep.csv`
- `plots/uci_har_cost_sweep/<tag>_uci_har_cost_sweep.json`
- `plots/uci_har_cost_sweep/<tag>_uci_har_flops_vs_steps.png` 等

### 2.2 关键参数解释

- `--steps 16,32,...`：每条序列的时间步数；超过数据原始长度会自动 tile
- `--tbptt N`：TBPTT 截断步数（会跑 `TBPTT-N`；并且默认也会包含 `TBPTT-10` 作为参考，若与 N 不同）
- `--mem-mode {peak,delta}`
  - `peak`：返回 update 期间峰值（单位 bytes）
  - `delta`：返回峰值相对基线（update 前）的增量（更适合做“新增开销”的对比）
- `--cuda-mem {allocated,reserved}`
  - `allocated`：张量真实占用（常用）
  - `reserved`：缓存分配器保留（更贴近“你需要多大显存才不 OOM”）
- `--flops-mode {ncu,torch,none}`
  - `ncu`：用硬件计数（最“硬”，但依赖平台开放 GPU 性能计数器权限）
  - `torch`：用 PyTorch profiler 的 FLOPs 估计（不需要 ncu 性能计数器；更通用但口径更“软”）
  - `none`：不测 FLOPs（例如只想先跑 time/memory）
- `--ncu-metrics ...`：要收集并求和的 metric，默认：
  - `flop_count_sp,flop_count_hp,flop_count_dp,flop_count_tensor`
- `--ncu-timeout-sec`：ncu 卡住时可设置超时（0 表示不启用）

额外说明（本脚本的默认测量口径）：

- `E-Prop`：在 `tools/profile_uci_har_cost_sweep.py` 里默认用 **stop-gradient / detach** 版本（`decay_lambda=0`），避免 `(B,H,H)` eligibility trace 导致显存被 batch 放大。
- `FPTT`：为保证 cost sweep 里“activation memory 不随 steps 增长”，会把 chunk 长度控制在 `~TBPTT window`，即按 `parts=ceil(steps/tbptt)` 动态设置。

---

## 3) FLOPs 口径（为什么这样做）

本仓库的 FLOPs 推荐口径是：

- 用 NVTX 标注 **一次训练更新**（train update）的范围
- 用 `ncu --nvtx --nvtx-include "<range>/"` 只统计该范围内 kernel
- 求和 `flop_count_*` 指标作为总 FLOPs

脚本内部实现为：

1. 启动一个“只跑 1 次 update”的子进程（`--single-flops`）
2. 在该 update 外包一层 NVTX range（`--nvtx-range`）
3. 外层用 `ncu` 执行子进程并解析 `--csv` 输出求和

这样可以避免把初始化、数据准备、日志等算进 FLOPs。

---

## 4) 作为库复用（可选）

如果你要在自己的 benchmark harness 里复用工具函数：

- CUDA peak memory：`tools/perf_utils.py:59` 的 `measure_cuda_peak_memory(...)`
- NVTX 范围：`tools/perf_utils.py:40` 的 `nvtx_range(...)`
- ncu 执行与解析：`tools/perf_utils.py:238` 的 `run_ncu_metrics(...)`

注意：当前 `tools` 不是 Python package（没有 `tools/__init__.py`），
所以推荐在 `tools/` 下的脚本里直接 `import perf_utils`，或自行把 `tools` 加入 `sys.path`。

---

## 5) 汇总多次实验（summary CSV 聚合）

脚本：`tools/aggregate_summaries.py`

用于聚合 `plots/**/_summary.csv`（由各任务脚本写出）的关键列，输出均值/方差表：

```powershell
python tools/aggregate_summaries.py --root plots --pattern "*_summary.csv" --out plots/aggregate/summary_agg.csv
```
