

# NHANES 数据说明文档（生物年龄与死亡风险预测）

本文档简要说明用户所下载的 NHANES 文件作用、关键变量、时间逻辑、预处理建议，支持构建基于实验室/生理指标的生物年龄与死亡风险模型。

---

## 📁 1. 死亡结局数据（`NHANES_XXXX_XXXX_MORT_2019_PUBLIC.dat`）

**作用**：提供随访至2019年12月的死亡状态、生存时间和死因。

**关键变量**：

* `SEQN`: 参与者唯一编号，用于合并
* `MORTSTAT`: 死亡状态（1=死亡, 0=存活）
* `PERMTH_EXM`: 从体检至死亡/随访末的月份
* `UCOD_LEADING`: 死因类别（ICD-10归类）

**时间逻辑**：均为基线后事件，无信息泄露。

**预处理建议**：

* 仅保留 `ELIGSTAT=1`（成年+可匹配）
* 构造 `(time, event)` 结构用于生存模型
* 可限制窗口如“5年死亡”用于分类模型

---

## 🧪 2. 实验室数据

### 2.1 生化数据（`BIOPRO_*.xpt`）

**作用**：提供肝肾功能、血脂、代谢等基础指标。

**常用变量**：

* 肝肾功能：`LBXSAL` (白蛋白), `LBXSCR` (肌酐), `LBXSBU` (BUN)
* 代谢：`LBXSGL` (血糖), `LBXSCH` (总胆固醇), `LBXSTR` (甘油三酯)
* 营养/炎症：`LBXSTP` (总蛋白), `LBXSAPSI` (碱性磷酸酶)

**预处理**：

* 缺失值填补或加缺失指示
* 部分值偏态（如甘油三酯），建议 log 转换
* 连续变量标准化（Z-score）

---

### 2.2 血常规数据（`CBC_*.xpt`）

**作用**：血红蛋白、红细胞指数、白细胞/分类、RDW等。

**关键变量**：

* `LBXHGB`: 血红蛋白
* `LBXMCVSI`: 平均红细胞体积 (MCV)
* `LBXRDW`: 红细胞分布宽度 (RDW)
* `LBXWBCSI`: 白细胞总数
* `LBDNENO`, `LBDLYMNO`: 中性粒/淋巴绝对计数

**衍生指标**：

* NLR = 中性粒 / 淋巴
* 贫血状态（基于 HGB/MCV）

**预处理建议**：

* 检查极端值，必要时截断
* 连续变量标准化
* RDW/NLR 可 log 转换

---

### 2.3 炎症指标（`CRP_*.xpt`, `HSCRP_*.xpt`）

**作用**：系统炎症标志，预测心血管死亡风险。

**关键变量**：

* `LBXCRP` / `LBXHSCRP`: C-反应蛋白 (mg/L)

**处理建议**：

* 高度偏态，建议 log 转换
* 下限值（如0.11）可保留或减半处理
* 可设定分类：<1、1–3、>3、>10 mg/L

---

## 📏 3. 生理测量数据

### 3.1 身体测量（`BMX_*.xpt`）

**变量**：

* `BMXWT`：体重（kg）
* `BMXHT`：身高（cm）
* `BMXBMI`：体质指数（BMI）
* `BMXWAIST`：腰围
* `BMXHIP`：臀围

**衍生指标**：

* 腰臀比 = 腰围 / 臀围
* 可构造肥胖分类变量（正常/超重/肥胖）

**预处理建议**：

* 标准化身高、体重、BMI
* BMI、腰围建议均保留以提供体型信息

---

### 3.2 血压（`BPX_*.xpt`）

**变量**：

* `BPXSY1–3`, `BPXDI1–3`: 收缩压 / 舒张压
* 平均血压 = 多次测量均值
* 衍生变量：PP = SBP–DBP，MAP = DBP + 1/3*PP

**处理建议**：

* 计算平均 SBP/DBP
* 缺测使用已有值平均
* 可加“是否服降压药”信息（来自问卷）

---

## ✅ 数据合并建议

* 所有数据通过 `SEQN` 合并
* 使用 `PERMTH_EXM`, `MORTSTAT` 构造生存结局
* 所有特征为基线前采集，确保预测因果方向
* 先确定要预测的目标变量，然后要求训练数据的有效样本量至少有 5k。在满足这个最小样本量要求的前提下，从候选特征中筛选出可用的特征，并尽可能保留数量最多的特征集合