# Crime Prediction Dataset

## 任务描述
中文法律罪名预测任务。根据案件事实描述，预测被告人应被判定的罪名。

## 数据格式
每行是一个JSON对象，包含以下字段：
- `instruction`: 任务指令（统一的提示词）
- `question`: 案件事实描述
- `answer`: 标准答案（罪名），格式为"罪名:罪名1;罪名2"

## 数据统计
- 训练集: 200 样本
- 验证集: 50 样本
- 测试集: 100 样本
- 总计: 350 样本（从原始500样本中选取）

## 数据来源
数据从 `3-3.json` 转换而来，使用 `prepare_data.py` 脚本进行处理。

## 评估指标
- **Accuracy**: 预测的罪名集合必须与标准答案完全一致（顺序无关）
  - 完全匹配才算正确，即精确度为1.0
  - 适用于严格评估模式
  
- **Micro-F1 Score**:
  先统计所有类别的真正例（TP）、假正例（FP）和假负例（FN）的总数，然后计算总的精确率（Precision）和召回率（Recall），最后得出 F1。

## 示例
```json
{
  "instruction": "请你模拟法官依据下面事实给出罪名，只需要给出罪名的名称，将答案写在[罪名]和<eoa>之间。例如[罪名]盗窃;诈骗<eoa>。请你严格按照这个格式回答。",
  "question": "事实:公诉机关指控：2016年3月28日20时许，被告人颜某在本市洪山区马湖新村足球场马路边捡拾到被害人谢某的VIVOX5手机一部...",
  "answer": "罪名:盗窃"
}
```
