## android control
### 数据源
https://huggingface.co/datasets/HarrytheOrange/parsed_AndroidControl
### 指标
1. **action_type_acc**: 操作类型准确率。

2. **grounding**: 操作类型为click的情况下，评估预测的坐标是否在candidate_box内。

3. **step_success**: 步骤准确率，即操作类别和扩展参数（坐标、方向、文本内容）都正确。

### 评测协议
* 从源数据sample 500个episode并固定为/data/test.json作为指标计算 
> 当下为了评估速度，可以使用大小为150的/data/dev.json作为模型迭代的指标预览 (大概0.5h)
* 对于`action_type`为CLICK的动作，坐标采用(0,1)的相对坐标进行预测
* 由于ground truth bbox的缺失，我们采用和os-atlas一样的规则，计算点坐标的距离为screen的`0.14`则定位CLICK成功
* 对于`low level`, 我们使用:1. 当前截图 2. 总task目标 3. 当前low level instrution
* 对于`high level`,我们使用:1. 当前截图 2. 总task目标 3. previous low level instrution list

* 我们在每个episode的每个step上计算指标，并求微观平均SR

![alt text](assets/image.png)


## odyssey

### 数据源
https://huggingface.co/datasets/OpenGVLab/GUI-Odyssey/tree/main/splits

### 指标
1. **action_type_acc**: 操作类型准确率。

2. **grounding**: 操作类型为click的情况下，评估预测的坐标是否在candidate_box内。

3. **step_success**: 步骤准确率，即操作类别和扩展参数（坐标、方向、文本内容）都正确。

### 评测协议
* 从源数据sample 500个episode并固定为/data/test.json作为指标计算 (sample时过滤掉长度大于15的情况)
> 当下为了评估速度，可以使用大小为100的/data/dev.json作为模型迭代的指标预览 (大概1h)
* 对于`action_type`为CLICK和LONG_PRESS的动作，坐标采用(0,1)的相对坐标进行预测
> Notes: 此数据集最初就做了(0,1000)的相对坐标映射
* 由于ground truth bbox的缺失，我们采用和os-atlas一样的规则，计算点坐标的距离为screen的`0.14`则定位CLICK成功
* 评测数据使用：我们使用:1. 当前截图 2. 总task目标 3. previous action list


* 我们在每个episode的每个step上计算指标，并求微观平均SR

## mind2web