# 实验结果记录

主要比较方法：FORA

## FORA& TokenCache:实验结果摘录

|    方法    | 分辨率 | 压缩比 | 生成图量 | FID                            |
| :--------: | :----: | :----: | :------: | ------------------------------ |
|    FORA    |  256   |  N=3   |    5k    | 13.005 (50w) 12.84(AutoDL)     |
|    ...     |  ...   |  ...   |    2w    | 7.74 (5w)                      |
|    ...     |  ...   |  ...   |    3w    | 6.84 (5w)                      |
|    FORA    |  512   |  N=3   |    5k    | 24.x(5w)                       |
| TokenCache |  256   | x 3.0  |    5k    | 13.23  (目前最佳)13.06(AutoDL) |
|            |        |        |          |                                |

## TokenCache: 方案调优 （ 256 ）

|                      打分策略                       |                 fresh-ratio                  | force-threshold | force-strategy |             FID             | 理论加速比 |                  备注                  |
| :-------------------------------------------------: | :------------------------------------------: | :-------------: | :------------: | :-------------------------: | :--------: | :------------------------------------: |
|                      attention                      |                     0.5                      |        2        |     global     |           13.367            |    x 2     |     基于注意力在dim=1的和计算得分      |
|                      attention                      |                     0.5                      |        5        |     local      |            16.47            |    x 2     |          local方案的局限性 *           |
|                      attention                      |                     0.16                     |        5        |     global     |            13.47            |   x 3.0    |                                        |
|                      attention                      |              0.08 ~ 0.24 linear              |        5        |     global     |            13.36            |   x 3.0    |                                        |
|                      attention                      |              0.25 ~ 0.75 linear              |        5        |     global     |            13.23            |   x 1.7    |                                        |
|                     similarity                      |                     0.16                     |        5        |     global     |            13.42            |  x<~ 3.0   |     similarity额外存储开销与计算量     |
|                     similarity                      |                     0.16                     |        5        |     global     |            13.42            |  x<~ 3.0   |                                        |
|             similarity + 1 *soft fresh              |              0.08 ~ 0.24 linear              |        5        |     global     |        12.93(AutoDL)        |  x<~ 3.0   |                                        |
|                     similarity                      | 0.16  （0.008~0.5） [exp(0.5*0.052^(x/249))] |        5        |     global     |            13.43            |  x<~ 3.0   | 讨论：前面太小，后面太大，应该做更平滑 |
|             attention + 1 * soft fresh              |              0.08 ~ 0.24 linear              |        5        |     global     | 13.23(2080Ti) 13.12(AutoDL) |   x 3.0    |    软激活方案行之有效，可以调整权重    |
|           self-attention + 1 * soft fresh           |              0.08 ~ 0.24 linear              |        5        |     global     |            13.30            |   x 3.0    |    即attn map对角线值归一化作为得分    |
|             other-attn + 1 * soft fresh             |              0.08 ~ 0.24 linear              |        5        |     global     |        13.00(AutoDL)        |   x 3.0    |                                        |
|             other-attn + 1 * soft fresh             |              0.24 ~ 0.08 linear              |        5        |     global     |        13.11(AutoDL)        |   x 3.0    |                                        |
| 0.5 * attention + 0.5 * other-attn + 1 * soft fresh |              0.08 ~ 0.24 linear              |        5        |     global     |        13.06(AutoDL)        |   x 3.0    |                                        |
| 0.5 * attention + 0.5 * self-attn + 1 * soft fresh  |              0.08 ~ 0.24 linear              |        5        |     global     |            13.31            |   x 3.0    |                                        |
| 1.5 * attention  - 0.5 * self-attn + 1 * soft fresh |              0.08 ~ 0.24 linear              |        5        |     global     |            13.20            |   x 3.0    |      有些微提升，可以加大比例看看      |
|               attention 去除对角元素                |              0.08 ~ 0.24 linear              |        5        |     global     |            13.23            |   x 3.0    |      看起来对对角线的方案效果一般      |
|           attention score follow conditon           |              0.08 ~ 0.24 linear              |        5        |     global     |            13.24            |   x 3.0    |            原先是两边分开算            |
|         attention score follow uncondition          |              0.08 ~ 0.24 linear              |        5        |     global     |            13.32            |   x 3.0    | 单一依赖condition和uncondition都不够好 |
|                        norm                         |              0.08 ~ 0.24 linear              |        5        |     global     |        13.06(AutoDL)        |   x 3.0    |                                        |


* local方案，即采用要求token达到指定缓存次数阈值后对该token强制激活。整个模型除了首次外后续没有一次attention计算是完美的计算，对于一些被强制激活的token来说，即使其已经激活，其它token仍然处于cache的状态，因此对其更新仍不准确。每一个token都产生一点偏差，每一步质量越来越差，量变进而引起质变，导致图像质量差。在偏离较远下的更新甚至可能不如不更新。基于此，我们认识到每隔一些时间步进行统一的强制激活是非常必要的。
* soft fresh 策略：在score中增加一项与累计连续缓存步数正相关的项，促进缓存步数高的score上升，目前看来是行之有效的。

### TODO
基于token norm值的得分，k v cache是否应该去掉， token pruning for vit 读读看。 fresh ratio 先大后小，比例？ soft fresh 乘法？ 更大的fresh ratio？ soft fresh 权重重调整

## A800 TokenCache(256)系列实验(Global,5k FORA=12.58)
|          打分策略          |   fresh ratio    | threshold | 理论加速比 |  FID  |                  comments                   |
| :------------------------: | :--------------: | :-------: | :--------: | :---: | :-----------------------------------------: |
| other-attn + 1* soft fresh | 0.08~0.24 linear |     5     |    x3.0    | 12.77 |                                             |
| similarity + 1* soft fresh | 0.08~0.24 linear |     5     |    x3.0    | 12.81 | 前两步模块末计算结果指导t对应模块开始的得分 |
| similarity + 1* soft fresh | 0.08~0.24 linear |     5     |    x3.0    | 12.76 |  上一步该模块计算结果与当前模块输入相似度   |
| other-attn + 1* soft fresh | 0.10~0.30 linear |     6     |    x3.0    | 13.08 |                 FID显著上升                 |
| other-attn + 1* soft fresh | 0.25~0.75 linear |     5     |    x1.6    | 13.08 |        fresh ratio这里看起来有点微妙        |
| other-attn + 1* soft fresh | 0.0（FORA N=5）  |     5     |    x5.0    | 13.10 |   过大和过小的fresh ratio都会导致结果变差   |
|             \              | 0.0（FORA N=3）  |     3     |    x3.0    | 12.58 |                 复现了FORA                  |
| other-attn + 1* soft fresh |    0.05~0.28     |     5     |    X3.0    | 12.72 |            更优秀的波动幅度：70%            |
| other-attn + 1* soft fresh |    0.05~0.28     |     6     |    X3.0    | 13.20 |              threshold 很敏感               |
| other-attn + 1* soft fresh |    0.05~0.28     |     5     |    X3.0    | 12.83 |                 no kv cache                 |
| other-attn + 1* soft fresh |    0.05~0.28     |     3     |    X2.3    | 12.64 |                                             |
|                            |                  |           |            |       |                                             |
