[
  {
    "label": "ppo"
  },
  {
    "label": "q"
  },
  {
    "label": "policy"
  },
  {
    "label": "o"
  },
  {
    "label": "reference"
  },
  {
    "label": "reward"
  },
  {
    "label": "value"
  },
  {
    "label": "advantage"
  },
  {
    "label": "r"
  },
  {
    "label": "v"
  },
  {
    "label": "gae"
  },
  {
    "label": "a"
  },
  {
    "label": "normalizer"
  },
  {
    "label": "n"
  },
  {
    "label": "backprop"
  },
  {
    "label": "update"
  },
  {
    "label": "grpo"
  },
  {
    "label": "q"
  },
  {
    "label": "policy"
  },
  {
    "label": "o1"
  },
  {
    "label": "o2"
  },
  {
    "label": "on"
  },
  {
    "label": "reference"
  },
  {
    "label": "reward"
  },
  {
    "label": "kl"
  },
  {
    "label": "r1"
  },
  {
    "label": "r2"
  },
  {
    "label": "r3"
  },
  {
    "label": "r4"
  },
  {
    "label": "groupcomputation"
  },
  {
    "label": "a1"
  },
  {
    "label": "a2"
  },
  {
    "label": "a3"
  },
  {
    "label": "a4"
  },
  {
    "label": "aggregator"
  },
  {
    "label": "g"
  },
  {
    "label": "kl"
  },
  {
    "label": "dpo"
  },
  {
    "label": "q"
  },
  {
    "label": "policy"
  },
  {
    "label": "r"
  },
  {
    "label": "logo"
  },
  {
    "label": "referencemodel"
  },
  {
    "label": "logo"
  },
  {
    "label": "dpoobjective"
  },
  {
    "label": "preferencedata"
  },
  {
    "label": "preferences"
  },
  {
    "label": "s"
  },
  {
    "label": "summary"
  },
  {
    "label": "s"
  },
  {
    "label": "update"
  }
]