EXP_NAME=dolly-gfn
VICTIM_MODEL=databricks/dolly-v2-7b

python main.py \
--exp_name $EXP_NAME \
--sim_tolerance 0.25 \
--victim_model $VICTIM_MODEL \
--lr 1e-4 \
--max_len 20 \
--reward_sched_horizon 500 \
--train_steps 5000 \
--seed 42 \
--temp_low 0.5 \
--temp_high 2.0 \
--lm_sched_horizon 2000 \
--lm_sched_end 1.0 \
--buffer_size 1000 \
--compare reward \
--beta 0.1


python eval.py \
--ckpt save/${EXP_NAME}/latest \
--output_file $EXP_NAME \
--victim_model dolly