CUDA_VISIBLE_DEVICES=0 python main_arq_real.py  --model meta-llama/Llama-2-7b-hf   --rotate --rotate_mode arq    --w_bits 2 --a_bits 16 --a_clip_ratio 1.0 --v_bits 16 --v_clip_ratio 1.0 --k_bits 16 --k_clip_ratio 1.0  --w_clip   --nsamples 256    --bsz 4   --arq_calib_batches 64    --arq_steps 400   --arq_lr 1.0  --arq_lambda_ortho 10.0   --arq_lambda_entropy 0. --arq_optimizer sgd  --arq_momentum 0.95     --arq_init_scale 1.0

WikiText-2 PPL: 34.583


CUDA_VISIBLE_DEVICES=0 python main_arq_real.py  --model meta-llama/Llama-2-7b-hf   --rotate --rotate_mode arq    --w_bits 2 --a_bits 16 --a_clip_ratio 1.0 --v_bits 16 --v_clip_ratio 1.0 --k_bits 16 --k_clip_ratio 1.0  --w_clip   --nsamples 256    --bsz 4   --arq_calib_batches 64    --arq_steps 100   --arq_lr 1.0  --arq_lambda_ortho 10.0   --arq_lambda_entropy 0. --arq_optimizer sgd  --arq_momentum 0.95     --arq_init_scale 1.0

WikiText-2 PPL: 25.717


CUDA_VISIBLE_DEVICES=0 python main_arq_real.py  --model meta-llama/Llama-2-7b-hf   --rotate --rotate_mode arq    --w_bits 2 --a_bits 16 --a_clip_ratio 1.0 --v_bits 16 --v_clip_ratio 1.0 --k_bits 16 --k_clip_ratio 1.0  --w_clip   --nsamples 256    --bsz 4   --arq_calib_batches 64    --arq_steps 200   --arq_lr 1.0  --arq_lambda_ortho 10.0   --arq_lambda_entropy 0. --arq_optimizer sgd  --arq_momentum 0.95     --arq_init_scale 1.0

WikiText-2 PPL: 23.746

quarot baseline

python main.py       --model meta-llama/Llama-2-7b-hf     --rotate  --w_bits 2 --w_clip   --nsamples 256   --bsz 4

WIKITEXT2 PPL: 27.900

no ortho loss

CUDA_VISIBLE_DEVICES=0 python main_arq_real.py  --model meta-llama/Llama-2-7b-hf   --rotate --rotate_mode arq    --w_bits 2 --a_bits 16 --a_clip_ratio 1.0 --v_bits 16 --v_clip_ratio 1.0 --k_bits 16 --k_clip_ratio 1.0  --w_clip   --nsamples 256    --bsz 4   --arq_calib_batches 64    --arq_steps 200   --arq_lr 1.0  --arq_lambda_ortho 0.0   --arq_lambda_entropy 0. --arq_optimizer sgd  --arq_momentum 0.95     --arq_init_scale 1.0

WikiText-2 PPL: 23.746


with entropy loss
CUDA_VISIBLE_DEVICES=0 python main_arq_real.py  --model meta-llama/Llama-2-7b-hf   --rotate --rotate_mode arq    --w_bits 2 --a_bits 16 --a_clip_ratio 1.0 --v_bits 16 --v_clip_ratio 1.0 --k_bits 16 --k_clip_ratio 1.0  --w_clip   --nsamples 256    --bsz 4   --arq_calib_batches 64    --arq_steps 400   --arq_lr 1.0  --arq_lambda_ortho 1.0   --arq_lambda_entropy 0.01 --arq_optimizer sgd  --arq_momentum 0.95     --arq_init_scale 1.0

WikiText-2 PPL: 34.827


