#!/bin/bash

# gpu settings
export CUDA_VISIBLE_DEVICES=0

MODEL=qwen2_vl
PRETRAINED=/your/model/path

python -m vlmq.w_only_quantize \
    --model $MODEL \
    --model_args=pretrained=$PRETRAINED,max_pixels=2359296,use_flash_attention_2=True \
    --batch_size 1 \
    --method vlmq \
    --percdamp 0.01 \
    --act_order \
    --n_samples 512 \
    --seqlen 512 \
    --w_bits 3 \
    --w_groupsize -1 \
    --w_clip \
    --a_bits 16 \
    --v_bits 16 \
    --k_bits 16 \
    --k_asym \
    --v_asym \
    --w_asym \
    --a_asym \
    --a_clip_ratio 0.9 \
    --k_clip_ratio 0.95 \
    --v_clip_ratio 0.95 \
    --grad_from attn_out \
    --grad_acton qkvo \
    --grad_norm l1 \
    --grad_clip \
    --grad_clip_times 10.0 \