DATA_DIR=xxx
OUTPUT_DIR=xxx

python gpt_token_train.py \
--train_file ${DATA_DIR}/negatives.jsonl \
--tokenizer_name ${OUTPUT_DIR}/gpt2-large \
--queries ${DATA_DIR}/queries.train.tsv \
--collection ${DATA_DIR}/collection.tsv \
--save_to ${DATA_DIR}/gpt2/train
