

python train.py --platform=XX  \
  --arch=clip_transformer_txt_trunc_dm    \
--exp_name=MSRVTT --videos_dir=XXXXX  \
--batch_size=32 --noclip_lr=3e-5 --transformer_dropout=0.3 --huggingface --dataset_name=MSRVTT \
    --evals_per_epoch=5    --gpu='0' --num_epochs=5  --pretrain_num_epochs=0   \
 --dpm_recon=vid --raw_video  --n_timestep=50  --trunc_timestep=10    \
    --DiT_blocks=4   \
  --dm_loss_type=l1  --training_recipe=train  \
  --dm_lr=3e-5    --training=joint_train

