#!/bin/bash
python experiment.py \
    --algorithm.device=gpu \
    --algorithm.name="trirl_trpl.flax" \
    --algorithm.total_timesteps=30e6 \
    --algorithm.learning_rate=0.0001578247647771376 \
    --algorithm.anneal_learning_rate=False \
    --algorithm.nr_steps=10 \
    --algorithm.nr_epochs=30 \
    --algorithm.minibatch_size=512 \
    --algorithm.gamma=0.99 \
    --algorithm.gae_lambda=0.95 \
    --algorithm.clip_range=0.2 \
    --algorithm.entropy_coef=2.298849434839432e-05 \
    --algorithm.critic_coef=1.0 \
    --algorithm.max_grad_norm=10.0 \
    --algorithm.std_dev=1.0 \
    --algorithm.nr_hidden_units=256 \
    --algorithm.nr_hidden_units_disc=256 \
    --algorithm.learning_rate_disc=0.0002015531860350999 \
    --algorithm.nr_epochs_disc=30 \
    --algorithm.env_reward_frac=0.0 \
    --algorithm.data_path="../expert_data/expert_dataset_Ant-v5_30_PPO.npz" \
    --algorithm.epsilon=0.6931393089159753 \
    --algorithm.disc_buffer_capacity=100 \
    --algorithm.mean_bound=0.0002042444272419476 \
    --algorithm.cov_bound=0.0044635849738194145 \
    --algorithm.trust_region_coef=0.6815786322202716 \
    --algorithm.nr_epochs_rew=30 \
    --algorithm.learning_rate_reward_fn=5.7797838797843984e-05 \
    --algorithm.gp_lambda=0.03267622091691947 \
    --algorithm.gp_alpha=0.5 \
    --algorithm.handle_absorbing_states=True \
    --algorithm.reward_fn_approximator=False \
    --algorithm.on_demand_etas=False \
    --algorithm.reward_type='state-action' \
    --algorithm.reward_approximator_type='state-action' \
    --environment.name="ant_mjx" \
    --environment.nr_envs=4096 \
    --environment.seed=0 \
    --runner.mode="train" \
    --runner.track_console=True \
    --runner.track_tb=True \
    --runner.track_wandb=True \
    --runner.save_model=False \
    --runner.wandb_entity="xxxx" \
    --runner.project_name="trirl" \
    --runner.exp_name="ant_trirl_trpl" \
