from pathlib import Path

from tame.agents.simple_ppo3 import Agent, Args  # noqa: F401

from tame.envs.mpe_simple_spread import Env  # noqa: F401

# Agent and Env
MAX_TS = 100

# Расширенная конфигурация с настройками для каждого уровня отдельно
agent_args = Args(
    # === ОБЩИЕ ПАРАМЕТРЫ ===
    total_timesteps=2000000,
    cuda=0,
    seed=10,
    verbose=False,
    save_all_trace=True,

    # === ИЕРАРХИЧЕСКИЕ ПАРАМЕТРЫ ===
    freq_top=3,  # Top уровень действует каждые 9 шагов (3*3)
    freq_mid=3,  # Middle уровень каждые 3 шага
    freq_bottom=1,  # Bottom уровень каждый шаг
    learn_comm=True,
    learn_proxy=False,
    comm_size=16,
    ae_epochs=100,

    # === ОБЩИЕ PPO ПАРАМЕТРЫ ===
    learning_rate=0.001,
    gamma=0.99,
    batch_size=1024,
    num_minibatches=8,
    update_epochs=4,
    clip_coef=0.1,
    ent_coef=0.01,
    vf_coef=0.5,
    max_grad_norm=0.5,
    target_kl=0.015,

    # === НАСТРОЙКИ ДЛЯ BOTTOM УРОВНЯ ===
    # Bottom агенты обучаются быстрее (больше learning rate)
    bottom_learning_rate=0.003,  # Выше чем общий 0.001
    # bottom_batch_size=1024, Меньше batch для быстрого обучения
    bottom_clip_coef=0.2,  # Больше clipping для стабильности
    bottom_ent_coef=0.02,  # Больше исследования для bottom агентов

    # === НАСТРОЙКИ ДЛЯ MIDDLE УРОВНЯ ===
    # Middle агенты используют общие параметры
    # middle_learning_rate=None,  # Будет использован общий learning_rate
    # middle_batch_size=None,     # Будет использован общий batch_size

    # === НАСТРОЙКИ ДЛЯ TOP УРОВНЯ ===
    # Top агент обучается медленнее и осторожнее
    # top_learning_rate=0.0005,  # Ниже чем общий 0.001
    # top_batch_size=4096,  # Больше batch для стабильности
    top_clip_coef=0.05,  # Меньше clipping для плавного обучения
    # top_ent_coef=0.005, Меньше исследования для top агента

    # === НАСТРОЙКИ ДЛЯ PHI ФУНКЦИЙ ===
    # Phi функции (коммуникация) обучаются отдельно
    phi_learning_rate=0.002,  # Средний learning rate для phi
    phi_batch_size=512,  # Меньший batch для быстрой адаптации
    phi_clip_coef=0.15,  # Умеренный clipping

    # === НАСТРОЙКИ ДЛЯ PSI ФУНКЦИЙ ===
    # Psi функции (proxy reward) - если включены
    # phi_learning_rate=0.002
    # psi_batch_size=2048,
    # psi_clip_coef=0.1,
)

# Env args
TOTAL_AGENTS = 4

# Exp args
EVAL_RUNS = 1
SAVE_PATH = Path("./exps/simple_spread")
RUN_NAME = f"simple_ppo3_comm__a{TOTAL_AGENTS}_s{agent_args.seed}"
TRAIN = True
