from pathlib import Path
from tame.agents.simple_ppo3_strategic import Agent, Args  # noqa: F401
from tame.envs.mpe_simple_spread import Env  # noqa: F401

# Agent and Env
MAX_TS = 200

# Конфигурация с ПОЛНЫМ обучением (И phi И psi функции)
# Максимальная гибкость - и коммуникация, и формирование наград обучаемы
agent_args = Args(
    # === ОБЩИЕ ПАРАМЕТРЫ ===
    total_timesteps=2000000,
    cuda=0,
    seed=10,
    verbose=False,
    save_all_trace=True,

    # === ИЕРАРХИЧЕСКИЕ ПАРАМЕТРЫ ===
    freq_top=3,  # Top уровень действует каждые 9 шагов (3*3)
    freq_mid=3,  # Middle уровень каждые 3 шага
    freq_bottom=1,  # Bottom уровень каждый шаг
    learn_comm=True,  # С обучаемой коммуникацией
    learn_proxy=True,  # С обучаемыми proxy rewards
    comm_size=16,  # Размер коммуникационного вектора

    # === ОБЩИЕ PPO ПАРАМЕТРЫ ===
    learning_rate=0.001,
    gamma=0.99,
    batch_size=2048,
    num_minibatches=8,
    update_epochs=4,
    clip_coef=0.1,
    ent_coef=0.01,
    vf_coef=0.5,
    max_grad_norm=0.5,
    target_kl=0.015,

    # === НАСТРОЙКИ ДЛЯ BOTTOM УРОВНЯ ===
    # Bottom агенты действуют каждый шаг - нужно больше exploration
    bottom_ent_coef=0.015,  # Чуть больше исследования

    # === НАСТРОЙКИ ДЛЯ MIDDLE УРОВНЯ ===
    # Middle агенты действуют каждые 3 шага - используют общие параметры

    # === НАСТРОЙКИ ДЛЯ TOP УРОВНЯ ===
    # Top агент действует каждые 9 шагов - консервативнее в исследовании
    top_ent_coef=0.005,  # Меньше exploration для стратегических решений

    # === НАСТРОЙКИ ДЛЯ PHI ФУНКЦИЙ (коммуникация) ===
    # Phi функции нужно обучать быстро для адаптивной коммуникации
    phi_learning_rate=0.002,  # Чуть выше для быстрой адаптации коммуникации
    phi_clip_coef=0.15,  # Умеренный clipping для стабильности обучения
    phi_batch_size=1024,  # Меньший batch для быстрой адаптации

    # === НАСТРОЙКИ ДЛЯ PSI ФУНКЦИЙ (proxy rewards) ===
    # Psi функции формируют внутренние награды - должны быть стабильными
    psi_learning_rate=0.0008,  # Чуть медленнее чем общий (стабильность наград)
    psi_clip_coef=0.08,  # Меньший clipping для плавных изменений наград
    psi_batch_size=3072,  # Чуть больший batch для стабильности наград

    # В этом режиме и phi и psi функции работают совместно:
    # - phi обеспечивают эффективную коммуникацию
    # - psi формируют адаптивные внутренние награды
    # Это самый сложный режим, но потенциально наиболее эффективный
)

# Env args
TOTAL_AGENTS = 4

# Exp args
EVAL_RUNS = 1
SAVE_PATH = Path("./exps/simple_spread")
RUN_NAME = f"simple_ppo3_strategic_both__a{TOTAL_AGENTS}_s{agent_args.seed}"
TRAIN = True