# coding: utf-8
import os

import numpy as np
import pandas as pd
from joblib import load, dump
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

from src.utils import LIST_FEATURE_DUMMY, LIST_FEATURE_DUMMY_CB, combine_dt_dummy_belief

##############################################s######################################
####################################################################################
############################## AREA OF INPUT PARAMETERS ############################
####################################################################################
####################################################################################

##### Environment Parameters
PATH = "." # Root directory, should be the same path this "README.md" file locates
PATH_DATA = f"{PATH}/data" # Path for data
PATH_MODELS = f"{PATH}/models" # Path for models

##### Parameters for Bandits
random_seeds  = list(range(1986, 1996))

####################################################################################
####################################################################################
############# Create Output Path, Load the data and Conversion Model ###############
####################################################################################
####################################################################################
dict_hyper = {}

for index_, random_seed in enumerate(random_seeds):
    print(random_seed)
    ##### Load Data and Model
    dt_reward_dummy = pd.read_parquet(f"{PATH_MODELS}/random_seed_{random_seed}/dt_reward_dummy.pq")
    dt_reward_belief = pd.read_parquet(f"{PATH_MODELS}/random_seed_{random_seed}/dt_reward_belief.pq")
    dict_kpi_rewards = load(f"{PATH_MODELS}/random_seed_{random_seed}/dict_kpi_rewards.pkl")
    Belief_simulator = load(f"{PATH_MODELS}/random_seed_{random_seed}/belief_simulator.pkl")

    ##### Create the folder for the output model
    if os.path.isdir(f"{PATH_MODELS}/random_seed_{random_seed}"):
        pass
    else:
        os.makedirs(f"{PATH_MODELS}/random_seed_{random_seed}")

    ####################################################################################
    ####################################################################################
    ########################## Hyperparameters Tuning ##################################
    ####################################################################################
    ####################################################################################
    ##### Hyperparameters Tuning for Linear Bandits - No Belief
    df_action_random = \
        pd.DataFrame.from_dict(data = {'index_env': range(1, int(dt_reward_belief['index_env'].max()) + 1),
                                       'ACTION': np.random.choice(['no_action', 'email','call'], dt_reward_belief['index_env'].max())})

    dt_reward_belief_action = \
        dt_reward_belief.merge(df_action_random, how = 'inner', on = ['index_env', 'ACTION']).sort_values('index_env').reset_index(drop=True)
    dt_reward_belief_action_dummy = \
        dt_reward_dummy.merge(df_action_random, how = 'inner', on = ['index_env', 'ACTION']).sort_values('index_env').reset_index(drop=True)

    ### For reward model
    grid_ridge_reward={"alpha":np.logspace(-2, 2, 100)}# l1 lasso l2 ridge
    ridge_reward = Ridge(fit_intercept=False)
    ridge_reward_cv=GridSearchCV(ridge_reward, grid_ridge_reward, cv=5, scoring='neg_mean_squared_error', verbose = 1)
    ridge_reward_cv.fit(X = dt_reward_belief_action_dummy[LIST_FEATURE_DUMMY].values, y=dt_reward_belief_action["realized_reward"].values)

    print("tuned hpyerparameters :(best parameters) ", ridge_reward_cv.best_params_)
    print("neg_mean_squared_error :", ridge_reward_cv.best_score_)

    ##### Hyperparameters Tuning for Linear Bandits - with Belief
    dt_reward_belief_action_cb_dummy = \
        combine_dt_dummy_belief(dt = dt_reward_belief_action_dummy[LIST_FEATURE_DUMMY], belief=np.array(Belief_simulator.hist_belief))

    ### For reward model with belief
    grid_ridge_reward_belief = {"alpha":np.logspace(-2, 2, 100)}# l1 lasso l2 ridge
    ridge_reward_belief = Ridge(fit_intercept=False)
    ridge_reward_belief_cv =GridSearchCV(ridge_reward_belief, grid_ridge_reward_belief, cv=5, scoring='neg_mean_squared_error', verbose = 1)
    ridge_reward_belief_cv.fit(X = dt_reward_belief_action_cb_dummy[LIST_FEATURE_DUMMY_CB].values, y=dt_reward_belief_action["realized_reward"].values)

    print("tuned hpyerparameters :(best parameters) ", ridge_reward_belief_cv.best_params_)
    print("neg_mean_squared_error :", ridge_reward_belief_cv.best_score_)

    if index_ == 0:
        dict_hyper['lambda_no_belief'] = ridge_reward_cv.best_params_['alpha']
        dict_hyper['lambda_belief'] = ridge_reward_belief_cv.best_params_['alpha']
    else:
        dict_hyper['lambda_no_belief'] += ridge_reward_cv.best_params_['alpha']
        dict_hyper['lambda_belief'] += ridge_reward_belief_cv.best_params_['alpha']
    print('------------------------------------')

dict_hyper['lambda_no_belief'] /= (index_ + 1)
dict_hyper['lambda_belief'] /= (index_ + 1)

dict_hyper['lambda_no_belief'] = np.round(dict_hyper['lambda_no_belief'], 2)
dict_hyper['lambda_belief'] = np.round(dict_hyper['lambda_belief'], 2)

####################################################################################
####################################################################################
######################### Export Hyperparameters ###################################
####################################################################################
####################################################################################
dump(dict_hyper, f"{PATH_MODELS}/dict_hyper.pkl")
