\documentclass{article}
\usepackage{amsmath}


% if you need to pass options to natbib, use, e.g.:
%     \PassOptionsToPackage{numbers, compress}{natbib}
% before loading maeb_2025

\usepackage[nonatbib,preprint]{maeb_2025} %--> para poner nuestros nombres
% ready for submission
%\usepackage[nonatbib]{maeb_2025}
\usepackage[utf8]{inputenc} \usepackage{csquotes}
\usepackage{graphicx} 
%\usepackage[
%language = spanish,
%backend=biber,
%sorting=ynt
%]{biblatex}
%\addbibresource{refs.bib}

\usepackage[spanish]{babel}

% to compile a preprint version, e.g., for submission to arXiv, add add the
% [preprint] option:
%     \usepackage[preprint]{maeb_2025}


% to compile a camera-ready version, add the [final] option, e.g.:
%     \usepackage[final]{maeb_2025}


% to avoid loading the natbib package, add option nonatbib:
%    \usepackage[nonatbib]{maeb_2025}


\usepackage[utf8]{inputenc} % allow utf-8 input
\usepackage[T1]{fontenc}    % use 8-bit T1 fonts
\usepackage{hyperref}       % hyperlinks
\usepackage{url}            % simple URL typesetting
\usepackage{booktabs}       % professional-quality tables
\usepackage{amsfonts}       % blackboard math symbols
\usepackage{nicefrac}       % compact symbols for 1/2, etc.
\usepackage{microtype}      % microtypography
\usepackage{xcolor}         % colors


\title{Estudio sobre el ajuste óptimo de pesos en SPODEs para balancear \emph{Accuracy} y \emph{Fairness} \\en el clasificador probabilístico AODE}


% The \author macro works with any number of authors. There are two commands
% used to separate the names and addresses of multiple authors: \And and \AND.
%
% Using \And between authors leaves it to LaTeX to determine where to break the
% lines. Using \AND forces a line break at that point. So, if LaTeX puts 3 of 4
% authors names on the first line, and the last on the second line, try using
% \AND instead of \And before the third author name.


\author{%
  M. Julia Flores\thanks{Julia.Flores@uclm.es} \\
  Departmento de Sistemas Informáticos - I3A\\
  Universidad de Castilla - La Mancha\\
  \texttt{Julia.Flores@uclm.es} \\
  % examples of more authors
  \And
  José A. Gámez \\
  Departmento de Sistemas Informáticos - I3A\\
  Universidad de Castilla - La Mancha\\
  \texttt{Jose.Gamez@uclm.es} \\
  % \AND
  % Coauthor \\
  % Affiliation \\
  % Address \\
  % \texttt{email} \\
  % \And
  % Coauthor \\
  % Affiliation \\
  % Address \\
  % \texttt{email} \\
  % \And
  % Coauthor \\
  % Affiliation \\
  % Address \\
  % \texttt{email} \\
}


\begin{document}


\maketitle


\begin{abstract}
 Este proyecto propone un enfoque basado en optimización multiobjetivo y algoritmos evolutivos para parametrizar el clasificador Average One-Dependence Estimators (AODE), mediante un sistema de pesado de los diferentes SPODEs. El estudio está centrado en el impacto que este pesado produce respecto a la mejora en cuanto a medidas de fairness (equidad) para este clasificador, sin menoscabar en exceso su precisión. Se utilizará Naïve Bayes como baseline para comparar los resultados. La optimización se llevará a cabo mediante técnicas evolutivas como NSGA-II o MOEA/D, buscando configuraciones óptimas que reduzcan sesgos en conjuntos de datos con atributos sensibles. Se evaluará el impacto del ajuste de pesos en varios datasets, utilizando métricas estándar de clasificación y equidad. Finalmente, se analizarán los trade-offs entre precisión y fairness a través de la exploración de fronteras de Pareto, validando la viabilidad del enfoque propuesto.
\end{abstract}


\section{Motivación}

En los últimos años, el uso de modelos de aprendizaje automático en la toma de decisiones ha generado preocupación debido a los sesgos que pueden derivarse de los datos y los algoritmos utilizados \cite{pessach2022review}. Los modelos de clasificación automática juegan un papel crucial en la toma de decisiones en ámbitos como la sanidad, el crédito financiero y la justicia penal. En particular, los clasificadores bayesianos, aunque eficientes y robustos, pueden mostrar disparidades en la clasificación cuando se aplican a conjuntos de datos con atributos sensibles como género, etnicidad o edad.
Esto ha evidenciado problemas relacionados, ya que se puede derivar en decisiones discriminatorias. Por ello, la comunidad científica y la sociedad demanda el desarrollo de  modelos más justos, capaces de equilibrar precisión y equidad.

Dentro de la familia de clasificadores bayesianos, el Average One-Dependence Estimators (AODE) \cite{webb2005not} ha destacado en rendimiento frente al clásico Naïve Bayes (NB) \cite{murphy2006naive} y otros representantes de la familia semi-NB que también relajan la independencia condicional entre atributos \cite{Bielza:BNCs:survey:2014}. Inicialmente, en el clasificador AODE, todos los SPODEs aportan de manera equitativa. Sin embargo, podría aplicarse una técnica de ponderado donde se pudiera variar la importancia de los diferentes Super Parent One-Dependence Estimators (SPODEs) a la hora de realizar la clasificación. Esta estrategia de pesado va más alla de ponderar la importancia que cada variable tiene en el modelo final, ya que lo que se pondera es la importancia de un sub-modelo que incluye a todas las variables y modela explícitamente relaciones bivariadas entre algunas de ellas dada la clase. Ajustar estos pesos adecuadamente puede ser clave para mejorar tanto la calidad de la clasificación como cuán 'justa' esta es. 

Aunque existen variantes de AODE con pesos \cite{jiang2012weighted}, hasta nuestro conocimiento nunca se han optimizado para propósitos de equidad. Este trabajo busca, por tanto, explorar cómo algoritmos evolutivos y optimización multiobjetivo pueden utilizarse para encontrar la mejor parametrización de pesos en AODE, maximizando métricas de rendimiento sin comprometer medidas de fairness.

%%

\section{Hipótesis de trabajo principal}

En la literatura podemos encontrar distintos enfoques para abordar aspectos de equidad en el clasificador NB, como p.e. los centrados en garantizar la independencia de la clasificación respecto al valor de un atributo sensible \cite{Calders:DMKD:2010}, el uso de más de una variable sensible \cite{Boulitsakis:fairnes-NB:2022} o en el descubrimiento y eliminación de patrones discriminativos \cite{choi2020learning}. Sin embargo, no hemos encontrado ningún estudio centrado en el clasificador AODE \cite{webb2005not}, uno de los denominados clasificadores semi-NB más eficientes y eficaces. 

AODE es un clasificador de los llamados generativos, puesto que en su aprendizaje trata de modelar la distribución de probabilidad conjunta $P(C,\mathbf{A})$ en lugar de $P(C|\mathbf{A})$. AODE trata a todas las variables por igual, sin considerar la existencia de variables sensibles. En este trabajo partimos de la asunción de que existe la posibilidad de  mejorar simultáneamente la precisión y la equidad en clasificadores AODE mediante la optimización de los pesos asignados a cada SPODE, o al menos mejorar en equidad sin perjudicar en exceso la precisión. Puesto que se dispone de algoritmos evolutivos dirigidos a la optimización multiobjetivo \cite{blank2020pymoo}, podríamos aplicarlo a nuestro tema de estudio, adaptándolo también a Naive Bayes, para compararlo con un clasificador bayesiano más sencillo. Diferentes estrategias de optimización pueden llevar a distintos trade-offs entre precisión y fairness, lo que sugiere la necesidad de analizar el frente de Pareto para seleccionar la mejor configuración según el caso de uso. 

Consideramos que es un ámbito de estudio potencialmente interesante, y que es diferente al pesado de variables \cite{salazar2021automated} o de instancias \cite{petrovic2022fair}, puesto que en el AODE se combinan SPODEs (ver Figura \ref{fig:aode}), resultando en una agregación de múltiples clasificadores con restricciones estructurales para facilitar el aprendizaje y limitar su complejidad.

\begin{figure}
  \centering
  \begin{tabular}{cccc}
     \includegraphics[width=0.23\textwidth]{figs/aodeexample1spode.png} &    \includegraphics[width=0.23\linewidth]{figs/aodeexample2spode.png} \includegraphics[width=0.23\linewidth]{figs/aodeexamplecolor.png} &
     \includegraphics[width=0.23\linewidth]{figs/aodeexample4spode.png}
     
  \end{tabular}
  \caption{Figura donde se presentan los 4 SPODEs para una AODE con cuatro variables predictoras o atributos $A_i$. \label{fig:aode}}
\end{figure}

Para determinar la clasificación de una instancia se emplea la siguiente expresión:
\[
\hat{c} = \arg\max_{C} \sum_{i=1}^{n} P(C) P(A_i \mid C)  
\prod_{\substack{j=1 \\ j \neq i}}^{n} P(A_j \mid A_i, C)
\]

donde:
\begin{itemize}
    \item $P(C)$ es la probabilidad a priori de la clase.
    \item $P(A_i \mid C)$ es la probabilidad del superpadre dado la clase, para cada uno de los SPODEs.
    \item $P(A_j \mid A_i, C)$ es la probabilidad condicional de los otros atributos dado el superpadre y la clase.

\end{itemize}

El enfoque que proponemos, buscará integrar un vector de pesos optimizado: $w_1,w_2, \dots w_n$ tal que la clasificación sea:

\[
\hat{c} = \arg\max_{C} \frac{1}{\sum_{k=1}^n w_k} \times  \sum_{i=1}^{n} w_i \cdot P(C) P(A_i \mid C)  
\prod_{\substack{j=1 \\ j \neq i}}^{n} P(A_j \mid A_i, C)
\]

donde en definitiva cada SPODE será dotado de una importancia. Pretendemos usar pesos numéricos, y en principio los $w_i$ estarían en el intervalo [0,1].


\section{Objetivos}

El principal propósito es diseñar e implementar un método basado en optimización multiobjetivo con algoritmos evolutivos para ajustar los pesos en un clasificador AODE, con el fin de mejorar tanto la precisión como la equidad en la clasificación.
Para ello, más específicamente, pretendemos:
\begin{enumerate}
    \item  Implementar un esquema de optimización de pesos para AODE que permita mejorar métricas de fairness sin comprometer significativamente la precisión.
\item Comparar el rendimiento del AODE ajustado con el AODE estándar y el Naïve Bayes como baseline.
\item Evaluar el impacto del ajuste de pesos en diferentes datasets con atributos sensibles.
\item Analizar los trade-offs entre precisión y fairness mediante la exploración de fronteras de Pareto. Para ello consideraremos distintas medidas de equidad de entre las disponibles en la literatura:
\begin{itemize}
    \item \textit{Paridad Estadística:} La probabilidad de una predicción positiva, dada la pertenencia a un grupo, debe ser igual para todos los grupos.
    \item \textit{Impacto Dispar:} La media del cociente de predicciones positivas entre cada par de grupos debe ser 1 o mayor que un porcentaje \( p\% \) determinado.
    %\item \textit{Equidad de Subgrupos:} Aplicación de la equidad grupal a un número infinito de grupos muy pequeños.
    \item \textit{Equidad Diferencial:} Aplicación de la equidad grupal a grupos definidos por múltiples atributos sensibles superpuestos.
    \item \textit{Equidad Individual:} La diferencia en la probabilidad de los resultados entre dos individuos no debe ser mayor que la distancia de similitud entre ellos.
    \item \textit{Equidad Causal:} Uso de modelado causal para determinar el efecto de los atributos sensibles en las predicciones.
\end{itemize}

\end{enumerate}

\section{Metodología}

Este es el procedimiento que planeamos seguir:

\begin{enumerate}
    \item Selección de datasets.- Se trabajará con datasets de clasificación que contengan variables sensibles, como COMPAS, Adult Income y German Credit, entre otros. \cite{le2022survey}. Se discretizarán los atributos numéricos para su uso en clasificadores bayesianos.
    Implementación de los modelos

\item Implementación de modelos.- Naïve Bayes se usará como baseline, proporcionando un punto de comparación sin ajuste de pesos.
AODE con ajuste de pesos será el modelo principal, donde los pesos de los SPODEs se optimizarán mediante algoritmos evolutivos.

\item Optimización de pesos.-  Se utilizarán algoritmos evolutivos para encontrar configuraciones óptimas de pesos.
Se empleará un enfoque de optimización multiobjetivo (e.g., NSGA-II, MOEA/D) \cite{deb2002fast} para equilibrar precisión y fairness.

\item Evaluación y validación.-  Se medirán métricas de precisión como accuracy, F1-score.
Se evaluará fairness mediante algunas métricas como Disparate Impact, Equalized Odds, Absolute Between-ROC Area (ABROCA) o las diferencias en tasas de falsos positivos/negativos entre grupos sensibles \cite{garg2020fairness}. Se analizarán los trade-offs a través de la visualización de fronteras de Pareto. Se buscará la mejor configuración propuesta mediante técnicas como el \emph{Compromise programming} 
\cite{chen1998quality}
\item Análisis de resultados .- Se compararán los resultados obtenidos con los distintos modelos y algoritmos evolutivos empleados. Se evaluará la capacidad del enfoque propuesto para mejorar la equidad sin una degradación significativa del rendimiento.

\end{enumerate}

%%

\textbf{Agradecimientos.} Trabajo parcialmente financiado por el Gobierno de Castilla-La Mancha, la Universidad de Castilla-La Mancha y los Fondos Europeos, UE, mediante los proyectos SBPLY/21/180225/000062 y 2022-GRIN-34437. Trabajo parcialmente financiado por MICIU/AEI/10.13039/501100011033 and ERDF, EU mediante el proyecto PID2022-139293NB-C32.






%\bibliography{refs.bib}
%\printbibliography

\bibliographystyle{plain}
\bibliography{refs.bib}


\end{document}