\documentclass[final]{article}


% if you need to pass options to natbib, use, e.g.:
%     \PassOptionsToPackage{numbers, compress}{natbib}
% before loading maeb_2025


% ready for submission
\usepackage{maeb_2025}


% to compile a preprint version, e.g., for submission to arXiv, add add the
% [preprint] option:
%     \usepackage[preprint]{maeb_2025}


% to compile a camera-ready version, add the [final] option, e.g.:
%     \usepackage[final]{maeb_2025}


% to avoid loading the natbib package, add option nonatbib:
%    \usepackage[nonatbib]{maeb_2025}
\renewcommand{\figurename}{Figura}
\renewcommand{\tablename}{Tabla}
\renewcommand{\refname}{Referencias}

\usepackage[utf8]{inputenc} % allow utf-8 input
\usepackage[T1]{fontenc}    % use 8-bit T1 fonts
\usepackage{hyperref}       % hyperlinks
\usepackage{url}            % simple URL typesetting
\usepackage{booktabs}       % professional-quality tables
\usepackage{amsmath,amssymb,amsfonts}      % blackboard math symbols
\usepackage{nicefrac}       % compact symbols for 1/2, etc.
\usepackage{microtype}      % microtypography
\usepackage{xcolor}         % colors
\usepackage{graphicx}
\usepackage[table,xcdraw]{xcolor}


\definecolor{colorA}{HTML}{def5c3} % green
\definecolor{colorB}{HTML}{ffeeda} % orange
\definecolor{colorC}{HTML}{e4effb} % blue
\definecolor{colorD}{HTML}{fdd6d2} % red

\newcommand{\groupA}[1]{%
  \begingroup\setlength{\fboxsep}{0pt}% no padding
  \colorbox{colorA}{#1}%
  \endgroup
}
\newcommand{\groupB}[1]{%
  \begingroup\setlength{\fboxsep}{0pt}% no padding
  \colorbox{colorB}{#1}%
  \endgroup
}
\newcommand{\groupC}[1]{%
  \begingroup\setlength{\fboxsep}{0pt}% no padding
  \colorbox{colorC}{#1}%
  \endgroup
}
\newcommand{\groupD}[1]{%
  \begingroup\setlength{\fboxsep}{0pt}% no padding
  \colorbox{colorD}{#1}%
  \endgroup
}

\newcommand{\Vpll}{\overleftarrow{V_{\sigma}^{<}}}
\newcommand{\Vill}{\overleftarrow{V_{\sigma^{-1}}^{<}}}
\newcommand{\Vpgl}{\overleftarrow{V_{\sigma}^{>}}}
\newcommand{\Vigl}{\overleftarrow{V_{\sigma^{-1}}^{>}}}
\newcommand{\Vplr}{\overrightarrow{V_{\sigma}^{<}}}
\newcommand{\Vilr}{\overrightarrow{V_{\sigma^{-1}}^{<}}}
\newcommand{\Vpgr}{\overrightarrow{V_{\sigma}^{>}}}
\newcommand{\Vigr}{\overrightarrow{V_{\sigma^{-1}}^{>}}}

\newcommand{\Vl}{\overleftarrow{V}}
\newcommand{\Vr}{\overrightarrow{V}}
\newcommand{\vl}{\overleftarrow{v}}
\newcommand{\vr}{\overrightarrow{v}}
\newcommand{\perm}{\sigma}
\newcommand{\inv}{{\sigma^{-1}}}

\title{Una Visión Unificada de Transformaciones Biyectivas en la Optimización de Problemas de Permutaciones}


% The \author macro works with any number of authors. There are two commands
% used to separate the names and addresses of multiple authors: \And and \AND.
%
% Using \And between authors leaves it to LaTeX to determine where to break the
% lines. Using \AND forces a line break at that point. So, if LaTeX puts 3 of 4
% authors names on the first line, and the last on the second line, try using
% \AND instead of \And before the third author name.

\usepackage{authblk}



\author[1]{\textbf{Mikel Malagón}}
\author[1]{\textbf{Aimar Barrena}}
\author[1]{\textbf{Hugo F. Iñigo}}
\author[1]{\textbf{Josu Ceberio}}
\author[3]{\textbf{Ekhiñe Irurozki}}
\author[1,2]{\textbf{Jose A. Lozano}}

\affil[1]{University of the Basque Country UPV/EHU\\ \texttt{\{mikel.malagon, hugofederico.inigo, josu.ceberio, ja.lozano\}@ehu.eus}\\ abarrena032@ikasle.ehu.eus}
\affil[2]{Basque Center for Applied Mathematics (BCAM)\\
\texttt{jlozano@bcamath.org}}
\affil[3]{Telecom Paris\\ \texttt{irurozki@telecom-paris.fr}}

\setlength{\textfloatsep}{5pt} 

\begin{document}


\maketitle


\begin{abstract}
Muchos problemas de optimización utilizan permutaciones para representar soluciones. Sin embargo, a pesar de su aparente simplicidad, las permutaciones presentan desafíos significativos para los métodos de optimización, especialmente para los algoritmos \textit{Global Random Search (GRS)}. En particular, la restricción de exclusividad mutua presente en las permutaciones plantea un reto importante tanto para el aprendizaje como para el muestreo de distribuciones de probabilidad.

Un enfoque alternativo implica el uso de funciones biyectivas sobre el espacio de permutaciones ($\mathbb{S}_n$) que permite transformar las soluciones codificadas como permutaciones en representaciones de vectores enteros, conocidas como \textit{inversion vectors}.
Aunque los \textit{inversion vectors} existen desde hace décadas, carecen de un marco general que proporcione una notación unificada y completa. En este artículo, presentamos una notación unificada que permite recodificar todos los posibles \textit{inversion vectors}, y que sienta las bases para su caracterización. Por último, estudiamos el comportamiento de los algoritmos \textit{GRS} cuando se utilizan diferentes \textit{inversion vectors} en diversos problemas de permutaciones.

\end{abstract}


\section{Introducción}

Las permutaciones son vectores de elementos dentro de un conjunto finito, donde cada elemento aparece exactamente una vez. Debido a su versatilidad, las permutaciones son fundamentales en muchos problemas de optimización del mundo real~\citep{perez2024review}, ya que se utilizan para representar rutas, órdenes, clasificaciones, emparejamientos y asignaciones. El \textit{Traveling Salesman Person Problem (TSP)}, el \textit{Quadratic Assignment Problem (QAP)}, el \textit{Flowshop Scheduling Problem (PFSP)} y el \textit{Linear Ordering Problem (LOP)}, son algunos de los problemas más representativos.

A pesar de su sencillez, las permutaciones se consideran una representación particularmente compleja de manejar para muchos algoritmos de optimización debido a varios factores: (1) son objetos inherentemente restringidos, ya que requieren que cada elemento del conjunto codificado aparezca exactamente una vez (la restricción de exclusividad mutua), (2) cualquier dependencia entre los elementos puede permanecer oculta debido a esta restricción, y (3) el número de permutaciones posibles crece exponencialmente con su longitud.

Los problemas de permutaciones representan un desafío importante para los algoritmos \textit{Global Random Search} (GRS)~\citep{zhigljavsky1991theory}. Estos métodos se basan en un muestreo secuencial de distribuciones de probabilidad, donde las soluciones de alta calidad extraídas de $P_t$ en la iteración $t$ se utilizan para construir la distribución $P_{t+1}$ de la siguiente iteración. La construcción de $P_t$, y particularmente su capacidad para muestrear soluciones relevantes para el problema, es un componente crítico que influye directamente en el comportamiento de los algoritmos GRS.


Algunos de los paradigmas de optimización más conocidos tales como la optimización Bayesiana, \textit{model-based gradient search}, y los algoritmos evolutivos como \textit{ant colony optimization}, \textit{particle swarm optimization} y los Algoritmos de Estimación de Distribuciones (EDAs)~\citep{larranaga2001estimation}, pertenecen a la clase GRS de algoritmos.

Como se mencionó anteriormente, para que los algoritmos GRS optimicen eficazmente problemas de permutaciones, es deseable que la base de las distribuciones $P_t$ sea el grupo simétrico $\mathbb{S}_n$. Cabe destacar que no todos los modelos probabilísticos que definen una distribución sobre $\mathbb{S}_n$ son igualmente adecuados para cada problema de permutaciones. Por ejemplo, aunque tanto el TSP como el QAP representan soluciones como permutaciones, la naturaleza distinta de sus soluciones —rutas en el TSP y asignaciones en el QAP— requiere diferentes modelos probabilísticos~\citep{santucci2023doubly}.

Por este motivo, se han adoptado modelos específicos para el dominio de las permutaciones como el modelo de Mallows (y sus versiones generalizadas)\citep{ceberio2013distance}, Plackett-Luce \citep{ceberio2023model}, Bradley-Terry~\citep{alza2018balancing} o las matrices doblemente estocásticas~\citep{santucci2023doubly}. Todos ellos han demostrado rendimientos notables sobre los problemas donde se han aplicado. Sin embargo, todos comparten una limitación común: implican procesos numéricos costosos en las etapas de aprendizaje o muestreo.

En una línea de trabajo paralela, algunos estudios plantean utilizar funciones biyectivas en $\mathbb{S}_n$ para transformar soluciones codificadas como permutaciones en representaciones alternativas de vectores de números enteros, donde la restricción de exclusividad mutua no se aplica explícitamente~\citep{doignon2004rim}. Estas representaciones, conocidas como \textit{inversion vectors}, codifican una permutación de longitud $n$ como un vector entero de la misma longitud, donde el $i$-ésimo elemento del vector indica la cantidad de elementos mayores (o menores) que el $i$-ésimo elemento de la permutación (o su inversa) ubicados a su derecha (o izquierda).

El concepto de \textit{inversion vectors} se remonta a los años 1800~\citep{rothe1820permutationen} y ha sido aplicado en numerosos trabajos de optimización combinatoria~\citep{doignon2004rim}. Sin embargo, la literatura muestra una notable falta de consistencia en las definiciones y notaciones para los diferentes tipos de \textit{inversion vectors}. Diversos estudios se refieren a los mismos tipos de \textit{inversion vectors} utilizando terminologías y formalismos distintos (\cite{van1991handbook} y~\cite{pemmaraju2003computational}, o~\cite{lothaire2002algebraic} y~\cite{vajnovszki2011new}). Por último, se ha observado que el uso de \textit{inversion vectors} afecta al rendimiento de los algoritmos de optimización, en ocasiones positivamente, en comparación con el uso directo de permutaciones en ciertos problemas~\citep{malagon2020alternative,malagon2024combinatorial}.

En este artículo, presentamos las siguientes contribuciones. En primer lugar, proporcionamos una perspectiva unificada de todas las posibles codificaciones de \textit{inversion vectors} para permutaciones, definiendo formalmente todos sus tipos e introduciendo una notación coherente que resuelve las inconsistencias existentes en la literatura. En segundo lugar, establecemos transformaciones biyectivas entre diferentes \textit{inversion vectors}, lo que facilita la categorización y el análisis de sus relaciones y características.
Por último, demostramos experimentalmente que el rendimiento del algoritmo UMDA~\citep{umda} (un EDA clásico) varía entre problemas según el \textit{inversion vector} utilizado. Si bien existen trabajos previos similares~\citep{malagon2020alternative,malagon2024combinatorial}, en este artículo relacionamos el rendimiento en optimización con una categorización teórica de las transformaciones biyectivas que presentamos en este trabajo.



\section{Preliminares} \label{sec:prelim}

Una permutación de un conjunto finito es un vector que contiene todos los elementos del conjunto dispuestos en un orden determinado. Por ejemplo, dado el conjunto $S=\{A, B, C, D\}$, una posible permutación es $\sigma=(B, C, D, A)$ o $\pi=(C, D, B, A)$. Siguiendo la convención común en la literatura, las permutaciones se denotan con letras griegas minúsculas. Según esta definición, una permutación debe contener todos los elementos del conjunto, sin repetir ninguno, lo que se conoce como la \textit{restricción de exclusividad mutua}.

Formalmente, una permutación es una biyección de un conjunto $S$ en sí mismo, $\sigma: S \rightarrow S$. El conjunto de todas las permutaciones de longitud $n$ forma el grupo simétrico, denotado como $\mathbb{S}_n$, y su cardinalidad es $n!$. En el resto del artículo, consideramos permutaciones del conjunto ${1, 2, \ldots, n}$, donde $n$ es la longitud de las permutaciones. En este caso, el primer elemento de una permutación es $\sigma(1)$, y el último es $\sigma(n)$. Así, la permutación identidad de longitud $n$ se define como $\sigma(i) = i$.

Una permutación $\sigma$ puede componerse con otra permutación $\pi$, denotándose como $\tau = \sigma \circ \pi$, y definida por $\tau(i) = \sigma(\pi(i))$. Es importante destacar que la composición no es conmutativa, es decir, $\sigma \circ \pi \neq \pi \circ \sigma$, y que la composición de cualquier permutación con la identidad $e$ da como resultado la misma permutación: $\sigma = \sigma \circ e = e \circ \sigma$.

Alternativamente, la inversa de una permutación $\sigma$, denotada como $\sigma^{-1}$, satisface la propiedad $\sigma(i) = j \Leftrightarrow \sigma^{-1}(j) = i$ para todo $i, j \in {1, \ldots, n}$. Por ejemplo, dada $\sigma = (3,1,2,4)$, su permutación inversa es $\sigma^{-1} = (2,3,1,4)$. Finalmente, la composición de una permutación con su inversa siempre da como resultado la permutación identidad: $(\sigma \circ \sigma^{-1} = \sigma^{-1} \circ \sigma = e)$.

\section{\textit{Inversion Vectors}: Notación unificada}\label{sec:inversion-vecs}

Los \textit{inversion vectors} se remontan a~\cite{rothe1820permutationen}. Desde entonces, estas estructuras combinatorias han sido definidas y referidas de diversas maneras. Por ejemplo, \cite{knuth1973art} y \cite{pemmaraju2003computational} se refieren a este tipo de \textit{inversion vector} como la \textit{tabla de inversión} y el \textit{vector de inversión}, respectivamente. Sin embargo, \cite{joshi1989foundations} usa los términos \textit{vector de inversión} o \textit{tabla de inversión} para un tipo diferente de \textit{inversion vector}, que \cite{calude2003discrete} denomina \textit{right inversion vector}. Además, lo que \cite{calude2003discrete} llama \textit{left inversion vector} es denominado \textit{código Lehmer} por \cite{lothaire2002algebraic}.

Por otro lado, los trabajos de \cite{fligner1986distance, fligner1988multistage} y \cite{critchlow1991probability} sobre modelos probabilísticos de permutaciones se refieren a la misma estructura como “un modelo de elección de componentes independientes” y lo vinculan con la distancia Kendall-$\tau$ en permutaciones. De manera similar, \cite{doignon2004rim} presentó el {\it repetead insertion model}, apuntando también a una transformación biyectiva de $\mathbb{S}_n$ como “un modelo de elección”, pero sin mencionar las referencias y términos previos, algunos de los cuales datan de años atrás.

En respuesta al actual desacuerdo sobre la notación y los formalismos relacionados con los \textit{inversion vectors} en la literatura, presentamos a continuación una notación clara para unificar todos los tipos de "transformaciones biyectivas de $\mathbb{S}_n$" y nos referiremos a ellas con un único término: \textit{inversion vectors}. La definición y notación propuestas buscan proporcionar una visión unificada y servir como base para las contribuciones en las secciones siguientes.

Aunque existen variaciones en las definiciones de \textit{inversion vectors}, todas coinciden en la siguiente descripción: dada una permutación $\perm$, el $i$-ésimo elemento de cualquier tipo de \textit{inversion vector} cuenta el número de elementos en $\perm$ (o $\inv$) que son mayores (o menores) que $\perm(i)$ (o $\inv(i)$) a su derecha (o izquierda).
% Ejemplo

Por ejemplo, los \textit{inversion vectors} de~\cite{calude2003discrete} y~\cite{lothaire2002algebraic} son aquellos cuyo $i$-ésimo elemento cuenta el número de elementos en $\perm$ mayores que $\sigma(i)$ a su izquierda y se expresan matemáticamente como
\begin{equation} 
\Vl_\perm^>(j) = \sum_{i=1}^{j} \mathbb{I}[\sigma(i) > \sigma(j)], \label{eq:inv} 
\end{equation}

donde $\mathbb{I}$ es la función indicadora\footnote{Cuando la condición interna se cumple, el valor de la función es 1, de lo contrario es 0.}. Siguiendo este enfoque, dada la permutación $\sigma = (2, 3, 1, 4)$, el vector de inversión correspondiente es $(0, 0, 2, 0)$. Denotamos este vector de inversión específico como $\Vl_\perm^>$, para señalar que cada elemento del vector cuenta los elementos mayores (denotado por el superíndice $\text{}^>$) que $\perm(i)$ en $\perm$ (denotado por el subíndice $\text{}\perm$) a su izquierda (indicado por la flecha $\leftarrow$ sobre $V$).
De manera similar, un vector de inversión que considera los elementos menores a la derecha de $\perm$ (como los de \cite{rothe1820permutationen}, \cite{joshi1989foundations},~\cite{calude2003discrete}) se denota como $\Vr_\perm^<$.

\input{tables}


El \textit{inversion vector} de una permutación $\perm$ también puede considerar las relaciones entre los elementos en $\inv$ (ver~\cite{knuth1973art, pemmaraju2003computational, fligner1986distance, fligner1988multistage, critchlow1991probability}). Por ejemplo, la Ec.~\ref{eq:inv} redefinida para considerar los elementos mayores en $\inv$, en lugar de $\perm$, sería referida como $\Vl_\inv^>$ y definida formalmente como
\begin{equation}
     \Vl_\inv^>(j) = \sum_{i=1}^{j} \mathbb{I}[\inv(i)>\inv(j)]
     \label{eq:inv2}
\end{equation}

En este caso, dada la permutación $\perm = (4, 1, 3, 2)$, su permutación inversa es $\inv = (2, 4, 3, 1)$, y $\Vl_\inv^> = (0, 0, 1, 3)$.

Cabe señalar que la notación del vector que hemos proporcionado está sujeta a la variación de tres elementos ($\sigma$ o $\sigma^{-1}$, $\leftarrow$ o $\rightarrow$, y $>$ o $<$). Por lo tanto, el número total de vectores posibles que se pueden implementar es ocho. Específicamente, todos los tipos de \textit{inversion vectors} se denotan como: $\Vl_\perm^<$, $\Vl_\inv^<$, $\Vl_\perm^>$, $\Vl_\inv^>$, $\Vr_\perm^<$, $\Vr_\inv^<$, $\Vr_\perm^>$, y $\Vr_\inv^>$.


\section{Biyecciones entre \textit{Inversion Vectors}}



Dadas las definiciones mencionadas, podría pensarse que algunos \textit{inversion vectors} comparten propiedades análogas. Por ejemplo, uno podría suponer que “contar los elementos menores a la izquierda” sería equivalente a “contar los elementos mayores a la derecha”.
En consecuencia, el objetivo de esta sección es caracterizar teóricamente las posibles propiedades y relaciones entre todos los \textit{inversion vectors} definidos en la Sección~\ref{sec:inversion-vecs}.
Para ello, en la Tabla~\ref{table:main} mostramos las transformaciones de cada definición de \textit{inversion vector} (columnas) hacia las demás (filas).
Es importante señalar que solo se presenta la diagonal superior y que la diagonal de la matriz ha sido eliminada, ya que la transformación de un \textit{inversion vector} hacia sí mismo está dada por la función identidad.

A continuación, identificamos cuatro categorías distintas de biyeción de entre las ocho posibilidades (ver colores en las celdas de la Tabla~\ref{table:main}):

\groupA{Categoría $\alpha$} incluye las biyeciones entre pares de \textit{inversion vectors} en los que la conversión de un espacio a otro ocurre sin hacer referencia explícita a la permutación subyacente $\sigma$ que codifican.
Estos pares son $\{\Vl_\perm^<, \Vl_\perm^>\}$, $\{\Vl_\inv^<, \Vl_\inv^>\}$, $\{\Vr_\perm^<, \Vr_\perm^>\}$, y $\{\Vr_\inv^<, \Vr_\inv^>\}$, y están marcados en verde en la tabla. Es importante destacar que, en cada par, se encuentran biyeciones de \textit{inversion vectors} con el signo de comparación opuesto.

\groupC{Categoría $\beta$} incluye las biyeciones que requieren sumar o restar el $i$-ésimo elemento de la permutación subyacente que los \textit{inversion vectors} codifican. En este caso, están agrupados en las ternas
    $\{\Vl_\perm^<, \Vr_\perm^<, \Vr_\perm^>\}$, 
    $\{\Vl_\perm^>, \Vr_\perm^<, \Vr_\perm^>\}$, 
    $\{\Vl_\inv^<, \Vr_\inv^<, \Vr_\inv^>\}$, y 
    $\{\Vl_\inv^>, \Vr_\inv^<, \Vr_\inv^>\}$, marcados en azul en la tabla.

\groupB{Categoría $\gamma$} agrupa las biyeciones a partir de las cuales se puede transformar un vector de una definición a otra solo reordenando los elementos de los vectores. Esta categoría está formada por los pares $\{\Vl_\perm^<, \Vl_\inv^<\}$, $\{\Vr_\inv^<, \Vr_\inv^>\}$, $\{\Vl_\perm^>, \Vr_\inv^<\}$, y $\{\Vr_\perm^<, \Vl_\inv^>\}$, que están marcados en naranja en la tabla. Es importante señalar que los primeros dos pares están compuestos por los \textit{inversion vectors} con el mismo signo y dirección (solo en el caso de elementos menores a la izquierda y mayores a la derecha), que codifican la permutación inversa. Los otros dos pares están formados por las transformaciones restantes, donde cada una se empareja con su transformación opuesta.

Este grupo es clave para resolver las biyeciones de la siguiente categoría, ya que estas pueden encontrarse mediante las ecuaciones que combinan los grupos $\alpha$ y $\beta$ con $\gamma$. Para este proceso, también hemos utilizado las biyeciones que corresponderían a la diagonal inferior de la Tabla~\ref{table:main}:
    \begin{align*}
    \Vl_\perm^<(i) = \Vl_\inv^<(\perm(i))  &\longleftrightarrow \Vl_\inv^<(i) = \Vl_\perm^<(\inv(i)) \\[3pt]
    \Vr_\perm^>(i) = \Vr_\inv^>(\perm(i)) &\longleftrightarrow  \Vr_\inv^>(i) = \Vr_\perm^>(\inv(i)) \\[3pt]
    \Vl_\perm^>(i) =  \Vr_\inv^<(\perm(i)) &\longleftrightarrow \Vr_\inv^<(i) = \Vl_\perm^>(\inv(i)) \\[3pt]
    \Vr_\perm^<(i) = \Vl_\inv^>(\perm(i)) &\longleftrightarrow \Vl_\inv^>(i) = \Vr_\perm^<(\inv(i))
    \end{align*}
    
\groupD{Categoría $\delta$} es similar a la anterior, ya que agrupa transformaciones que requieren reordenar el vector, aunque también abarca transformaciones que requieren simultáneamente reordenar y sumar o restar los elementos de la permutación subyacente. La categoría está formada por ocho biyecciones, marcadas en rojo en la tabla, una para cada transformación. Un subconjunto está compuesto por la transformación en cuestión y todas las transformaciones con la permutación inversa que codifican, excepto aquella con la misma dirección y orden; por lo tanto, todos los subconjuntos tienen una cardinalidad de 4. Por ejemplo, uno de esos subconjuntos es ${\Vl_\perm^<, \Vl_\inv^>, \Vr_\inv^>, \Vr_\inv^<}$.


\section{Impacto en el rendimiento de los EDAs} \label{sec:experiments}

El objetivo de esta sección es evaluar el rendimiento de las ocho transformaciones descritas en la Sección~\ref{sec:inversion-vecs} cuando se aplican para optimizar problemas de permutaciones en el contexto de algoritmos GRS. En particular, utilizaremos como ejemplo el \textit{Univariate Marginal Distribution Algorithm} (UMDA)\citep{umda}, un EDA clásico, y los problemas de permutaciones que se emplearán como banco de pruebas son el PFSP~\citep{pfsp}, QAP~\citep{qap} y LOP~\citep{lop}.

Concretamente, se ha utilizado la misma configuración del algoritmo UMDA para probar las ocho transformaciones: la población se compone de $100$ soluciones, donde la mitad de las mismas se truncan para estimar la distribución de probabilidad y, en cada iteración, se muestrean $100$ soluciones nuevas. El criterio de parada se limita a 100 iteraciones\footnote{Cabe destacar que el propósito de este experimento es analizar el comportamiento del EDA; por lo tanto, la optimización se limita a 100 iteraciones, donde se logra en la mayoría de las ocasiones la convergencia del algoritmo.}; y se realizan 30 repeticiones con diferentes semillas aleatorias para cada par instancia - \textit{inversion vector}.

Se han seleccionado, sin experimentación previa, tres instancias de referencia para cada problema, con tamaños que varían entre 20 y 100\footnote{Las instancias de referencia específicas son $tai20\_5\_8$, $tai50\_10\_8$, $tai100\_20\_8$ para el PFSP~\citep{taillard1993benchmarks}, $chr20a$, $tai45e01$, $sko100a$ para el QAP~\citep{burkard1997qaplib}, y $N-be75eec$, $N-stabu70$, $N-usa79$ para el LOP~\citep{lop}.}.

Los resultados se presentan en la Figura~\ref{fig:results} en dos formas: (1) gráficos de convergencia que muestran el mejor valor de la función objetivo encontrado por los ocho algoritmos en los tres problemas (filas) y los tres tamaños de instancias (columnas), y (2) la densidad del mejor valor objetivo normalizado alcanzado por cada algoritmo, agregada a través de las instancias de cada problema.

\begin{figure*}
    \centering
    \includegraphics[width=\textwidth]{plot.pdf}
    \caption{Comparación en términos del mejor valor de la función objetivo (\textit{fitness}) encontrado por el UMDA para diferentes representaciones de \textit{inversion vector}. Cada fila muestra los resultados obtenidos en el mismo problema de optimización combinatoria: de arriba a abajo, PFSP, QAP y LOP. Las tres primeras figuras (de izquierda a derecha) de cada fila muestran, para instancias de diferentes tamaños, el mejor \textit{fitness} en cada iteración del UMDA sobre los distintos \textit{inversion vectors}. En estos gráficos, las líneas representan la media y los contornos indican la desviación estándar de 30 repeticiones. La figura más a la derecha de cada fila presenta la densidad del mejor \textit{fitness} normalizado alcanzado al usar diferentes \textit{inversion vectors} en las instancias mostradas a su izquierda. Finalmente, en el caso del PFSP y QAP, un menor \textit{fitness} es mejor, mientras que en el LOP, un mayor \textit{fitness} es preferible.}
    \label{fig:results}
\end{figure*}

%% Voy aquí

% Observation 1
En los gráficos de convergencia, observamos que solo aparecen tres curvas debido a las superposiciones significativas en los resultados. Específicamente, hemos identificado tres grupos de resultados: A, B y C. El grupo A corresponde a los algoritmos implementados con $\Vl^>\sigma$ y $\Vl^<\sigma$. El grupo B está compuesto por $\Vr^>\sigma$ y $\Vr^<\sigma$, mientras que el grupo C incluye las cuatro biyecciones restantes, es decir, aquellas que utilizan $\inv$. Estos grupos de resultados también se reflejan en las gráficas de densidad.

Las superposiciones de los algoritmos en los grupos A y B son completamente coherentes con las transformaciones presentadas en la Tabla~\ref{table:main} (ver celdas en verde). Es importante destacar que las transformaciones $\Vl^>\sigma$ y $\Vl^<\sigma$ capturan la misma información. De manera similar, las transformaciones $\Vr^>\sigma$ y $\Vr^<\sigma$ también representan la misma información. Como resultado, cuando se aprenden probabilidades marginales de primer orden (como en el caso del UMDA), la probabilidad de una solución $\perm$ es la misma bajo los \textit{inversion vectors} del grupo A, y lo mismo ocurre con los \textit{inversion vectors} del grupo B. Al considerar una muestra de permutaciones, la probabilidad marginal de primer orden de los \textit{inversion vectors} $\Vl_\perm^<$ y $\Vl_\perm^>$ que codifican una permutación $\perm$ es idéntica, derivándose de la biyección entre ellos. En este caso, se cumple que $P(\Vl_\perm^>(i) = j) = P(\Vl_\perm^<(i) = i-1-j)$.

% Observation 2
El rendimiento de UMDA bajo los \textit{inversion vectors} que consideran $\inv$ siempre es superior al obtenido con aquellos que consideran $\perm$, lo cual resulta algo contra-intuitivo desde una perspectiva de optimización. Es importante resaltar que las tres funciones objetivo empleadas en este estudio  consideran la solución de entrada $\sigma$ como una permutación de los objetos del problema (como fábricas, filas, trabajos, etc.). Sin embargo, la inversa de $\sigma$, $\inv$, reinterpreta la permutación como un ranking de dichos elementos. El cálculo del valor objetivo de una solución en su forma de ranking tiene una complejidad mayor en comparación con la interpretación directa de la permutación. Retomaremos esta idea en la siguiente sección para tratar de explicar este fenómeno.

En cuanto a las biyecciones que utilizan $\perm$, es decir, los grupos A y B, observamos que el algoritmo obtiene mejores resultados con las que consideran los elementos a la derecha ($\Vr_\perm^<$ y $\Vr_\perm^>$) en lugar de aquellas que los consideran a la izquierda ($\Vl_\perm^<$ y $\Vl_\perm^>$), excepto en el caso del QAP, donde el rendimiento es el mismo en ambos casos.

\section{Análisis de Resultados}
Como se mencionó en la sección anterior, en algunos casos los resultados observados fueron consistentes con las definiciones proporcionadas. Sin embargo, el hecho de que los mejores resultados sean obtenidos por las transformaciones biyectivas que utilizan $\inv$ no parece tener sentido (grupo de resultados C). Esta sección se dedica a abordar esta cuestión. Para ello, a continuación realizamos una serie de estudios, que van desde la verificación de la corrección de los algoritmos hasta el análisis de por qué los \textit{inversion vectors} que consideran $\inv$ capturan mejor las características que contribuyen a la calidad de las soluciones.

\subsection{Estudio 1: Recuperación del modelo}

El propósito de este estudio es doble. Por un lado, buscamos verificar la corrección de los métodos de aprendizaje y muestreo al recuperar un modelo probabilístico. Por otro lado, también pretendemos analizar cuántas muestras son necesarias para recuperar el modelo probabilístico bajo cada transformación biyectiva. En ese sentido, hemos creado un gráfico para cada problema utilizando una instancia de $n=50$ (ver Figura~\ref{fig:recovery}), para la que hemos generado una muestra de 150.000 permutaciones, seleccionando las 5.000 mejores según las funciones objetivo correspondientes en cada caso\footnote{Las instancias para cada problema se han generado muestreando los parámetros correspondientes de manera uniforme.}, y construido el modelo de probabilidad de referencia (matriz de frecuencias). Luego, realizamos una iteración de muestreo-aprendizaje con diferentes tamaños de muestra. En cada caso, calculamos la distancia de Frobenius entre el modelo de referencia y el generado en la iteración. Cada ejecución se llevó a cabo para las ocho transformaciones biyectivas estudiadas en este trabajo y se repitió cinco veces para evaluar la estocasticidad del experimento.

\begin{figure*}[htp]
    \centering
    \includegraphics[width=\linewidth]{recovery.png}
    \caption{Gráficos de recuperación para una instancia aleatoria del LOP, QAP y PFSP. En cada gráfico, se han agregado cinco repeticiones del experimento con las ocho transformaciones.}
    \label{fig:recovery}
\end{figure*}

Los resultados presentados en la Figura~\ref{fig:recovery} muestran que (1) los métodos de aprendizaje y muestreo son correctos, ya que la diferencia tiende a cero conforme aumenta el tamaño de la muestra, y (2) todas las transformaciones recuperan los modelos de manera similar, es decir, no se observa una capacidad diferenciada entre las transformaciones para recuperar el modelo de referencia.

\subsection{Estudio 2: Propagación de la calidad}

Si un modelo es adecuado para optimizar un problema determinado, esperamos observar que la calidad de las soluciones muestreadas mejore a lo largo de las iteraciones. Para ello, para cada par instancia/modelo, trazamos los valores objetivos registrados durante una ejecución cada 10 iteraciones en un gráfico de densidad. Las curvas representan las diferentes iteraciones, de 0 a 50 (con un paso de 10 iteraciones). Para asegurar que la muestra inicial tuviera soluciones de "calidad suficientemente buena", y de manera similar al estudio anterior, generamos una muestra de 150.000 soluciones y seleccionamos las 5.000 mejores.

La última columna de la Figura~\ref{fig:density} presenta los resultados observados en una instancia del LOP (los resultados para QAP y PFSP fueron similares y se han omitido debido a limitaciones de espacio).
\begin{figure*}
    \centering
    \includegraphics[width=\linewidth]{evolution.png}
    \caption{Las primeras tres columnas presentan los gráficos de {\it heat maps} de las probabilidades marginales en las iteraciones 0, 25 y 50. Los resultados de la primera fila corresponden a un grupo de resultados. Específicamente, las transformaciones $\Vl^<\sigma$, $\Vr^<\sigma$ y $\Vl^<_\inv$ han sido seleccionadas de los grupos de resultados A, B y C, respectivamente. La columna más a la derecha muestra los gráficos de densidad de los valores objetivos del LOP (instancia aleatoria de tamaño $n=50$) registrados cada 10 iteraciones (empezando desde la iteración 0) utilizando las mismas biyecciones en cada grupo.}
    \label{fig:density}
\end{figure*}

En la Figura~\ref{fig:density}, es evidente que las transformaciones del grupo C lograron una mejora notable en los valores objetivos de las soluciones muestreadas a medida que avanzaban las iteraciones, mientras que dicha mejora es mucho menos evidente para los modelos de los grupos A y B. Considerando que los modelos iniciales en el experimento fueron aprendidos a partir de la misma selección de soluciones, la Figura~\ref{fig:density} también muestra que las transformaciones del grupo C permiten una mejora más rápida y significativa de la calidad de estas muestras iniciales. En contraste, los modelos de los grupos A y B tienen más dificultades para mejorar las mismas muestras iniciales dentro del mismo presupuesto de iteraciones. De hecho, parece que el modesto progreso observado en las ejecuciones A y B proviene principalmente de la presión de selección, más que del modelo en sí.

En resumen, aunque las transformaciones del grupo $C$ parecen presentar patrones de probabilidad menos directamente alineados con la intuición inicial basada en $\sigma$ y tienen la correlación más baja con la función objetivo de los problemas (según nuestra interpretación expuesta en la Sección~\ref{sec:experiments}), resultan ser más efectivas que las demás.



\subsection{Estudio 3: Visualización de probabilidades marginales}

Para tener una visión más detallada de los modelos generados en cada iteración y entender las razones por las cuales las transformaciones del grupo C tienen un mejor rendimiento, en la Figura~\ref{fig:density}, también presentamos las matrices de probabilidad en forma de \textit{heat map}. Específicamente, y siguiendo la línea del estudio de ablación previo, nos hemos centrado en instancias aleatorias del LOP, y hemos visualizado los \textit{heat map} de la matriz de probabilidades en las iteraciones 0, 25 y 50, para tres transformaciones diferentes, una por grupo: $\Vl^<\sigma$, $\Vr^<\sigma$, y $\Vl^<_\inv$.

% Observacion 1
Se observa que la entropía del modelo es mucho más baja para la transformación del grupo C, especialmente en las iteraciones 25 y 50. En estos casos, la probabilidad es mucho más dispersa para los grupos A y B. Esto se debe a que, en el caso del grupo C, el grado de convergencia del modelo es mayor, y es lógico pensar que las soluciones proporcionadas para el aprendizaje son más homogéneas. Este comportamiento es consistente con la menor varianza observada en los gráficos de densidad en el lado derecho del mismo gráfico.

% Observacion 2
Por otro lado, los \textit{heat maps} generados para el grupo C presentan ciertos patrones horizontales que no se observan en los casos A y B. Al observar el mapa de calor de la iteración 50 para el grupo C, vemos que la probabilidad de los valores en cada posición se concentra en un conjunto de valores sucesivos en el rango ${0, \dots, n-1}$ (lo mismo ocurre en las otras iteraciones). Por ejemplo, la distribución de probabilidad para la posición 48 concentra la masa de probabilidad entre las posiciones 10 y 16. En cambio, en los casos A y B, se observan patrones diagonales, claramente influenciados por el hecho de que A y B utilizan $\perm$, mientras que el caso C considera $\inv$ en la transformación.

\section{Discusión}

Los experimentos realizados revelaron que cuando se utilizan inversion vectors que emplean la versión $\inv$ de la solución, el algoritmo tiene un mejor rendimiento, converge más rápido y el modelo captura mejor la información que hace buenas las soluciones (en la mayoría de los casos observados, excepto en QAP, donde no hubo diferencias relevantes entre una opción y otra). Esto implica que, si usamos la representación $\sigma$, que es la que proporcionamos como entrada a las funciones objetivo, es conveniente reinterpretar la solución mediante la inversa, $\inv$, y luego aplicar la transformación.

La razón de este fenómeno puede estar en el siguiente hecho. Cuando usamos una transformación biyectiva del tipo descrito en este artículo, recodifica la permutación mediante la suma de ocurrencias de ciertos elementos a la izquierda (o a la derecha) que son mayores (o menores). De hecho, la recodificación requiere que los elementos que aparecen en la permutación tengan un carácter ordinal, ya que debemos hacer comparaciones de tipo mayor/menor.

Parece que esta propiedad es cierta tanto cuando usamos $\sigma$ como cuando usamos $\inv$; sin embargo, no es así, y esto puede deberse a la definición misma de la permutación que damos en la Sección~\ref{sec:prelim}. La representación $\sigma$ almacena en cada posición de la permutación las etiquetas de los trabajos, es decir, $\sigma(i)=j$, donde $j$ se refiere al trabajo $j$. Sin embargo, su inversa almacena la posición (clasificación) en la que los trabajos deben ser procesados, es decir, $\inv(i)=j$ se refiere a la posición en la que debe procesarse el trabajo $i$. Calcular la transformación biyectiva de la permutación $\inv$ es completamente factible, ya que un ranking es un conjunto de enteros (y por lo tanto operaciones tipo mayor/menos son posibles de llevar a cabo). Sin embargo, en el primer caso, donde la permutación $\sigma$ contiene las etiquetas de los trabajos, la aplicación de una transformación biyectiva puede carecer de sentido. Por ejemplo, supongamos que los trabajos están etiquetados con nombres de personas, “Juan”, “Miguel” y “Manolo”; ¿qué sentido tendría calcular cuál es mayor (o menor) a la izquierda (o derecha)? Creemos que este es el motivo por el cual los algoritmos que emplean $\sigma$ en las transformaciones no funcionan correctamente.


\section{Conclusión}

Los {\it inversion vectors} han sido conocidos durante décadas y representan una valiosa alternativa a las permutaciones para codificar problemas de optimización combinatoria, ya que las transformaciones son biyectivas y no requieren cumplir con la restricción de exclusividad mutua que generalmente se impone en las codificaciones tradicionales. No obstante, muchos trabajos en la literatura han definido los {\it inversion vectors} (incluyendo este) de maneras diferentes, lo que ha generado confusión y desacuerdo sobre su definición, nomenclatura y uso.

Este artículo proporciona definiciones formales y una notación unificada para todos los tipos de codificación de {\it inversion vector}. Además, se presenta una tabla con las transformaciones biyectivas entre todos los tipos de {\it inversion vectors}, que se utiliza para caracterizar algunas de sus propiedades y los diferentes grupos que los conforman. A través de experimentos empíricos, mostramos que el rendimiento del UMDA~\citep{umda} varía entre problemas dependiendo del {\it inversion vector} utilizado. No solo eso, sino que también verificamos que, por defecto, las transformaciones que utilizan $\inv$ ofrecen mejores resultados, probablemente debido a su idoneidad para ser modeladas en un proceso de optimización.

% Future work
Aunque creemos que este artículo representa un avance significativo en la comprensión de los {\it inversion vectors} en el contexto de la optimización combinatoria, algunas preguntas clave aún permanecen abiertas. En particular, la Tabla~\ref{table:main} sigue incompleta y cuatro transformaciones aún no han sido resueltas. Finalmente, tanto el análisis teórico como empírico de este trabajo es preliminar. Creemos que investigaciones futuras en esta dirección proporcionarán conocimientos fundamentales sobre los problemas basados en permutaciones, lo que abrirá nuevas oportunidades para la mejora de algoritmos de optimización combinatoria.

{\small
\bibliography{references}
\bibliographystyle{unsrt}
}


\end{document}