Generative models for complex visual content. (Modèles génératifs pour des données visuelles complexes)

Marlène Careil

Published: 2024, Last Modified: 03 Mar 2026undefined 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: en fr In this thesis, we explore generative image models with a focus on improving the compositionality of objects as well as enabling better user controllability. Semantic image synthesis is a specific type of conditional generative task that enables to tackle both problems. It consists of synthesizing images conditioned on semantic segmentation maps which indicate per-pixel class information. We aim to develop methods that alleviate the need to train on large-scale annotated datasets. Toward this goal, we make the following contributions. Firstly, in OCO-GAN, we design a generative adversarial model that shares backbones for unconditional and semantic image synthesis and is jointly trained for both tasks. When little unconditional or labeled data are available, we show thatwe leverage synergy between the two tasks which benefit from each other. Secondly, in CAT for Class Affinity Transfer, we design a few-shot transfer method for semantic image synthesis applicable to diffusion models and Generative Adversarial Networks. It leverages a pretrained semantic image synthesis model trained on a large source dataset and finetunes it on a small target dataset. This method exploits class affinity between source and target classes to provide prior knowledge to the model when finetuning on the target dataset. Thirdly, we tackle a more challenging scenario that is training-free and is a more flexible version of semantic image synthesis in ZestGuide. We replace the per-pixel class label conditioning with a free-form text conditioning. We build upon large pretrained text-to-image diffusion models to develop a method that adapts the generation process to take into account this spatial conditioning. Finally, in PerCo, for Perceptual Compression, we explore how to use generative models for the task of compression. Similar to semantic image synthesis, we condition a generative model on discrete representation, but in this case, the discrete representation is learned and constrained to have a fixed low bitrate. We target image compression at extremely low bitrates to recover realistic images with satisfying semantic preservation. After introducing the context and related work on generative image models on which this thesis builds upon, we present each of the four contributions in detail, with a chapter dedicated to each of them. Finally, we will conclude this document with a discussion of the limitations of the presented work and perspectives for future research. Durant cette thèse, nous explorons les modèles génératifs d’images dans le but d’améliorer la composition des objets et de permettre un meilleur contrôle du contenu généré. La générationsémantique est un type spécifique de génération conditionnelle qui résout ces deux problèmes. Cela consiste à conditionner la génération d’images sur des cartes sémantiques contenant des annotations de classes pour chaque pixel. Nous développons des méthodes visant à réduire le besoin d’entrainer sur des grandes bases de données annotées. Dans cette optique, nous apportons les contributions suivantes.Tout d’abord, avec OCO-GAN, nous développons une méthode basée sur des GANs (une famillede modèle génératif) qui unifie l’architecture utilisée pour la génération sémantique et la générationnon conditionnelle et qui propose un entrainement conjoint des deux tâches de génération. Quand peu de données sont disponibles, nous démontrons une synergie entre les deux tâches, où chacune bénéficie de l’autre. Ensuite, avec CAT, nous explorons une méthode de transfert pour la génération sémantique avec une quantité très limitée de données d’entraînement avec des réseaux GANs et des modèles de diffusion. Cette approche exploite un modèle génératif préalablement entraîné sur une vaste base de données, puis réentraîné sur une petite base de données et estime l’affinité entre les classes d’origines et les nouvelles classes afin de fournir des informations utiles lors du réentraînement du modèle.Dans ZestGuide, nous abordons un scénario encore plus complexe qui ne nécessite pas d’entraînement et est plus flexible que la génération sémantique. Nous conditionnons les pixels sur un texte descriptif, au lieu d’un nom de classe. `A l’aide d’un large modèle de diffusionqui génère des images à partir de texte, nous développons une méthode qui modifie le processusde génération de l’image afin de prendre en compte un conditionnement spatial. Enfin, dans PerCo, nous explorons l’utilisation des modèles génératifs pour la compression. De manière similaire à la génération sémantique, nous conditionnons un modèle de diffusion sur des représentations discrètes, mais dans ce cas, ces représentations sont apprises et contraintes à un débit donné. Notre objectif est de réaliser une compression à très faible débit tout en préservant suffisamment la sémantique et l’apparence des objets, et en reconstruisant des images réalistes. Après avoir exposé le contexte et la littérature sur les modèles génératifs, nous détaillons chacune de ces quatre contributions dans un chapitre dédié. Finalement, nous concluons ce manuscrit avec une discussion sur les limites de ces travaux et les perspectives pour de futures recherches.

External IDs:dblp:phd/hal/Careil24