Pixel-Level Tracking and Future Prediction in Video Streams. (Estimation Dense du Mouvement et Anticipation du Futur dans les Flux Vidéo)

Guillaume Le Moing

Published: 2024, Last Modified: 09 Nov 2025undefined 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: en fr Visual cues play a significant role for people in foreseeing (plausible) future events, a fundamental skill that aids in social interactions, object manipulation, navigation, and averting potential risks in their daily lives. Transferring this ability to machines equipped with video cameras holds immense promise, particularly in domains such as autonomous vehicles, human-robot interaction, data compression, and the comprehension of natural and social phenomena. The objective of this thesis is to develop novel strategies for low-level motion estimation, with the ultimate goal to improve the efficiency of future prediction systems that synthesize plausible continuations of videos. We aim to accurately describe motion of densely sampled points between pairs of arbitrary frames in a video sequence, overcoming challenges such as low-texture regions, appearance changes due to motion blur or shadow effects, as well as occlusion events caused by object and camera movements. Leveraging the compositional nature of scenes, we aim to propose sparse motion models that may simplify video synthesis by transitioning from the high-bit-rate prediction of future frames to the low-bit-rate prediction of future motion. We ensure temporal consistency and the recovery of fine-grained details from context using warping operations derived from estimated motions. Recognizing the inherent uncertainty in predicting the future, our focus lies in modeling the distribution of possible trajectories. This allows for the sampling of different outcomes or the selection of one trajectory that aligns with a given control signal, be it a target end frame, a textual description or an audio track. Our contributions are organized into three main parts. First, we introduce a strategy using an autoencoder enhanced with a learnable optical flow module to compress video frames into compact representations, enabling efficient frame recovery. By sharing information across time steps, we bypass the autoencoder's lossy bottleneck. Through autoregressive modeling, these compact representations are used to predict future frames from past ones, guided by control signals from various modalities. Second, we propose an object layer decomposition scheme, where a small set of control points is used to estimate past deformations and predict future ones. We recover dense motion with spline interpolations and synthesize future frames using warping operations. Third, we present a novel, simple, and efficient method for dense pixel-level video tracking. This method relies on a learnable optical flow estimator to refine coarse motion estimates between pairs of time steps, derived from a small set of tracks computed with an off-the-shelf model on the entire video. Les indices visuels jouent un rôle crucial dans la capacité des individus à anticiper les événements futurs, une compétence essentielle qui facilite les interactions sociales, la manipulation d'objets, la navigation et la prévention des risques au quotidien. Transférer cette capacité aux machines équipées de caméras vidéo offre des perspectives immenses, notamment dans des domaines tels que les véhicules autonomes, l'interaction homme-robot, la compression de données et la compréhension des phénomènes naturels et sociaux. L'objectif de cette thèse est de développer de nouvelles stratégies pour estimer avec précision le mouvement dans les vidéos, afin d'améliorer l'efficacité des systèmes de prédiction vidéo. Ces systèmes visent à synthétiser des suites plausibles aux vidéos qu'on leur donne en entrée. Notre but est de prédire le mouvement de l'ensemble des pixels entre n'importe quelle paire d'images d'une vidéo, malgré des conditions parfois difficiles telles que la présence de régions peu texturées, des variations d'apparence dus au flou de mouvement ou aux effets d'ombre, ainsi que les phénomènes d'occultation causés par les mouvements d'objets et de caméras. En tirant parti de la nature composite des scènes, nous cherchons à proposer des modèles de mouvement à peu de paramètres qui pourraient simplifier la synthèse vidéo en passant de la prédiction haute-résolution d'images futures à la prédiction basse-résolution de mouvement futur. Nous assurons la cohérence temporelle et la récupération des détails précis du contexte en utilisant des opérations de déformation basées sur les mouvements estimés. Reconnaissant l'incertitude inhérente à la prédiction du futur, notre accent est mis sur la modélisation de la distribution des trajectoires possibles. Cela permet de choisir parmi différents résultats ou de sélectionner une trajectoire qui correspond à un signal de contrôle donné, qu'il s'agisse d'une image cible, d'une description textuelle ou d'une piste audio. Les contributions de cette thèse sont structurées en trois parties. Tout d'abord, nous introduisons une stratégie basée sur un autoencodeur intégrant un module paramétrique de flux optique pour compresser les images d'une vidéo en représentations compactes. Cette stratégie préserve la consistance temporelle en contournant le goulot d'étranglement de l'autoencodeur afin de partager de l'information à travers les images d'une même vidéo. Grâce à une modélisation autorégressive, les représentations compactes ainsi obtenues sont utilisées pour prédire les images futures à partir des précédentes, guidées par des signaux de contrôle provenant de différentes modalités. Deuxièmement, nous proposons une méthode pour décomposer les vidéos en couches d'objets. Ici, un nombre limité de points de contrôle sont utilisés pour estimer les déformations passées et prédire les futures. Le mouvement dense entre paires d'images est obtenu grâce à une technique d'interpolation, et les images futures sont synthétisées en déformant celles du passé. Troisièmement, nous présentons une méthode à la fois nouvelle, simple et efficace permettant de prédir simultanément la trajectoire de l'ensemble des pixels d'une image à travers une vidéo. Cette approche repose sur un module paramétrique de flux optique pour densifier un petit nombre de correspondances établies entre paires d'images. Ces correspondances sont dérivées d'un petit ensemble de trajectoires calculées sur l'ensemble de la vidéo avec un modèle pré-entraîné.

External IDs:dblp:phd/hal/Moing24