Contributions to the Design and Training of Transformers in Computer Vision

Alaaeldin Mohamed Elnouby Abdallah Ali

Résumé

Transformers have revolutionized representation learning across modalities, achieving state-of-the-art results in natural language processing, computer vision, speech, and beyond. This thesis explores the potential of Transformer models for computer vision. We propose architectural innovations to overcome their limitations, developing sample-efficient self-supervised pre-training methods, and advancing multimodal learning with Transformers. First, we propose Cross-Covariance Attention to reduce the quadratic complexity of self-attention achieving similar performance as vision transformers with lower memory footprint and computational cost, enabling the application of vision transformers to higher-resolution images. We then investigate self-supervised pre-training for vision transformers. We propose SplitMask, a denoising autoencoosing method based on masked image modeling. Unlike joint embedding methods, SplitMask does not require large-scale pre-training datasets and can be applied to diverse visual data. SplitMask matches the performance of joint embedding methods when pre-trained on datasets two orders of magnitude smaller, highlighting its improved sample efficiency. Moreover, we apply masked image modeling to neural image compression in the form of an improved entropy model yielding a strong rate-distortion performance and enabling the compression of images to the size of a short SMS or tweet. Finally, we propose ImageBind, a method for learning a shared embedding space across six modalities. ImageBind leverages the abundance of images and text on the web to enable transfer to modalities with scarce annotations like depth, thermal, audio, and IMU. In summary, this thesis demonstrates the potential of Transformers for computer vision through architectural innovations, new self-supervised objectives, and multimodal knowledge transfer. The methods proposed in this thesis push the boundaries of transformers in vision by enhancing their scalability and generality, enabling more sample-efficient representation learning, and facilitating transfer across modalities.

Les transformateurs ont révolutionné l’apprentissage de la représentation dans de nombreuses modalités, obtenant des résultats de pointe dans le traitement du langage naturel, la vision par ordinateur, la parole et bien d’autres domaines. Cette thèse explore le potentiel des modèles de transformateurs pour la vision par ordinateur. Nous proposons des innovations architecturales pour surmonter certaines de leurs limites. Nous développons des méthodes de pré-entraînement auto-supervisé efficaces en termes d’échantillons, et considérons l’utilisation de ces transforma- teur dans un contexte d’apprentissage multimodal. Dans un premier temps, nous proposons l’attention à covariance croisée pour réduire la complexité quadratique de l’attention d’origine et obtenir des performances similaires avec une empreinte mémoire et un coût de calcul moindres, ce qui permet d’appliquer les transforma- teurs de vision à des images à plus haute résolution. Nous étudions ensuite le pré-entraînement auto-supervisé pour les transformateurs de vision. Nous proposons SplitMask, une méthode de débruitage automatique basée sur la modélisation d’images masquées. Contrairement aux méthodes de plongements conjointes, SplitMask ne nécessite pas d’ensembles de données de pré-entraînement à grande échelle et peut être appliqué à diverses données visuelles. SplitMask est aussi performant que les méthodes de plongements conjoints lorsqu’il est entraîné sur des ensembles de données deux fois plus petits, ce qui met en évidence l’amélioration de l’effica- cité d’apprentissage avec peu de données. En outre, nous appliquons la modélisation d’images masquée à la compression d’images neuronales sous la forme d’un modèle entropique amélioré. Cela permet d’obtenir de bonnes performances en matière de débit-distorsion dans les régimes où la compression d’image est extrême, tels la taille d’un SMS ou d’un tweet. Enfin, nous pro- posons ImageBind, une méthode d’apprentissage d’un espace de plongement partagé entre six modalités. En résumé, cette thèse démontre le potentiel des transformateurs pour la vision par ordinateur grâce à des innovations architecturales, de nouveaux objectifs auto-supervisés et un transfert de connaissances multimodal. Les méthodes proposées dans cette thèse repoussent les limites des transformateurs en vision en améliorant leur passage à l’échelle et leur généralité, en permettant un apprentissage de la représentation plus efficace en termes d’échantillons, et en facilitant le transfert entre les modalités.

Contributions to the Design and Training of Transformers in Computer Vision

Contributions à la conception et à l'apprentissage de réseaux neuronaux en vision par ordinateur

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager