Modélisation 3D de complexes ARN-protéine par assemblage combinatoire de fragments structuraux - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2022

3D modeling of protein-RNA complexes by combinatorial assembling of structural fragments

Modélisation 3D de complexes ARN-protéine par assemblage combinatoire de fragments structuraux

Résumé

The characterization of RNA-protein complexes at the atomic scale allows us to better understand the biological functions of these complexes, and to define therapeutic targets to regulate the biological phenomena in which they participate. The aim of this thesis is to develop tools to predict the structure of a protein-RNA complex when a 3D structure of the protein is known as well as the secondary structure of the interacting RNA part. We focus on the case where RNA is mainly in single-stranded form (unpaired nucleotides), raising the difficulty of its flexibility.A docking method developed in the CAPSID team is based on the use of structural fragments of single-stranded RNA. The work of this thesis builds on this method to perform docking of RNA secondary structures. We first evaluated the contribution of a loop closure constraint for docking the single-stranded loop of a hairpin structure, and then addressed the docking of the double-stranded elements of these structures, paving the way for the assembly of the entire complex.This fragment-based docking method is dependent on the use of structural fragment libraries. These libraries are composed of prototypes that represent the conformational landscape experimentally observed in protein-bound RNA structures. A large part of the thesis work consisted in the creation and optimization of such fragment libraries.We created the ProtNAff tool that allows to extract subsets of structures from the PDB and to create libraries of nucleic acid fragments, following complex combinations of criteria. It has been designed to exceed our needs, so that it can be adopted by the community for the treatment of various problems.We have developed a new approach for inferring prototypes of a set of conformations. The set of prototypes must satisfy two contradictory constraints: to be representative (in the sense of the metric) and of cardinality as small as possible. The problem thus reduces to that of inferring an epsilon-network of minimal cardinality. We treat it in all its generality by discussing the spaces on which the data are defined. Our method is based on hierarchical agglomerative classification with as linkage the radius of the minimum balls enclosing the points of each subset. Applied to our libraries, this approach reduced their size by a factor of 4, and our docking computation time by the same amount, while improving their reliability.Finally, to overcome the problem posed by the pairwise superimposition of structures, we used a representation of the fragments in internal coordinates, allowing to reduce further the computation time for the creation of libraries.
La caractérisation des complexes ARN-protéine à l'échelle atomique nous permet de mieux comprendre les fonctions de ces complexes, et de définir des cibles thérapeutiques pour réguler les phénomènes biologiques auxquels ils participent. L'objet de cette thèse est de développer des outils permettant de prédire la structure d'un complexe protéine-ARN lorsque l'on connaît une structure 3D de la protéine ainsi que la structure secondaire de la partie d'ARN en interaction. Nous nous concentrons sur le cas où l'ARN est principalement sous forme simple brin (nucléotides non appariés), posant la difficulté de sa flexibilité. Une méthode d'amarrage développée dans l'équipe CAPSID repose sur l'utilisation de fragments structuraux d'ARN simple brin. Le travail de cette thèse s'est appuyé sur cette méthode pour réaliser l'amarrage de structures secondaires de l'ARN. Nous avons d'abord évalué l'apport d'une contrainte de fermeture de boucle pour l'amarrage de la boucle simple brin d'une structure en épingle, puis abordé l'amarrage des éléments double brin de ces structures, ouvrant la voie à l'assemblage du complexe entier. Cette méthode d'amarrage est dépendante de l'utilisation de bibliothèques de fragments structuraux. Ces bibliothèques sont composées de prototypes qui représentent le paysage conformationnel observé expérimentalement dans les structures d'ARN liés à des protéines. Une large partie du travail de thèse a consisté en la création et l'optimisation de telles bibliothèques de fragments. Nous avons créé l'outil ProtNAff qui permet d'extraire de la PDB des sous-ensembles de structures et de créer des bibliothèques de fragments d'acides nucléiques, suivant des combinaisons complexes de critères. Il a été conçu de façon à dépasser nos besoins, afin d'être adopté par la communauté pour le traitement de problèmes variés. Nous avons développé une nouvelle approche pour l'inférence de prototypes représentatifs d'un ensemble de conformations. L'ensemble de prototypes doit satisfaire deux contraintes contradictoires: être représentatif (au sens de la métrique) et de cardinalité aussi petite que possible. Le problème se réduit donc à celui de l'inférence d'un epsilon-réseau de cardinalité minimale. Nous le traitons dans toute sa généralité en discutant des ensembles sur lesquels sont définies les données. Notre méthode se base sur la classification ascendante hiérarchique avec comme linkage le rayon des plus petites boules englobant les points de chaque sous-ensemble. Appliquée à nos bibliothèques, cette approche a permis de réduire d'un facteur 4 leur taille, et d'autant nos temps de calcul d'amarrage, tout en améliorant leur fiabilité. Enfin, pour pallier le problème posé par les superpositions de structures deux à deux, nous avons utilisé une représentation des fragments en coordonnées internes permettant de réduire encore les temps de calcul de création des bibliothèques.
Fichier principal
Vignette du fichier
DDOC_T_2022_0339_MONIOT.pdf (13.69 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04099698 , version 1 (17-05-2023)

Identifiants

  • HAL Id : tel-04099698 , version 1

Citer

Antoine Moniot. Modélisation 3D de complexes ARN-protéine par assemblage combinatoire de fragments structuraux. Informatique [cs]. Université de Lorraine, 2022. Français. ⟨NNT : 2022LORR0339⟩. ⟨tel-04099698⟩
62 Consultations
82 Téléchargements

Partager

Gmail Facebook X LinkedIn More