Informations

Combien de résidus un modèle structurel ab initio fiable peut-il contenir ?

Combien de résidus un modèle structurel ab initio fiable peut-il contenir ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Une question récente sur ab initio auxquelles j'ai répondu impliquait d'aborder les limites de ab initio la modélisation. Un examen de 2009 a avancé que, généralement, seulement de l'ordre de 100 à 110 résidus pouvaient être modélisés de manière fiable.

7 ans après cet article : je viens d'assister à une présentation de pré-publication dans laquelle une structure de plus de 400 résidus avait été modélisée à l'aide d'I-TASSER. L'orateur a affirmé qu'il était fiable et qu'il s'intégrait bien dans le contexte biologique, mais qu'il avait encore besoin d'une validation expérimentale. Malheureusement, ils n'avaient pas in silico scores de validation à portée de main, donc je n'avais aucune idée du sérieux avec lequel je devais prendre le modèle.

En fin de compte, ma question est de savoir combien de résidus I-TASSER (autre ab initio marques disponibles !) gèrent de manière fiable un domaine globulaire typique avec la technologie d'aujourd'hui ?


Année après année fiable ab initio les prédictions sont de plus en plus courantes pour les protéines plus longues. 400 résidus n'est pas une longueur irréalisable. Bien sûr, les boucles restent plus un défi que les structures secondaires hélicoïdales et en feuille.

À CASP13, l'équipe Google DeepMind a utilisé AlphaFold pour produire un modèle de bonne qualité (T0594) d'une protéine de 774 résidus qui est une répétition WD40 de RFWD3 (6CVZ). Toutes leurs entrées CASP13 sont ici.


Résumé

Nous présentons une méthode hiérarchique pour prédire les modèles de structure tertiaire des protéines à partir de la séquence. Nous commençons par une énumération complète des conformations en utilisant un modèle de réseau tétraédrique simple. Nous construisons ensuite des conformations de plus en plus détaillées et, à chaque étape, sélectionnons un sous-ensemble de conformations à l'aide de fonctions d'énergie empiriques de complexité croissante. Après le dénombrement sur le réseau, nous sélectionnons un sous-ensemble de conformations à faible énergie à l'aide d'une fonction statistique d'énergie de contact résidu-résidus, et générons des modèles de tous les atomes en utilisant la structure secondaire prédite. Une fonction énergétique combinée au niveau atomique basée sur les connaissances est ensuite utilisée pour sélectionner des sous-ensembles des modèles tout-atome. Les prédictions finales sont générées à l'aide d'une procédure de géométrie de distance consensuelle. Nous testons la faisabilité de la procédure sur un ensemble de 12 petites protéines couvrant un large éventail de topologies protéiques. Un test rigoureux en double aveugle de notre méthode a été réalisé sous les auspices de l'expérience CASP3, où nous avons fait ab initio prédictions de structure pour 12 protéines en utilisant cette approche. Les performances de notre méthodologie au CASP3 sont raisonnablement bonnes et tout à fait cohérentes avec nos tests initiaux.


Fond

Il y a un intérêt croissant dans le domaine de la thérapeutique peptidique au cours de la dernière décennie en raison des nombreux effets indésirables des médicaments chimiques [1, 2]. Les peptides deviennent populaires dans l'industrie pharmaceutique en raison de leurs applications dans le diagnostic, la thérapeutique et l'administration de médicaments avec une meilleure puissance, une spécificité élevée, une faible toxicité et une disponibilité naturelle [3-7]. De nombreux médicaments à base de peptides sont lancés avec succès sur le marché et beaucoup d'autres sont à différentes phases d'essais cliniques [8]. Compte tenu de l'importance des peptides sur le marché thérapeutique, il devient impératif de connaître les informations structurelles d'un nouveau peptide avant sa conception ultérieure pour les propriétés thérapeutiques souhaitées [9, 10]. Il est bien établi que la fonction d'un peptide dépend de sa structure, il est donc important de prédire la structure tertiaire d'un peptide à partir de sa séquence primaire d'acides aminés.

Dans le passé, des tentatives ont été faites pour la prédiction de la structure tertiaire des peptides. En 1999, Ishikawa et al. [11] a développé une ab initio méthode (Geocore) pour trouver les structures de type natif dans un petit ensemble de conformations. Cependant, il a été conçu comme un algorithme de filtrage au lieu d'un algorithme de repliement, explorant un grand espace conformationnel (

milliards de conformations) et limitant ainsi son utilisation pour de très petits peptides. En 2007, Kaur et al. [12] ont développé l'algorithme PEPstr pour prédire la structure tertiaire de petits peptides bioactifs. Ils ont utilisé un tour prédit et une structure secondaire régulière pour construire la structure tertiaire d'un peptide. Cette approche a considérablement réduit le temps requis pour construire la structure et la méthode a fourni une bonne structure de départ en appliquant les contraintes prévues. Nicosia et Stracquadanio (2008) ont proposé un algorithme de recherche de modèle généralisé (Gps) [13] qui utilise un algorithme de recherche et de sondage pour rechercher les minima globaux. En 2009, Thomas et al. développé l'algorithme PepLook [14] basé sur la technique Boltzmann-Stochastique. Maupetit et al. développé un algorithme PEP-FOLD [15, 16] basé sur le modèle de Markov caché, un algorithme glouton et des champs de force à gros grains. Une série de 50 simulations gloutonnes est réalisée pour chaque séquence peptidique, générant 50 modèles. Narzisi et al. [17] ont proposé un algorithme évolutif multi-objectif (I-PAES) pour rechercher l'espace conformationnel basé sur la fonction d'énergie potentielle ECEPP. Gps, PepLook et I-PAES appliquent tous une stratégie de recherche conformationnelle générant des milliers de structures et, par conséquent, ils peuvent être gourmands en calculs. PEP-FOLD, cependant, évite une recherche extensive de l'espace conformationnel en prédisant les alphabets structurels, qui sont assemblés pour fournir une structure de départ suivie de simulations. Récemment, Beaufays et al. [18] ont étendu l'algorithme PepLook pour gérer les peptides linéaires et cycliques avec des acides aminés non protéinogènes. Thévenet et al. [19] ont mis à jour l'algorithme PEP-FOLD pour gérer les peptides cycliques à pont disulfure. Au lieu d'utiliser des contraintes de distance, ils ont utilisé le champ de force à gros grains sOPEP. Shen et al. (2014) ont développé PEP-FOLD2 (version améliorée de PEP-FOLD) [20] et l'ont comparé à PEP-FOLD et Rosetta sur un ensemble de données comprenant 56 peptides structurellement divers.

Thomas et al. ont utilisé les valeurs d'énergie du potentiel de force moyen (MFP) pour comparer les structures des peptides prédites par PepLook, Robetta et PEPstr avec les données expérimentales de RMN et ont conclu que les modèles PepLook et PEPstr ressemblent étroitement aux structures RMN [21]. À la connaissance des auteurs, à l'heure actuelle, seules les méthodes PEPstr et PEP-FOLD fournissent un service en ligne gratuit à la communauté scientifique mondiale spécifiquement pour la prédiction de la structure tertiaire des peptides à partir de leur séquence d'acides aminés. Au cours des dernières années, un certain nombre de bases de données ont été développées pour gérer les peptides d'importance thérapeutique, notamment les peptides de pénétration cellulaire, de localisation tumorale, antiparasitaires, hémolytiques, antihypertenseurs, anticancéreux, antimicrobiens, à détection de quorum et de barrière hémato-encéphalique [22- 30]. Récemment, une méta-base de données (SATPdb) de peptides thérapeutiques a été développée, qui est compilée à partir de vingt-deux bases de données/ensembles de données de peptides et peut aider ses utilisateurs à extraire des peptides au noir avec la fonction souhaitée [31]. Il a été observé que les peptides ont une faible demi-vie en circulation et que des modifications augmentent leur demi-vie [8, 32, 33]. Différentes modifications peuvent ou non conduire à de profonds changements structurels dans le peptide et donc influencer sa fonction biologique [34, 35]. Dans le passé, des tentatives limitées ont été faites pour prédire la structure de peptides contenant des acides aminés non naturels ou modifiés.

Récemment, Gfeller et al. développé la base de données SwissSideChain [36, 37] contenant une bibliothèque de champs de force pour 210 résidus non naturels compatibles avec le champ de force Charmm dans les progiciels GROMACS et CHARMM. En bref, ils ont généré des paramètres de champ de force pour chaque résidu non naturel, soit à partir des chaînes latérales naturelles analogues, soit à l'aide du service Web SwissParam [38]. De plus, Khoury et al. développé Forcefield_NCAA (FFNCAA) [39], qui est une bibliothèque de champs de force de 147 acides aminés non naturels, compatible avec le champ de force ff03 dans le progiciel AMBER. À partir des conformères hélicoïdaux et à brin initiaux, ils ont effectué une optimisation de la géométrie restreinte par la mécanique quantique et un ajustement supplémentaire du RESP pour obtenir les paramètres du champ de force pour ces résidus non naturels. Khoury et al. a également développé Forcefield_PTM (FFPTM) [40], qui est une bibliothèque de champs de force de 32 modifications post-traductionnelles fréquentes utilisant la même procédure que celle décrite ci-dessus. Ils ont également développé des services Web, FFNCAA et FFPTM, qui permettent d'incorporer respectivement des acides aminés non naturels et des PTM dans un fichier PDB d'entrée et envoient le fichier PDB modifié aux utilisateurs. Petrov et al. [41] ont développé les paramètres de champ de force pour

250 types différents de PTM compatibles avec les champs de force GROMOS 45a3 et 54a7 dans GROMACS. Ils ont également développé un serveur Web Vienna-PTM [42], qui permet d'incorporer n'importe quel PTM à un fichier PDB et de fournir le fichier PDB modifié aux utilisateurs.

Dans cette étude, nous avons tenté d'incorporer des bibliothèques de champs de force spéciaux pour prédire la structure des peptides ayant des acides aminés non naturels et différents types de PTM. Nous avons utilisé un ensemble logique d'étapes qui intègre un logiciel de prédiction de structure avec des bibliothèques de champs de force et des simulations étendues pour prédire les structures de peptides ayant des résidus non naturels et d'autres modifications. Nous avons évalué les performances de l'application PEPstrMOD sur différents ensembles de données ayant des peptides modifiés. Nous espérons que PEPstrMOD aidera la communauté scientifique à mieux comprendre les structures peptidiques modifiées.


Introduction

L'ARN dans tous les organismes cellulaires est synthétisé par une machine moléculaire complexe, l'ARN polymérase dépendante de l'ADN (RNAP). Chez les bactéries, le noyau RNAP catalytiquement compétent (composition de la sous-unité α2ββ'ω) a une masse moléculaire de � kDa. Des relations évolutives pour chacune des sous-unités du noyau bactérien ont été identifiées entre tous les organismes, des bactéries à l'homme [1]–[3]. Ces relations sont particulièrement fortes entre les deux plus grandes sous-unités, β' et β, qui contiennent des segments disposés de manière colinéaire de séquence conservée ( Figure 1 ) [3]. Ces segments conservés sont séparés par des régions d'espacement relativement non conservées dans lesquelles de grands espaces ou insertions spécifiques à la lignée peuvent se produire [3],[4]. La signification fonctionnelle de ces différences spécifiques à la lignée est mal comprise en raison d'un manque d'informations biochimiques et structurelles corrélées. L'essentiel de nos connaissances biochimiques et génétiques sur les RNAP bactériens provient d'études de Escherichia coli (Éco) RNAP, mais toutes nos informations structurelles à haute résolution se forment Thermes RNAP [5]–[8] comme Éco RNAP ne s'est pas prêté à l'analyse par cristallographie aux rayons X. Les Éco et Thermes Les sous-unités β et β' hébergent de grandes insertions de séquences (㹀 acides aminés) qui ne sont pas présentes dans les autres espèces et ne sont pas partagées entre les espèces bactériennes ( Figure 1 ) [3]. Par exemple, le Éco La sous-unité β' contient β'-insert-6 (ou β'i6, en utilisant la nomenclature d'insertion spécifique à la lignée de Lane et al. [3]), une insertion de 188 résidus au milieu de la conservé “trigger loop.” D'autre part, le Thermes La sous-unité β' manque de β'i6 mais contient β'i2 (283 résidus). Les structures à haute résolution de ces deux inserts spécifiques à la lignée révèlent qu'ils comprennent des répétitions d'un pli précédemment caractérisé, le motif hybride sandwich-tonneau (SBHM) [9], [10]. De même, le Éco La sous-unité β contient trois grandes insertions manquantes dans Thermes, βi4 (119 résidus), βi9 (99 résidus) et βi11 (54 résidus), tandis que le Thermes La sous-unité β abrite βi12 (43 résidus).

Les barres verticales représentent la séquence primaire des sous-unités RNAP bactériennes β (en haut, cyan clair) et β' (en bas, rose clair). Les cases blanches indiquent les régions de séquence communes à tous les RNAP bactériens, tels que définis par Lane et Al. [3]. Les caractéristiques structurelles importantes sont étiquetées au-dessus des barres [19]. Les insertions spécifiques à la lignée (étiquetées selon la nomenclature de Lane et al. [3] sont indiquées sous les barres. Le codage couleur pour les grandes sous-unités et les insertions spécifiques à la lignée présentées ici est utilisé tout au long de cet article.

À certains égards, la haute résolution Thermes Les structures RNAP ont servi de bons modèles pour interpréter la littérature fonctionnelle obtenue à partir d'études biochimiques, biophysiques et génétiques de Éco RNAP [11],[12]. Néanmoins, un modèle moléculaire complet de Éco Le noyau RNAP n'a pas été disponible en raison de l'absence d'informations structurelles à haute résolution sur le Éco β inserts spécifiques à la lignée. Les études structurelles les plus détaillées de Éco Les RNAP proviennent de l'analyse par cryomicroscopie électronique (cryo-EM) de cristaux hélicoïdaux à une résolution d'environ 15 Å [13]. Cette reconstruction cryo-EM de Éco RNAP de base pourrait être interprété en détail en ajustant le Taq structure aux rayons X du noyau RNAP, révélant une grande distorsion de la structure (ouverture du canal du site actif de plus de 20 Å) en raison des contacts intermoléculaires dans les cristaux hélicoïdaux. Forte densité électronique pour Éco βi9 était présent dans la reconstruction cryo-EM, mais faible densité pour Éco βi4 et Éco β'i6 a indiqué que ces domaines étaient flexibles dans le contexte des cristaux hélicoïdaux [13]. La plupart des reconstructions EM précédentes de diverses formes de Éco RNAP n'a pas révélé d'informations concernant les inserts spécifiques à la lignée (par exemple, voir [14]). Une récente reconstruction EM à coloration négative d'une résolution de 20 Å d'un complexe d'initiation de la transcription dépendant de l'activateur contenant Éco RNAP [15] a permis le positionnement de la Éco β'i6 structure cristalline [10], mais le manque d'informations structurelles sur l'autre Éco des inserts spécifiques à la lignée ont empêché l'interprétation détaillée des densités supplémentaires présentes dans la reconstruction [15].

Dans cette étude, nous avons utilisé une combinaison d'approches structurelles pour générer un modèle moléculaire complet de Éco RNAP de base. Nous avons déterminé deux nouvelles structures cristallines aux rayons X à haute résolution de Éco Fragments de sous-unité RNAP β qui incluent Éco βi4 et βi9 et utilisé une méthode ab initio pour prédire la structure du petit Éco βi11 [16]. Les trois structures cristallines aux rayons X disponibles de Éco Fragments RNAP (les deux structures déterminées ici et la structure de Éco β'i6 [10]) et la structure prédite de Éco βi11 ont été incorporés dans un modèle d'homologie de Éco RNAP de base. Enfin, nous avons utilisé l'imagerie cryo-EM combinée à l'analyse d'images à une seule particule pour obtenir une structure à basse résolution de la conformation de la solution de Éco RNAP de base dans lequel les densités correspondant aux insertions spécifiques à la lignée pourraient être clairement identifiées. Ajustement flexible du Éco Le modèle d'homologie RNAP dans les densités cryo-EM a généré un modèle moléculaire complet de Éco RNAP de base et un Éco Complexe d'allongement ternaire RNAP (TEC).


Chimie computationnelle

5. Conclusions

La théorie des orbitales moléculaires est un outil établi dans l'analyse de la structure électronique des composés chimiques. Son approche orbitale fragmentée est intuitive et peut être très productive lors de l'analyse de fonctions d'onde complexes et de l'analyse de la décomposition de charge et d'énergie. Il peut également être utilisé pour construire des fonctions d'onde d'essai de systèmes particulièrement difficiles, de sorte que la procédure SCF a un moyen plus facile de converger vers l'état électronique de choix. Alors que certaines approches ont été développées il y a trois décennies ou plus, leur mise en œuvre pour une utilisation avec des packages QM courants n'était pas toujours disponible dans le passé. Au cours des dernières années, la situation s'est considérablement améliorée, ce qui permet aux chimistes inorganiques intéressés par la chimie informatique d'utiliser facilement les outils de la théorie des orbitales moléculaires.

Dans ce chapitre, nous avons décrit quelques succès récents dans la mise en œuvre d'anciennes méthodes et le développement de nouvelles méthodes dans le cadre de la théorie des orbitales moléculaires. Alors que nous n'avons pas encore atteint le moment où nous disposons d'un ensemble complet d'outils pour l'analyse de la décomposition orbitale et énergétique, des progrès significatifs ont été réalisés au cours des 20 dernières années et l'analyse de la structure électronique a cessé d'être le domaine exclusif des spécialistes de ce domaine. domaine de recherche.


Contraintes d'interaction sans ambiguïté

Si vos prédictions sont très fiables et que vous souhaitez les appliquer toutes lors de l'amarrage, définissez-les comme des contraintes sans ambiguïté. Celles-ci peuvent être par exemple des contraintes de distance par paires dérivées d'un modèle (tutoriel), des données de réticulation MS (tutoriel) ou des données de connectivité cryo-EM (tutoriel).

Contraintes d'interaction ambiguës ( AIR )

Néanmoins, comme dans la vie, en science, il faut aussi être quelque peu critique vis-à-vis des données avec lesquelles on travaille. Si vous n'êtes pas sûr à 100 % des informations d'interaction et que vous souhaitez être prudent lorsque vous les intégrez à votre station d'accueil, utilisez des restrictions d'interaction ambiguës, uniques à HADDOCK. Ici, pour chaque essai d'amarrage, une fraction de ces contraintes sera supprimée au hasard, ce qui garantit un échantillonnage plus large satisfaisant toujours un sous-ensemble différent de contraintes prédéfinies. Ainsi, si certaines contraintes sont artificielles, celles-ci peuvent être filtrées si le complexe qui les satisfait est défavorable.

Pour les AIR, il est important de définir les résidus à l'interface pour chaque molécule sur la base de données expérimentales qui fournissent des informations sur l'interface d'interaction.

Dans la définition de ces résidus, on distingue entre "actif" et "passif" résidus.

Les "actif" les résidus sont d'une importance centrale pour l'interaction entre les deux molécules ET sont accessibles aux solvants. L'accessibilité relative de la chaîne principale ou de la chaîne latérale doit être généralement de > 40%, parfois une coupure inférieure peut également être utilisée, par exemple le serveur HADDOCK utilise par défaut 15%. Tout au long de la simulation, ces résidus actifs sont contraints de faire partie de l'interface, si possible, sous peine d'entraîner une pénalité de score.

Les "passif" les résidus sont tous des voisins de surface accessibles aux solvants des résidus actifs (<6.5Å). Ils contribuent à l'interaction, mais sont jugés moins importants. Si un tel résidu n'appartient pas à l'interface, il n'y a pas de pénalité de score.

En général, un AIR est défini comme une distance intermoléculaire ambiguë entre tout atome d'un résidu actif de la molécule A et tout atome des résidus actifs et passifs de la molécule B (et inversement pour la molécule B).

Des restrictions de distance ambiguës sont décrites dans le Manuel de l'AIGLEFIN et plus sur les paramètres dans le run.cns fichier est écrit ici.

Autres types de contraintes

HADDOCK peut utiliser de nombreuses informations expérimentales. Nous décrivons ici d'autres types de contraintes pris en charge par HADDOCK :


Conclusion

À l'heure actuelle, la biologie structurelle a du mal à suivre le rythme de la croissance rapide du séquençage du génome. Seule une fraction de toutes les familles de séquences connues est représentée dans la Protein Data Bank avec au moins une structure de ses membres. Malgré les grands progrès de la prédiction de structure à l'aide de fragments de protéines, de champs de force améliorés, de simulations de dynamique moléculaire et de modélisation d'homologie, les structures des protéines membranaires restent largement inaccessibles. Les méthodes de calcul telles que EVfold_membrane détiennent donc la clé pour accélérer la détermination de la structure des protéines membranaires, comblant ainsi l'écart croissant entre la séquence et la structure.


Combien de résidus un modèle structurel ab initio fiable peut-il contenir ? - La biologie

Avancées dans la prédiction de la structure tertiaire des protéines

Tayebeh Farhadi
Département de biotechnologie pharmaceutique, Faculté de pharmacie, Université des sciences médicales de Shiraz, Shiraz, Iran

Date de publication Web5-Mar-2018

adresse de correspondance:
Dr Tayebeh Farhadi
Département de biotechnologie pharmaceutique, Faculté de pharmacie, Université des sciences médicales de Shiraz, Shiraz
L'Iran

Source de soutien : Rien, Conflit d'intérêt: Rien

EST CE QUE JE: 10.4103/bbrj.bbrj_94_17

Les protéines sont composées de chaînes linéaires d'acides aminés qui forment une structure tridimensionnelle unique dans leur environnement natif. Une telle structure native favorise les protéines pour exercer leur activité biochimique. La protéine est formée de certains niveaux de structure. La structure primaire d'une protéine est spécifiée par la séquence d'acides aminés particulière. Dans une séquence d'acides aminés, des motifs de liaison locale peuvent être identifiés comme une structure secondaire. Le niveau final qui forme une structure protéique tertiaire est composé des éléments mentionnés et se forme après que la protéine se soit repliée dans son état natif. Pour trouver la structure native des protéines, les principes physico-chimiques ainsi que l'identification des états d'énergie libre les plus bas sont considérés comme les meilleures propriétés et pour prédire les protéines cibles avec des structures inconnues, les méthodes basées sur la bioinformatique ont remporté un succès considérable. Les méthodes de prédiction de la structure des protéines ont été principalement classées en trois types : repliement ab Initio, modélisation comparative (homologie) et enfilage. Chaque méthode mentionnée peut être appliquée pour une structure de protéine, en fonction de l'existence de structures expérimentales apparentées qui sont déposées dans la PDB. Une fois un modèle initial généré, des simulations de raffinement sont menées pour réassembler la topologie globale et les structures locales des chaînes protéiques. Étant donné que les caractéristiques importantes d'un modèle peuvent se trouver dans des régions qui sont structurellement distinctes du modèle, le raffinement d'un modèle principal est influent. Une stratégie de confiance comprend un contrôle stéréochimique et la découverte de la manière dont le modèle s'écarte des disciplines de base des structures expérimentales connues.

Mots clés: Évaluation du modèle, raffinement du modèle, modélisation des protéines, structure tertiaire des protéines


Comment citer cet article :
Farhadi T. Avancées dans la prédiction de la structure tertiaire des protéines. Biomed Biotechnol Res J 20182:20-5

Comment citer cette URL :
Farhadi T. Avancées dans la prédiction de la structure tertiaire des protéines. Biomed Biotechnol Res J [série en ligne] 2018 [cité le 23 juin 2021] 2:20-5. Disponible sur : https://www.bmbtrj.org/text.asp?2018/2/1/20/226584

Les protéines sont composées de chaînes linéaires d'acides aminés qui forment une structure tridimensionnelle (3D) unique dans leur environnement natif. Une telle structure native favorise les protéines pour exercer leur activité biochimique. [1]

Pendant de nombreuses années, un défi concernant la prédiction de la structure tertiaire des protéines à partir de leur séquence d'acides aminés a attiré des chercheurs dans différents domaines d'étude. Il existe suffisamment de preuves sur l'importance des informations sur la structure tridimensionnelle au cours des dernières années et, par conséquent, l'impact potentiel des progrès dans la prédiction de la structure des protéines est énorme. A titre d'exemple, on ne peut pas obtenir de preuves considérables sur les relations structure-fonction entre les membres d'une famille de protéines sur la base d'un petit nombre de structures disponibles des membres de la famille. Cependant, des modèles générés à partir de membres de la famille des protéines dérivés en utilisant des structures déterminées expérimentalement permettent de déduire de telles relations structure-fonction. [5],[6] Les modèles peuvent également être utilisés comme base pour analyser la fonction de protéines individuelles, de la même manière que cela est effectué avec des structures résolues expérimentalement. Cependant, malgré l'énorme impact potentiel de la prédiction de la structure des protéines, le degré de confiance dans lequel les modèles générés peuvent être utilisés dans diverses applications scientifiques est ambigu. [7]

Les méthodes de prédiction de la structure des protéines ont été principalement classées en trois types : repliement ab Initio, modélisation comparative (homologie) et enfilage. [8] Chaque méthode mentionnée peut être appliquée pour une structure de protéine, en fonction de l'existence de structures expérimentales apparentées qui sont déposées dans l'APB.

Ab Initio (également nommé de novo) la classe de modélisation est définie à l'origine comme les méthodes basées sur les premières lois de principe de la chimie et de la physique qui déclarent l'état natif d'une protéine au minimum d'énergie libre globale. [11], [12] Par conséquent, la procédure Ab Initio essaie de replier une protéine donnée à partir de la séquence de requête en utilisant différents champs de force et de larges algorithmes de recherche conformationnelle. Cependant, un succès limité a été illustré en appliquant de telles techniques basées sur des principes physico-chimiques. Les méthodes les plus appropriées de cette classe utilisent toujours les informations évolutives et basées sur les connaissances pour rassembler de courts fragments structurels et des contraintes spatiales afin de faciliter le processus d'assemblage structurel. [13],[14] Cette classe est maintenant nommée "modélisation libre" dans les expériences CASP car de nombreuses techniques ne font pas parfaitement confiance aux premiers principes. [15]

Dans la modélisation comparative (CM), la structure de la protéine est prédite en comparant la séquence d'une protéine de requête (également appelée cible) à une protéine associée de manière évolutionnaire avec une structure connue (également appelée modèle) dans la PDB. [8] Par conséquent, une nécessité pour la méthode CM est l'existence d'une protéine homologue dans la base de données PDB. [16] Les modèles CM ont systématiquement un fort biais et sont plus proches de la structure du modèle plutôt que de la structure native de la protéine cible. Dans ce contexte, les méthodes CM produisent des modèles en copiant les structures alignées des modèles ou en satisfaisant les contraintes de contact/distance à partir des modèles. [17] Elle est considérée comme une limite essentielle de la démarche. Par conséquent, l'une des questions importantes pour CM (et pour d'autres approches basées sur des modèles) est de savoir comment affiner les modèles générés plus près de la structure native que les modèles utilisés.

Le threading (également appelé reconnaissance de pli) est une stratégie bioinformatique qui recherche dans la bibliothèque PDB pour trouver des modèles de protéines qui ont un pli ou un motif structurel similaire à la protéine de requête. Il est comparable à CM dans le sens où les deux stratégies tentent de générer un modèle structurel en appliquant les structures résolues expérimentalement comme modèle. [8] Il est démontré que de nombreuses protéines à faible identité de séquence peuvent avoir des replis similaires. Par conséquent, la procédure de threading se concentre sur la détection des alignements cible-modèle quelle que soit la relation évolutive.

Lorsque l'identité de séquence est faible, la reconnaissance des alignements exacts cible-modèle est un problème d'une importance critique. Ainsi, la conception de la fonction de notation d'alignement exact est importante pour l'efficacité des méthodes. Les scores d'alignement fréquemment utilisés contiennent une correspondance de profil structurel de séquence, [18] une correspondance de structure secondaire, des alignements de profil de séquence et des contacts de résidus [20] avec les meilleurs alignements de notation couramment découverts par la modélisation de Markov caché [21] ou simulation dynamique. [22] Au cours des dernières années, les approches des fonctions de notation composites contenant de multiples propriétés structurelles telles que les angles de torsion et l'accessibilité des solvants peuvent produire des avantages supplémentaires dans les identifications de modèles de protéines. [23]

Dans le domaine de la prédiction de la structure des protéines, une tendance commune à la frontière entre les types conventionnels d'approches de modélisation s'est estompée. De nombreuses techniques Ab Initio appliquent des contraintes spatiales ou des fragments structurels qui sont identifiés par la méthode de filetage. [24] En outre, les techniques de modélisation comparative et de threading dépendent de plusieurs alignements de séquences. Cependant, dans le domaine de la prédiction de la structure des protéines, aucune technique ne peut surpasser les autres pour toutes les cibles protéiques, c'est pourquoi les approches méta-serveurs ont été introduites comme deuxième tendance. [25] Une approche commune des méta-serveurs consiste à générer un certain nombre de modèles par plusieurs programmes développés par différents laboratoires, puis à sélectionner les modèles finaux parmi les meilleurs. [26] Malgré la disponibilité de différentes approches pouvant être essayées dans les sélections de modèles et de modèles de protéines, la stratégie de sélection de modèles la plus efficace semble être la sélection par consensus. Par définition, la sélection par consensus est l'approche de sélection de modèles la plus efficace et sélectionne les modèles qui sont le plus souvent construits par diverses méthodes et généralement celle qui est la plus proche du natif. [27]

Une autre approche efficace de méta-serveur pour le classement, la sélection et la reconstruction de modèles de protéines est basée sur des informations de modèles multiples. Pour diriger les simulations d'assemblage structurel basées sur la physique, cette approche peut exploiter les contraintes spatiales et les fragments structurels obtenus à partir des nombreux modèles. Par conséquent, l'approche mentionnée peut générer des modèles qui ont une qualité raffinée par rapport aux modèles basés sur les informations des modèles individuels. Compte tenu des résultats de référence à l'échelle de la communauté des récentes expériences CASP, cette approche représente la méthode la plus efficace et la plus réussie. [28]

De plus, dans différentes études, prédire les effets possibles des variations de séquences d'acides aminés dans les emplacements spatiaux de résidus fonctionnellement importants (tels que les sites actifs/de liaison et les sites de mutations associées à la maladie) est signalé comme un problème important. [8],[30] Une telle prédiction peut être effectuée en utilisant la modélisation structurelle.

Une fois un modèle initial généré, des simulations de raffinement sont menées pour réassembler la topologie globale et les structures locales des chaînes protéiques. Étant donné que les caractéristiques importantes d'un modèle peuvent se trouver dans des régions qui sont structurellement distinctes du modèle, le raffinement d'un modèle principal est influent. Les régions mentionnées sont des chaînes latérales incluses qui sont différentes dans la matrice et sa cible et des boucles qui sont situées entre des éléments de structure secondaires et peuvent avoir une conformation assez distincte dans la cible et la matrice. [31] Les procédures de modélisation des chaînes latérales et des boucles sont basées sur cette hypothèse selon laquelle les éléments de structure secondaire d'une protéine cible sont similaires à ceux de la structure de la matrice. [32]

Pour le calcul des conformations des chaînes latérales, les approches les plus fréquemment utilisées emploient la relation détectée entre les conformations du squelette et des chaînes latérales et utilisent systématiquement une "bibliothèque rotamère" produite à partir d'une base de données de structures connues. [33] Les approches varient dans la manière dont les rotamers sont échantillonnés. La fonction énergétique est exploitée pour évaluer les conformations individuelles. Actuellement, il est susceptible de prédire les conformations des chaînes latérales enterrées avec une précision proche de l'expérimental. [33]

Les méthodes de modélisation de boucle génèrent généralement un modèle de départ de la boucle en conformation ''open'' dans laquelle une extrémité de la boucle n'est pas liée à son résidu suivant. Ensuite, les programmes bouclent la boucle en appliquant différents algorithmes. [34],[35] La procédure est répétée plusieurs fois en utilisant diverses conformations de départ. Les conformations obtenues sont ensuite vérifiées à l'aide de plusieurs fonctions énergétiques. En général, il est suggéré qu'une combinaison d'échantillonnage approfondi et d'un calcul d'énergie conformationnel peut générer des résultats très précis. [36],[37]

Un certain nombre de conformations structurelles (également appelées leurres structurels) résulteront des simulations d'assemblage structurel. Parmi toutes les conformations alternatives probables qui sont les plus proches de la structure native, le modèle tertiaire de haute qualité avec un pli précis doit être sélectionné. Une stratégie de confiance comprend un contrôle stéréochimique et la découverte de la manière dont le modèle s'écarte des disciplines de base des structures expérimentales connues. [8]

Pour traiter un grand nombre de conformations archivées, une méthode hiérarchique pour modéliser la valorisation est généralement utilisée. Pour classer tous les modèles originaux, la méthode utilise des fonctions de notation faciles à évaluer et simplifiées. Avec cette stratégie, un sous-ensemble peut être sélectionné pour une évaluation plus détaillée sur le plan informatique. Une fonction de notation couramment utilisée est Verify3D. [41], [42] Verify3D évalue les segments du modèle en fonction de la corrélation entre l'environnement des résidus dans ces segments et leurs propensions détectées à se trouver dans cet environnement. [43]

Il existe plusieurs alternatives de fonctions de notation basées sur les statistiques. [47], [48] Des estimations détaillées de tous les atomes de la stabilité conformationnelle peuvent être utilisées en utilisant des champs de force de mécanique moléculaire du type appliqué dans les simulations de dynamique moléculaire. [49]

Ces approches ont enregistré des succès impressionnants dans leur capacité à replier des fragments de protéines à partir de conformations dépliées, [50], [51] leurs applications au problème « leurre » et leur capacité à choisir la structure aux rayons X déterminée expérimentalement parmi un grand nombre de conformations variantes de la même chaîne polypeptidique. [52]

Tout en prédisant une conformation native à partir d'un ensemble de leurres, il existe des défis majeurs, notamment l'échantillonnage et l'évaluation d'un nombre suffisant de conformations. Il ne s'agit pas d'un nouveau défi et il ne sera pas simple à résoudre. [49] En effet, les chercheurs pensent que les approches de dynamique moléculaire peuvent être utilisées pour atteindre cet objectif. De telles méthodes peuvent replier des fragments de protéines provenant d'états désordonnés et donner un modèle inexact relativement proche de la structure native. Ensuite, le modèle est raffiné jusqu'à une conformation proche de la conformation native. [53] Cependant, cet objectif n'a pas encore été atteint. Une autre solution nécessite une combinaison de méthodes d'alignement améliorées, la recherche de modèles structurels pour chaque région problématique d'une structure et l'utilisation des fonctions de notation et des procédures d'échantillonnage améliorées. [1],[52]


Résultats et discussion

QMEAN : Fonctions de scoring composites pour l'évaluation de modèles uniques

Nous avons récemment décrit la fonction de scoring composite QMEAN consistant en une combinaison linéaire de cinq termes incluant 3 potentiels statistiques [33]. Il a été démontré que la combinaison d'informations largement orthogonales améliore la sélection de modèles. La fonction de notation composite QMEAN comprend un potentiel d'angle de torsion sur trois acides aminés consécutifs pour l'analyse de la géométrie locale d'un modèle, un potentiel de solvatation décrivant l'état d'enfouissement des résidus et un potentiel d'interaction dépendant de la distance basé sur les atomes Cβ pour l'évaluation interactions à longue portée. Deux termes décrivant l'accord de la structure secondaire prédite et calculée et de l'accessibilité au solvant sont également inclus. Dans ce travail, la fonction de notation composite QMEAN a été étendue par un terme de potentiel d'interaction dépendant de la distance de tous les atomes afin de capturer plus de détails structurels. Une brève description de toutes les versions de QMEAN et des termes utilisés dans leur calcul se trouve dans le tableau 1.

La première section du tableau 2 montre les performances moyennes des cibles de différentes versions de QMEAN sur l'ensemble de données CASP7 composé de tous les modèles de serveurs soumis pour 98 cibles. Les autres sections montrent les performances de diverses implémentations de QMEANclust et selfQMEAN qui, contrairement à QMEAN, prennent en compte les informations de consensus. Les facteurs de pondération des différentes fonctions de scoring composites sont optimisés sur l'ensemble d'apprentissage CASP6.

Pour chaque version QMEAN, la performance d'une implémentation alternative qui pénalise les modèles incomplets en multipliant le score par la fraction de résidus modélisés est également donnée. La prise en compte de la couverture des modèles par rapport à la séquence cible améliore considérablement la corrélation avec le score GDT_TS [46] en pénalisant les modèles incomplets avec par ailleurs une bonne stéréochimie. Cette augmentation des performances dans l'estimation de la qualité relative du modèle peut être attribuée au fait que le score GDT_TS, traditionnellement utilisé dans l'évaluation du CASP, est par définition dépendant de la complétude du modèle. Le tableau 2 souligne qu'une forte augmentation des performances peut être obtenue en incluant la structure secondaire prédite et les termes d'accord d'accessibilité du solvant comme indiqué précédemment (QMEAN3 contre QMEAN5 et QMEAN4 contre QMEAN6). L'intégration d'un terme tout-atome (QMEAN5 vs. QMEAN6 dans le tableau 2) améliore encore la corrélation entre la qualité prédite du modèle et sa similitude avec la structure native. Plus important encore, le terme tout-atome augmente la capacité de la fonction de notation à sélectionner de bons modèles. Cela se reflète par le score total GDT_TS significativement plus élevé (valeur p = 0,03 dans un test t apparié) des meilleurs modèles sélectionnés par QMEAN6 de 56,70 par rapport à 55,32 pour QMEAN5.

A titre de comparaison, les performances des meilleures méthodes de la catégorie d'évaluation de la qualité de CASP7 sont présentées dans le tableau 3 avec le GDT_TS maximum du serveur le plus performant, c'est à dire. une fonction de scoring qui sélectionne toujours les modèles du serveur Zhang [43, 47]. Pour une description des autres méthodes, visitez le site Web de CASP7 http://predictioncenter.org/casp7/. Les valeurs GDT_TS ainsi que les données des autres méthodes sont basées sur les données d'évaluation de la qualité de CASP7 et les données de TASSER-QA ont été aimablement fournies par les auteurs [35].

Une analyse statistique des résultats ci-dessus est présentée dans la figure 1. À partir des fonctions de notation pouvant renvoyer un score pour un seul modèle, QMEAN6 montre le meilleur coefficient de corrélation (à la fois Pearson et Spearman) sur toutes les méthodes participant à CASP7 (tableau 3, Première section). La différence est statistiquement significative au niveau de confiance de 95 % sur la base d'un test t apparié. QMEAN montre également les meilleures performances dans la sélection de bons modèles pour chaque cible, comme le reflètent les valeurs totales GDT_TS les plus élevées suivies par ABIpro et Circle-QA, mais dans ce cas, la différence n'est pas statistiquement significative.Les fonctions de notation qui prennent en compte les informations de densité structurelle telles que selfQMEAN et QMEANclust produisent des coefficients de corrélation et des scores totaux GDT_TS considérablement plus élevés (voir ci-dessous).

Analyse de la signification statistique basée sur un test t apparié unilatéral (niveau de confiance de 95 %). Vert : la méthode indiquée sur l'horizontale est nettement plus performante. Rouge : la méthode indiquée sur l'horizontale est nettement moins performante. a) Coefficient de corrélation de Pearson, b) Coefficient de corrélation de rang de Spearman, c) Valeurs GDT_TS des modèles sélectionnés par une fonction de notation.

Une autre amélioration peut être obtenue en utilisant des versions QMEAN plus spécialisées pour différentes situations de modélisation, telles que QMEAN avec un terme tout-atome pour les cibles basées sur des modèles et sans pour les cibles de modélisation gratuites. Les premiers résultats suggèrent que l'effet global n'est que marginal et que la version QMEAN incluant le terme tout-atome conduit à une meilleure performance sur toute la plage de difficulté. L'utilisation d'une fonction de notation pour toutes les situations de modélisation n'est pas idéale, comme l'ont souligné récemment les collègues de Kihara [48]. Ils ont montré que pour une fonction de notation de filetage composée de deux termes, différentes combinaisons de facteurs de pondération sont optimales pour différentes familles de protéines. Par conséquent, l'entraînement de facteurs de pondération spécifiquement pour les protéines de taille et de composition en acides aminés ou en structure secondaire similaires peut améliorer les performances, en particulier dans la prédiction des valeurs absolues de la qualité du modèle [49]. L'optimisation des facteurs de pondération dans les fonctions de notation composites basées sur une combinaison linéaire de termes est compliquée par le fait que les différents termes dépendent de la taille de la protéine qui influence la capacité de la fonction de notation combinée à prédire la qualité absolue.

QMEANclust : incluant la densité structurelle de l'ensemble de modèles

Dans cette section, nous décrivons une nouvelle méthode, appelée QMEANclust, qui combine la fonction de notation QMEAN avec des informations sur la densité structurelle dérivées de l'ensemble des modèles. Dans la mise en œuvre directe des méthodes basées sur les informations de densité structurelle, le score d'un modèle donné est calculé comme sa distance moyenne (ou médiane) à tous les autres modèles de l'ensemble. Différentes mesures de similarité sont utilisées pour construire la matrice de distance : par exemple. MaxSub [50] dans 3Djury [11], LGscore [51] dans Pcons [12] et TMscore [52] dans la méthode consensus décrite dans MODfold [53]. Dans ce travail, le score GDT_TS [46], une mesure de similarité bien établie dans l'évaluation CASP, est utilisé. Dans toutes les implémentations mentionnées ci-dessus, les modèles individuels sont également pondérés dans le calcul du score final, quelle que soit la qualité d'un modèle. Dans 3Djury, seules les paires de modèles au-dessus d'une certaine distance limite sont prises en compte dans le calcul.

Les méthodes de clustering ont tendance à échouer lorsque les modèles supérieurs sont éloignés du cluster structurel le plus important ou lorsqu'il n'y a pas de redondance structurelle présente dans l'ensemble qui peut être capturée. Surtout pour les cibles de modélisation difficiles et sans modèle, les meilleurs modèles ne sont généralement pas les conformations les plus fréquentes dans l'ensemble (du moins pas dans les ensembles de leurres CASP). Afin de faire face aux limitations des approches de clustering actuelles, nous avons étudié deux stratégies pour la combinaison de la fonction de notation composite QMEAN et des informations de densité structurelle de l'ensemble. Dans la première approche, QMEAN est utilisé pour sélectionner un sous-ensemble de modèles de meilleure qualité par rapport auxquels les calculs de distance ultérieurs sont effectués. Le score final pour un modèle donné est défini comme la distance médiane de ce modèle à tous les modèles du sous-ensemble (stratégie notée médian dans le tableau 2). Une implémentation basée sur la moyenne au lieu de la médiane GDT_TS est également étudiée. Dans la seconde approche, les modèles sont pondérés en fonction de leur score QMEAN (noté moyenne pondérée) Pour dériver la matrice de distance, la distance d'un modèle donné à des modèles plus fiables (c'est à dire. aux modèles ayant de meilleurs scores QMEAN) est plus pondérée, ce qui à son tour réduit l'influence des modèles aléatoires sur le calcul.

Différentes stratégies et seuils de sélection de modèles ont été étudiés. Une référence de plusieurs implémentations alternatives sur l'ensemble de test CASP7 peut être trouvée dans le tableau 2. Par rapport aux performances de QMEAN, des coefficients de corrélation considérablement plus élevés sont obtenus pour toutes les versions de QMEANclust (r = 0,752 contre r = 0,892).

Si l'ensemble des modèles est utilisé dans la dérivation de la matrice de distance (pas de présélection), la moyenne pondérée est comparable ou meilleure que la moyenne ou la médiane à la fois en termes de corrélation entre la qualité prédite et observée du modèle et la capacité à identifier les bons modèles. Si seul un sous-ensemble de modèles de haute qualité est utilisé dans le calcul de la matrice de distance, un score basé sur la distance médiane produit les meilleurs résultats et est utilisé dans la version finale. Trois approches différentes ont été étudiées afin de sélectionner un sous-ensemble de modèles basé sur QMEAN : (1) sélection basée sur les scores Z qui sont calculés en soustrayant de chaque modèle le score QMEAN moyen de l'ensemble et en le divisant par son écart type , (2) la sélection d'un certain pourcentage de modèles les mieux classés ainsi que (3) une stratégie dans laquelle seuls les modèles avec un score QMEAN similaire à celui du modèle le mieux classé sont utilisés afin de faire face à des prédictions qualitativement exceptionnelles.

Une combinaison de la présélection de modèles basée sur QMEAN et de la pondération des distances selon QMEAN dans les calculs de clustering ultérieurs n'est pas utile comme indiqué pour la sélection basée sur les scores Z. Les scores Z ont été calculés sur la base du score QMEAN du modèle et seuls les modèles au-dessus d'un seuil de score Z donné sont utilisés pour le processus de regroupement. Le tableau 2 montre que, avec l'augmentation du seuil de score Z (c'est à dire. moins de modèles de l'ensemble sont utilisés dans les calculs de distance), la capacité du moyenne pondérée stratégie de sélection de bons modèles diminue progressivement, tandis que la performance du médian la stratégie augmente (jusqu'à ce que Z-score > 0). L'utilisation de la médiane plutôt que de la moyenne réduit l'influence des valeurs aberrantes dans les ensembles de données plus petits. Pour les deux autres stratégies de sélection, seules médian est montré, c'est à dire. le score QMEANclust final d'un modèle est la distance médiane de ce modèle par rapport à tous les autres modèles du sous-ensemble sélectionné par la stratégie donnée.

La sélection de modèles basée sur les Z-scores présente plusieurs inconvénients : le nombre de modèles sélectionnés à l'aide d'un seuil de Z-score donné dépend fortement de la difficulté de modélisation. Pour une cible de modélisation simple basée sur un modèle, les modèles de l'ensemble ont tendance à être très similaires et il n'y a pas de modèles avec des scores Z élevés (par exemple. pour certaines cibles, il n'y a pas de modèles avec un Z-score supérieur à 1). En revanche, pour les cibles de modélisation libre, il existe parfois des prédictions exceptionnelles par rapport à la masse des modèles plus ou moins aléatoires. La capture de ces prédictions dans l'étape de sélection est le seul moyen de contourner les limitations inhérentes aux méthodes basées sur le consensus. En outre, différents seuils de sélection peuvent être nécessaires pour les cibles de modélisation basées sur des modèles (TBM) et les cibles de modélisation libres (FM) car les premières contiennent beaucoup plus de redondance structurelle qui peut être capturée par des méthodes de clustering et plus de cibles peuvent potentiellement être utilisées dans le calcul de la matrice des distances.

Dans la quatrième section du tableau 2, les résultats d'une stratégie de sélection basée sur un pourcentage fixe des modèles les mieux notés sont présentés. Un GDT_TS total de 57,97 est obtenu en utilisant les meilleurs modèles de 20 % pour les cibles TBM et les meilleurs 10 % pour les cibles FM. La discrimination entre les cibles TBM et FM est effectuée sur la base du score QMEAN moyen en attribuant des cibles avec un score QMEAN moyen du modèle supérieur à 0,4 à la catégorie de modélisation basée sur des modèles. Ce seuil a été calculé de manière empirique en comparant les distributions des scores des cibles FM et TBM (données non présentées). La meilleure performance de l'approche, qui utilise une sélection de modèles plus tolérante pour les cibles TBM, peut être attribuée au fait que l'ensemble de modèles de cibles TBM contient des informations de consensus plus utiles. Dans le cas des cibles FM, QMEAN est souvent en mesure d'identifier certains des meilleurs modèles qui sont ensuite utilisés dans le calcul du consensus.

Alternativement, une stratégie de sélection simple visant à capturer des prédictions exceptionnelles a été étudiée (cinquième section du tableau 2). Seuls les modèles avec un score QMEAN similaire par rapport au modèle de score le plus élevé sont pris en compte pour le calcul de la distance. Une sélection de modèles à 0,05 unité QMEAN du maximum pour les cibles TBM et 0,1 unité pour les cibles FM donne un GDT_TS total de 58,11. Les modèles TBM étant structurellement plus homogènes, plus de modèles sont sélectionnés dans les cibles TBM que dans les cibles FM utilisant ces seuils. Pour la comparaison ultérieure avec d'autres méthodes, les meilleures versions de QMEAN, QMEANclust et selfQMEAN (voir ci-dessous) sont utilisées. Les valeurs correspondantes sont soulignées dans le tableau 2.

À CASP7, aucun des programmes d'évaluation de la qualité (méthodes de clustering et non-clustering) n'a été en mesure de sélectionner de meilleurs modèles parmi l'ensemble des modèles de serveurs que le serveur Zhang [54] soumis pour chaque cible [35, 41, 44]. La meilleure implémentation de QMEANclust montre une meilleure performance de sélection de modèle que TASSER-QA [35] et une fonction de notation naïve qui prend simplement les modèles de serveur Zhang (GDT_TS total de 58,11 contre 57,35). La différence est statistiquement significative au niveau de confiance de 95 % sur la base d'un test t apparié. La figure 1 souligne que QMEANclust et la fonction de notation de modèle unique QMEAN montrent une performance de sélection statistiquement meilleure (p = 1,9 * 10 -5 et p = 0,009, respectivement) que Pcons, la méthode basée sur le clustering la plus performante à CASP7. En termes de corrélation entre la qualité prédite du modèle et le degré de natif, QMEANclust a des coefficients de corrélation de Pearson (0,892 contre 0,828 de TASSER-QA) et de Spearman (0,841 contre 0,785) significativement plus élevés que TASSER-QA et toute autre fonction de notation testée.

Bien que la capacité de QMEANclust à choisir le meilleur modèle soit meilleure qu'un prédicteur naïf qui sélectionne simplement des modèles Zhang, elle peut encore être améliorée. Les facteurs de pondération de la fonction de notation QMEAN utilisés pour la hiérarchisation des modèles ont été optimisés pour la régression et non pour la sélection du meilleur modèle. Qui et al. [34] ont récemment décrit une approche dans laquelle une fonction de notation composite a été optimisée pour la sélection de modèles à l'aide de machines à vecteurs de support. La plupart des fonctions de scoring actuelles ignorent un paramètre trivial pour l'estimation de la qualité du modèle : la présence et la proximité d'un modèle structurel qui peut être utilisé pour construire le modèle [55]. Zhou et Skolnick [35] ont récemment décrit une fonction de notation dans laquelle la mesure dans laquelle un modèle est couvert par des fragments de modèles identifiés par threading est utilisée comme mesure de qualité. QMEAN pourrait bénéficier d'un tel terme représentant des informations orthogonales à la présente implémentation.

SelfQMEAN : utilisation de termes de potentiel statistique dérivés de l'ensemble de modèles

L'idée d'utiliser l'ensemble des modèles pour une cible donnée comme base pour dériver des termes de potentiel statistique spécifique à la cible a déjà été étudiée [14]. Dans leur travail, Wang et al. a généré une implémentation dépendante du leurre du potentiel d'interaction RAPDF [56] en dérivant les fréquences de distance des modèles dans l'ensemble de leurres et en pondérant chaque compte en fonction du score RAPDF du modèle. Ce potentiel statistique dépendant du leurre fonctionnait mieux que la fonction de notation RAPDF d'origine, mais pas aussi bien qu'un simple score de densité basé sur le RMSD moyen d'un modèle par rapport à tous les autres. Ici, nous avons suivi une stratégie similaire à la différence qu'une fonction de notation combinée utilisant plusieurs potentiels statistiques est utilisée et qu'une fonction de notation de densité améliorée (QMEANclust) est utilisée pour pondérer les modèles contribuant au score selfQMEAN (voir Méthodes). Comme le montre le tableau 2, alors que selfQMEAN génère des coefficients de corrélation considérablement plus élevés que QMEAN, la capacité de sélectionner de bons modèles ne s'améliore pas. La fonction de notation dépendante du leurre ne fonctionne pas mieux que QMEANclust, qui est basé uniquement sur les informations de densité structurelle. La construction d'une fonction de notation composite basée sur des potentiels spécifiques à la cible est problématique car les facteurs de pondération dépendent fortement de la difficulté de modélisation : des ensembles contenant de nombreux modèles très similaires, par exemple. dans les modèles basés sur des modèles de haute précision, résultent en des énergies absolues beaucoup plus faibles en termes de potentiel statistique que des ensembles de modèles divers. Nous avons essayé de contourner le problème en ajoutant simplement les Z-scores énergétiques de chaque terme. Ces résultats suggèrent que le niveau de détail capturé par les fonctions de notation spécifiques à la cible diminue par rapport à la dérivation directe des différences structurelles basée sur les méthodes de consensus. Les informations sur la densité structurelle semblent être capturées plus précisément lorsqu'elles sont directement dérivées des matrices de distance sans faire le détour en utilisant des potentiels statistiques spécifiques à l'ensemble de modèles. Ces méthodes ne sont pas non plus en mesure de surmonter les limitations des méthodes purement consensuelles déterminées par le groupe structurel le plus dominé.

Comparaison de QMEANclust avec la méthode de consensus de type 3Djury

Dans cette section, nous abordons la question de savoir si QMEANclust et sa stratégie de sélection d'un sous-ensemble de modèles de haute qualité pour le calcul de la densité structurelle est vraiment supérieur aux méthodes de consensus pur et si la nouvelle méthode est capable d'identifier de bons modèles même s'ils sont loin loin du groupe structurel le plus dominant. Pour la comparaison, nous utilisons une implémentation 3D-jury comme [11] basée sur GDT_TS (c'est à dire. le score d'un modèle est simplement son moyenne GDT_TS à tous les autres modèles d'une cible donnée). Comme le montre le tableau 2, cette approche atteint un GDT_TS total de 57,16 par rapport à 58,11 de QMEANclust. Un examen plus approfondi des différences de performances sur les 98 cibles CASP7 révèle que QMEANclust dans de nombreux cas est capable de contourner les limitations inhérentes au jury 3D. Le tableau sur le côté gauche de la figure 2 répertorie toutes les cibles pour lesquelles la sélection de modèle basée sur QMEANclust est d'au moins 0,05 unité GDT_TS meilleure (17 cibles) ou pire (6 cibles) que celle basée sur le jury 3D. Les résultats de trois cibles sont présentés plus en détail dans la figure 2. Deux exemples sont présentés (T0358, T0338) dans lesquels la présélection de modèles basée sur QMEAN (zone en pointillés sur les graphiques de la première colonne) a permis une meilleure sélection de modèles en QMEANclust comparé au jury 3D. Les résultats sont particulièrement prononcés dans le cas de la cible T0308. Les modèles de cette cible semblent être basés sur deux catégories de modèles et la majorité des groupes semblent avoir utilisé la moins appropriée. La zone en pointillés contenant tous les modèles dans un score QMEAN de 0,05 unité du modèle le mieux classé capture la grande majorité des modèles du cluster de la plus haute qualité et seulement une fraction du cluster structurel dominant. L'étape de présélection aboutit à un classement QMEANclust qui n'est pas dominé par les modèles du second cluster contrairement au classement 3D-jury. Les coefficients de corrélation sont de 0,923 pour QMEAN, de 0,931 pour l'approche de type jury 3D et de 0,997 pour QMEANclust.

Comparaison de QMEAN, une approche de type 3d-Jury et QMEANclust sur 3 cibles CASP7 sélectionnées. Le tableau montre la différence GDT_TS entre le meilleur modèle sélectionné par QMEANclust et l'approche du jury 3D. Les corrélations entre le score prédit et le GDT_TS de trois cibles sont présentées pour QMEAN, 3D-jury et QMEANclust (de gauche à droite). Les zones en pointillés marquent les modèles sélectionnés par QMEAN comme base pour QMEANclust. La flèche à droite de chaque graphique indique le meilleur modèle sélectionné.

Les cibles T0354 représentent un exemple dans lequel QMEANclust n'a pas réussi à s'améliorer par rapport à une approche purement basée sur le clustering. Cela peut être attribué aux incohérences dans le classement QMEAN dans lequel un ensemble de modèles similaires mais très médiocres a été classé trop haut. Pour cette cible, la meilleure sélection de modèle aurait été en fait obtenue par QMEAN (comme indiqué par la flèche sur la droite).

Ensemble de test MOULDER : Performances dans une situation de modélisation réaliste

Comme la fonction de notation QMEAN a été optimisée sur les modèles CASP6 et testée sur les modèles CASP7, on pourrait avancer l'argument qu'elle a tendance à être sur-entraînée pour cette situation particulière et également pour le score GDT_TS qui y est utilisé. Par conséquent, nous avons analysé les performances de QMEAN sur l'ensemble de test MOULDER qui représente une situation de modélisation plus réaliste. L'ensemble de test MOULDER se compose de 20 cibles différentes, chacune avec 300 modèles alternatifs générés par MODELLER [57].

Le tableau 4 montre une comparaison entre QMEAN et ses composants et plusieurs fonctions de notation bien établies récemment comparées par Eramian et al. [32]. La différence RMSD (en Angstrom) entre le meilleur modèle de l'ensemble et celui sélectionné par la fonction de notation est donnée en moyenne sur toutes les cibles. Comme dans l'article original, pour chaque cible, les calculs sont répétés 2000 fois avec un sous-ensemble aléatoire (25 %) de modèles afin d'augmenter la robustesse des statistiques. Une description des termes non expliqués ici peut être trouvée dans l'article d'Eramian et al. Ils ont étudié un total de 40 termes et construit une fonction de notation composite combinant les 10 termes les plus performants à l'aide de machines à vecteurs de support. (SVM_SCORE). Le tableau 4 met en évidence la force de QMEAN (en particulier QMEAN6, y compris le terme tout-atome) dans la sélection du modèle. Bien qu'aucun algorithme d'apprentissage automatique n'ait été utilisé pour combiner les termes, QMEAN fonctionne mieux que l'approche SVM. Cela peut être au moins en partie attribué au potentiel d'interaction dépendant de la distance entre tous les atomes et spécifique à la structure secondaire. L'utilisation d'une version spécifique à la structure secondaire par rapport à l'implémentation standard conduit à des résultats systématiquement meilleurs sur l'ensemble de test CASP6 et CASP7 ainsi que sur l'ensemble MOULDER (données non présentées). Sur l'ensemble de données MOULDER, le terme tout-atome de QMEAN fonctionne mieux que les fonctions de notation DFIRE et DOPE bien établies ainsi que le score ROSETTA. Le terme de potentiel d'angle de torsion implémenté dans QMEAN montre une très mauvaise performance sur cet ensemble de test. La distribution des angles de torsion dans les structures leurres est peut-être trop similaire pour être utile pour la discrimination de modèle basée sur le potentiel d'angle de torsion à très gros grains sur trois résidus. Mais ce terme s'est avéré très utile dans d'autres ensembles de tests et en particulier dans la tâche de reconnaissance de la structure native [33].

Les performances de QMEANclust sur l'ensemble de test MOULDER dépendent fortement de la composition et de la qualité de l'ensemble de leurres, comme le montrent les données du tableau 5. Les données sont triées par RMSD médian croissant des 20 ensembles de leurres et aucun rééchantillonnage n'a été effectué. appliqué de telle sorte que l'ensemble des 300 modèles soit utilisé par cible. Les performances de QMEANclust diminuent avec l'augmentation de la diversité de l'ensemble de leurres, ce qui se reflète également par le nombre de modèles quasi natifs dans l'ensemble. QMEANclust montre une performance de sélection de modèle considérablement pire par rapport à QMEAN sur les ensembles de leurres dans la partie inférieure du tableau. Sur les 8 leurres avec moins de 50 modèles quasi-natifs (c'est à dire. modèles inférieurs à 5 Å), la différence est statistiquement significative dans un test t apparié (valeur p 0,05). Ces ensembles de modèles ne semblent pas contenir d'informations utiles sur la densité structurelle qui pourraient être capturées car seuls quelques modèles ont un RMSD inférieur à 5 . Sur l'ensemble du test MOULDER, la fonction de notation QMEAN atteint un ΔRMSD moyen de 0,57 contre 1,15 de QMEANclust. Globalement, la fonction de scoring de modèle unique QMEAN sélectionne pour 4 cibles le meilleur modèle disponible dans l'ensemble et pour 17 cibles un modèle déviant moins de 1 . D'un autre côté, QMEANclust fonctionne tout aussi bien sur les ensembles de leurres peuplés d'une fraction élevée de modèles quasi natifs. Le ΔRMSD moyen sur les 12 cibles contenant au moins 50 modèles quasi-natifs de QMEAN est de 0,58 contre 0,46 pour la méthode de consensus QMEANclust. La différence de performance n'est pas statistiquement significative (valeur p de 0,55 dans un test t apparié). Bien que les résultats aient été obtenus sur un petit ensemble de tests de seulement 20 cibles, ils soulignent le fait que la performance des fonctions de notation de consensus dépend fortement de la composition de l'ensemble de modèles à analyser.

QMEANlocal : estimation de la qualité locale

Les informations sur la densité structurelle peuvent non seulement être utilisées globalement en comparant des modèles entiers, mais également au niveau des résidus en analysant la diversité structurelle locale parmi les modèles [44]. Une région modélisée entièrement différemment dans un modèle par rapport à la majorité des autres est très peu susceptible d'être correcte. Le tableau 6 montre une comparaison des approches de clustering et de non-clustering concernant l'estimation de la qualité locale sur l'ensemble de test CASP7.

Les prédictions par résidu basées sur QMEAN, QMEANclust et selfQMEAN sont comparées à la fonction de notation ProQres récemment publiée (méthode sans consensus). Dans ProQres, un réseau de neurones est utilisé pour combiner plusieurs descripteurs locaux [17]. Récemment, Fasnacht et al. [39] ont publié une fonction de notation composite locale basée sur différents termes combinés par des machines à vecteurs de support, résultant en une performance légèrement meilleure. Il a été démontré que l'approche SVM, ainsi que ProQres, surpassent les fonctions de notation classiques telles que Verify3D [21] et ProsaII [58]. Une comparaison directe avec ces méthodes n'est donc pas nécessaire et une référence rigoureuse par rapport à d'autres méthodes locales d'estimation de la qualité dépasse le cadre de ce travail. Au contraire, les différences de performances générales des méthodes sans clustering, clustering et « self-clustering » doivent être soulignées et discutées ici.

La fonction de notation composite QMEANlocal décrite ici consiste en une combinaison linéaire de 8 descripteurs structurels. Les scores locaux sont calculés sur une fenêtre glissante de 9 résidus qui ont abouti à la meilleure performance par rapport aux tailles de fenêtre alternatives (données non présentées). Par analogie à la version globale de QMEAN, 4 termes de potentiel statistique sont combinés avec 2 termes décrivant l'accord local entre la structure secondaire prédite et mesurée et l'accessibilité du solvant. De plus, deux descripteurs triviaux sont utilisés : l'accessibilité moyenne au solvant et la fraction de résidus dans le segment sans structure secondaire définie. Les facteurs de pondération ont été optimisés sur les modèles soumis à CASP6 avec la distance Cα comme fonction cible (voir Méthodes pour plus de détails).

QMEANlocal estime la qualité locale en utilisant uniquement le modèle, alors que les deux approches suivantes considèrent l'ensemble des modèles. Nous avons étudié deux approches différentes pour l'estimation de la qualité locale en s'appuyant sur les informations de densité structurelle contenues dans l'ensemble de modèles (QMEANclust_local, selfQMEANlocal).

Dans l'approche de consensus local, les écarts Cα parmi les positions équivalentes dans les modèles après une superposition dépendante de la séquence avec le programme TMscore [52] sont analysés afin d'en déduire un score de qualité. Par analogie avec le score QMEANclust global, soit un sous-ensemble de tous les modèles est utilisé dans le calcul de la distance et la distance médiane est récupérée, soit une distance moyenne pondérée en fonction du score de qualité du modèle global est calculée. De cette façon, des segments de modèles plus fiables ont une influence plus forte sur le score local prédit. Le classement des modèles basé sur QMEANclust est utilisé pour la sélection et la pondération des modèles. Une pondération selon QMEAN a également été étudiée mais a entraîné une moins bonne performance (données non présentées). Les termes de potentiel statistique dans selfQMEANlocal sont entraînés sur les meilleurs modèles de classement de l'ensemble. Les autres termes sont identiques à ceux de QMEANlocal et les facteurs de pondération sont dérivés à l'aide de l'ensemble de données CASP6.

Le tableau 6 montre l'évaluation des fonctions de notation locales à l'aide d'une variété de mesures de qualité couvrant différents aspects de la performance. La précision locale d'un modèle est décrite comme la distance Cα entre les résidus équivalents après superposition du modèle et sa structure native avec TMscore. Pour chacune des 98 cibles CASP7, tous les résidus de tous les modèles de serveurs sont regroupés. Les coefficients de corrélation de Pearson à moyenne cible des fonctions de notation de consensus local sont considérablement plus élevés que pour les autres méthodes qui ne montrent presque aucune corrélation linéaire. Néanmoins, la fonction de notation du modèle unique QMEANlocal montre une forte tendance à discriminer entre les positions dans les modèles s'écartant par rapport à la structure native des positions non déviantes, comme le reflète la zone moyenne élevée sous la courbe dans l'analyse ROC. Deux types d'analyse ROC ont été effectués, l'un basé sur tous les résidus de tous les modèles par cible (aire moyenne sous la courbe notée ROCmoyenne dans le tableau 6) et l'autre avec tous les modèles de toutes les cibles regroupées (notées ROCtous). Les courbes ROC de cette dernière approche (sur l'ensemble des 98 cibles) sont illustrées à la figure 3. La meilleure performance dans l'estimation de la qualité du modèle local est obtenue par la méthode de clustering QMEANclust_local. Les deux stratégies de calcul du consensus structurel local basé sur la distance Cα médiane ou moyenne pondérée parmi les modèles aboutissent à des courbes assez similaires. Les potentiels statistiques spécifiques à la cible utilisés dans selfQMEANlocal fonctionnent considérablement mieux que la mise en œuvre standard de QMEANlocal mais n'atteignent pas le pouvoir de discrimination des méthodes de consensus. Par analogie avec l'implémentation globale de selfQMEAN, l'utilisation de potentiels statistiques spécifiques à la cible dans la version locale n'améliore pas les performances par rapport au clustering seul. Sur toutes les mesures de qualité, QMEANlocal affiche une performance considérablement meilleure que ProQres.

Courbes caractéristiques de l'opérateur récepteur (ROC) pour les différentes versions locales de QMEAN et ProQres. Une distance de coupure Cα de 2,5 Å a été utilisée. Deux approches alternatives de QMEANclust ont été testées qui combinent les distances Cα locales en utilisant la médiane ou la moyenne pondérée.

Les deux dernières colonnes du tableau 6 montrent une analyse des 10 % de résidus les plus bas et les plus élevés par cible selon le score de qualité correspondant. QMEANlocal montre les meilleures performances dans la reconnaissance des régions fiables, comme en témoigne la meilleure distance moyenne Cα des résidus à 10 % ayant le score le plus bas. Comme c'est le cas avec éventuellement toute autre fonction de notation analysant des modèles uniques (c'est à dire. basé sur des termes de potentiel statistique), QMEANlocal n'est pas en mesure de distinguer les régions avec un écart élevé et très élevé par rapport à l'origine. Si l'ensemble de modèles contient une redondance structurelle qui peut être capturée par des méthodes basées sur le consensus, la version locale de QMEANclust est très efficace pour identifier les régions dans les modèles qui s'écartent du consensus structurel et les régions qui sont potentiellement correctes. Pour la modélisation basée sur des modèles, des coefficients de corrélation entre l'écart local prédit et calculé par rapport au natif ont été observés jusqu'à 0,95 sur les résidus de l'ensemble de modèles de certaines cibles CASP7. Pour l'analyse de modèles uniques ou dans le cas où l'ensemble ne contient pas d'informations utiles sur la densité, des fonctions de notation composites telles que QMEANlocal peuvent être utilisées. Selon la situation de modélisation, l'une ou l'autre approche peut être utilisée pour identifier des régions incorrectes dans le modèle qui peuvent être soumises à un rééchantillonnage conformationnel local dans un protocole de raffinement de modèle.

Les mesures de qualité décrites jusqu'à présent reposent toutes sur l'ensemble des résidus de tous les modèles par cible (ou sur toutes les cibles pour le ROCtous) et décrivent l'accord général de la qualité du modèle local prédit et mesuré. Ils n'analysent pas explicitement si une méthode est capable d'estimer la fiabilité de différentes régions dans un modèle. Par conséquent, nous avons également analysé pour chaque modèle le degré de correspondance entre la déviation locale prédite et observée en utilisant le coefficient de corrélation du rang tau de Kendall. Le tableau 4 indique la moyenne du tau de Kendall sur tous les modèles par cible. Les performances de selfQMEANlocal se situent entre les méthodes de non clustering et de clustering.

Une analyse de la courbe ROC des termes contribuant à QMEANlocal suggère que la performance est fortement portée par des arguments triviaux tels que l'accessibilité du solvant et la composition de la structure secondaire (données non présentées). Deux termes analogues sont utilisés à la fois dans ProQres et dans l'approche SVM de Fasnacht et al. Les différences de performances peuvent donc s'expliquer en partie par l'amélioration des termes de potentiel statistique. La version QMEANlocal présentée dans ce travail n'est qu'un point de départ et une approche plus élaborée est nécessaire pour combiner les termes par exemple. SVM ou réseaux de neurones. Néanmoins, la combinaison linéaire de termes utilisée dans QMEANlocal fonctionne considérablement mieux que ProQres basé sur un réseau de neurones.


Combien de résidus un modèle structurel ab initio fiable peut-il contenir ? - La biologie

une Biologie structurale, Institut de biologie moléculaire de Barcelone, Baldiri Reixac 15, Barcelone, 08028, Espagne, et b Biologie Structurale, ICREA à IBMB-CSIC, Baldiri Reixac 13-15, Barcelone, 08028, Espagne
* Courriel de correspondance : [email protected]

Ab initio le phasage des structures macromoléculaires, à partir des seules intensités natives sans information de phase expérimentale ou connaissance structurale particulière préalable, a fait l'objet d'une longue quête, limitée par deux barrières principales : la taille de la structure et la résolution des données. Les approches actuelles pour étendre la portée des ab initio le phasage comprend l'utilisation de la fonction de Patterson, la modification de la densité et l'extrapolation des données. L'approche des auteurs repose sur la combinaison de fragments de modèles de localisation tels que les hélices de polyalanine α avec le programme PHASER et modification de la densité avec le programme ETAGERE . Compte tenu des difficultés de discrimination de petites sous-structures correctes, de nombreux groupes de fragments putatifs doivent être testés en parallèle, ainsi les calculs sont effectués dans une grille ou un superordinateur. La méthode doit son nom au peintre italien Arcimboldo, qui composait des portraits à partir de fruits et légumes. Avec ARCIMBOLDO , la plupart des collections de fragments restent une « nature morte », mais certains sont suffisamment corrects pour que la modification de la densité et le traçage de la chaîne principale révèlent le véritable portrait de la protéine. Au-delà des hélices α, d'autres fragments peuvent être exploités de manière analogue : des bibliothèques d'hélices avec des chaînes latérales modélisées, des brins β, des fragments prévisibles tels que des plis de liaison à l'ADN ou des fragments sélectionnés à partir d'homologues distants jusqu'à des bibliothèques de petites plis locaux qui sont utilisés pour renforcer la structure tertiaire non spécifique rétablissant ainsi la ab initio nature de la méthode. En utilisant ces méthodes, un certain nombre de macromolécules inconnues avec quelques milliers d'atomes et des résolutions d'environ 2 Å ont été résolues. Dans la version 2014, l'utilisation du programme a été simplifiée. Le logiciel permet l'utilisation de calculs massifs pour automatiser l'accès au réseau requis dans les cas difficiles, mais peut également fonctionner sur un seul poste de travail multicœur (http://chango.ibmb.csic.es/ARCIMBOLDO_LITE) pour résoudre des cas simples.

1. Introduction

Cent ans se sont écoulés depuis que Max von Laue a reçu le prix Nobel de physique pour sa découverte de la diffraction des rayons X par les cristaux (Friedrich et al. , 1912 von Laue, 1912 ). Depuis cette découverte, la cristallographie est devenue un outil d'investigation essentiel dans toutes les sciences, car elle fournit des informations sur la structure moléculaire jusqu'au niveau atomique avec un degré de détail et de précision inégalé par aucune autre technique structurelle. La diffraction des rayons X a été utilisée pour la première fois par les Braggs pour déterminer la structure tridimensionnelle des cristaux (Bragg & Bragg, 1913 ). Dans une expérience de diffraction, seules les intensités des faisceaux de rayons X diffractés sont enregistrées, alors que leurs phases ne le sont pas. Néanmoins, des phases sont nécessaires pour calculer une carte de densité électronique à partir de laquelle un modèle atomique peut être dérivé. Fournir les phases manquantes a été une quête depuis le début de la cristallographie et le phasage constitue toujours un goulot d'étranglement dans de nombreuses études cristallographiques. Dans le domaine de la cristallographie macromoléculaire, les phases initiales sont généralement dérivées soit expérimentalement d'une sous-structure d'atomes de référence, intrinsèques à la structure ou incorporés, et de données collectées à une ou plusieurs longueurs d'onde particulières (Hendrickson, 1991), soit de la mise en place dans le unité d'un modèle lié à la structure cible (Rossmann, 1972 ). En cristallographie chimique, pour les structures composées de moins de 200 atomes indépendants, les méthodes directes (Hauptman & Karle, 1953 Karle & Hauptman, 1956) sont généralement capables de fournir un modèle initial exclusivement à partir des intensités expérimentales mesurées sur un cristal natif. . Contrairement à la cristallographie macromoléculaire, aucune connaissance stéréochimique préalable ni aucune donnée expérimentale supplémentaire à partir de cristaux modifiés ou de longueurs d'onde sélectionnées ne sont nécessaires. Les méthodes directes sont donc appelées ab initio méthodes. Ils résolvent le problème de phase en exploitant des relations probabilistes et la possibilité d'évaluer de nombreux ensembles de phases de départ grâce à des figures de mérite fiables. L'extension des méthodes directes à des structures plus grandes d'environ 1000 atomes indépendants a été accomplie par l'introduction de la Shake-and-Bake algorithme (Miller et al. , 1993 ) mis en œuvre dans les programmes SnB (Meunier et al. , 1994 ) et SHELXD (Nous & # 38 Sheldrick, 1999 ). La figure 1 montre un schéma du Shake-and-Bake algorithme (Sheldrick et al. , 2011 ). Partant d'une hypothèse initiale, généralement un ensemble d'atomes générés aléatoirement, les phases sont calculées et modifiées selon des relations de méthodes directes. Les phases modifiées sont utilisées pour calculer une carte de densité électronique et un nouvel ensemble d'atomes est sélectionné parmi les maxima de cette carte. Dans les cas favorables, l'itération de ce processus conduit à une solution de structure, qui peut être identifiée par un facteur de mérite fiable appelé coefficient de corrélation (CC) (Fujinaga & Read, 1987 ). Il convient de noter que toutes les étapes de la procédure décrite appliquent l'atomicité en tant que contrainte : l'ensemble de phases initial est calculé à partir d'un modèle atomique (aléatoire), la formule tangente et la fonction minimale sont dérivées de l'atomicité et les cartes calculées sont interprétées en choisissant des atomes à partir de laquelle calculer un nouvel ensemble de phases. Il n'est donc pas surprenant que de telles méthodes aient été limitées par l'exigence de données de résolution atomique. Le tableau 1 résume les structures précédemment inconnues avec plus de 300 atomes indépendants qui ont été résolus ab initio à l'aide de SHELXD . Remarquablement, le tableau présente un grand nombre de macromolécules non standard, telles que des antibiotiques ou de grands peptides riches en disulfure pour lesquels les méthodes classiques de protéines n'ont pas fourni une alternative adéquate car ni les modèles appropriés ni les moyens faciles de dérivatisation n'étaient une option. Par exemple, la structure de l'antibiotique vancomycine était attendue depuis longtemps, car sa cristallisation avait été décrite de nombreuses années avant qu'une solution ne soit obtenue de manière indépendante avec SHELXD (Schäfer et al. , 1996 ) et SnB (Se prélasser et al. , 1997 ).

Tableau 1
Certaines structures inconnues auparavant résolues en utilisant SHELXD


Figure 1
Recyclage à double espace Shake-and-Bake algorithme pour ab initio mise en phase à résolution atomique.

Les structures macromoléculaires diffractant à la résolution atomique (1,2 Å ou au-delà) sont plutôt une exception [moins de 2,5% des entrées dans l'APB (Bernstein et al. , 1977 Berman et al. , 2000 )]. Un général ab initio La méthode de phasage devrait également être en mesure de traiter les cas de résolution inférieure. Néanmoins, un certain nombre d'expériences utiles peuvent être tirées des cas de résolution atomique et exportées vers l'application de résolution inférieure. Certaines des structures résolues ab initio avec SHELXD nécessitait la localisation d'un petit fragment de géométrie connue pour générer l'hypothèse initiale, plutôt que de s'appuyer sur une collection d'atomes totalement aléatoires. Par exemple, le cycloamylose CA26, dans la triclinique P 1 formulaire (Gessler et al. , 1999 ) ou dans l'orthorhombique P 2 1 2 1 2 1 formulaire (Nimz et al. , 2004 ), présenté dans les Figs. 2 ( une ) et 2( b ) respectivement, n'a pu être résolu qu'en optimisant localement le positionnement aléatoire d'un fragment de diglucose pour ensemencer le Shake-and-Bake procédure. De même, la structure de hiru­stasin (nousón et al. , 1999 ), illustré à la figure 2 ( c ), a pu être résolu non seulement à partir des données d'origine 1.2 Å, mais même à partir d'un ensemble de données 1.4 Å en localisant initialement la sous-structure constituée par les dix atomes de soufre dans ses cinq ponts disulfure au stade où l'algorithme travaille sur les données normalisées les plus solides et étend cette sous-structure par une interprétation itérative de la carte contre toutes les données. Des benchmarks sur des structures de test ont montré qu'un grand nombre de cycles pouvait conduire à une solution allant même jusqu'à désactiver la partie méthodes directes de l'algorithme, c'est-à-dire sans modification au stade de l'espace réciproque (Sheldrick et al. , 2011 ). En effet, le simple recyclage de l'étape d'interprétation de la carte, par la sélection d'atomes et l'omission aléatoire d'un tiers d'entre eux, a permis de résoudre la structure de test à 317 atomes de la gramicidine A (Langs, 1989).


Figure 2
Structures du cycloamylose CA26 (cyclomaltohexaicosaose) en groupes spatiaux ( une ) P 1 et ( b ) P 2 1 2 1 2 1 . Ces structures ont été résolues à partir d'un fragment de diglucose placé aléatoirement et localement optimisé. Des points de départ différents ont conduit à la même solution finale. ( c ) Structure de l'hirustasine, résolue en localisant d'abord la sous-structure constituée des dix atomes de soufre dans les cinq ponts disulfure et en s'étendant à partir de ce point jusqu'à l'ensemble de la structure.

Dans les méthodes de recyclage à double espace, toutes les tentatives de phase d'une structure donnée n'aboutissent pas à une solution. SHELXD poursuit de nombreuses hypothèses de départ et conserve le meilleur résultat jusqu'à présent, pour les cas particulièrement difficiles, de nombreux essais peuvent être nécessaires pour produire une solution réussie, par exemple, il a fallu 25 ensembles d'atomes de départ pour obtenir une solution d'ARN polyA (Safaee et al. , 2013 ). L'approche multisolution nécessite un moyen efficace d'identifier les solutions réussies ou celles susceptibles d'être améliorées, car il n'est pas possible d'examiner toutes les cartes de densité électronique ou les modèles atomiques résultants. Le coefficient de corrélation (CC) calculé sur toutes les données est fiable lorsque des données de résolution atomique sont disponibles, mais à une résolution inférieure, toutes les collections aléatoires d'un nombre suffisamment important d'atomes non contraints présentent des valeurs de CC également élevées.La résolution atomique et l'exhaustivité des données se sont également avérées essentielles pour le phasage avec le programme SnB (Xu et al. , 2000 ). L'extrapolation pour inclure les données non mesurées a été introduite par Giacovazzo (Caliandro et al. , 2005 une ) pour améliorer les données expérimentales lorsque ces conditions n'étaient pas remplies et que son utilisation a été intégrée dans le ab initio cas de phasage (Caliandro et al. , 2005 b ). La présence d'atomes plus lourds que le soufre, sous forme de métaux inhérents ou de contre-ions, est également bénéfique conduisant à la résolution de structures plus grandes, comme un cytochrome c3 avec 2208 atomes, dont huit atomes de Fe (Frazao et al. , 1999 ). Cet avantage a été exploité dans ab initio phasage par une utilisation sophistiquée de la fonction Patterson (Caliandro et al. , 2008 ).

Environ la moitié (48%) des structures cristallines déposées dans le PDB diffractent à 2 Å ou mieux. Par conséquent, un ab initio une méthode de phasage efficace jusqu'à cette résolution serait d'intérêt général. L'approche qui sous-tend le ARCIMBOLDO méthode est structurée autour des idées suivantes. Pour briser la dépendance de la résolution atomique, il devrait être essentiel de substituer l'application de l'atomicité par celle de la connaissance stéréochimique d'unités plus grandes. En pratique, la mise en phase doit être limitée par des fragments plutôt que par des atomes. De plus, au lieu de sélectionner des atomes pour interpréter une carte, la modification de la densité produirait une amélioration efficace à une résolution inférieure. Giacovazzo et al . ont largement développé cet aspect dans leur algorithme VLD (Burla et al. , 2011 , 2012 ). Commencer le phasage à partir d'une sous-structure petite mais très précise dans le cadre de GLAND a été signalé comme étant remarquablement efficace (Yao et al. , 2005 , 2006 ) et nos propres tests ont corroboré ce résultat, aussi peu que 10% des atomes de la chaîne principale suffisent pour résoudre une structure à 2 Å. Encore une fois, l'interprétation automatique des cartes modifiées sous la forme d'un traçage de la chaîne principale des peptides contraint le phasage vers la solution correcte et fournit en même temps une figure de mérite fiable. Alors que le CC pour une collection non restreinte d'atomes peut également être élevé pour une sous-structure incorrecte, une trace erronée peut être clairement distinguée d'une trace correcte avec une stéréochimie sensible à des résolutions allant jusqu'à 2,0 Å. Jusqu'à ce point, où le traçage automatique identifie une solution, il peut ne pas être possible de distinguer les solutions partiellement correctes des mauvaises. Cela impose la nécessité de calculer de nombreuses hypothèses différentes et de les développer jusqu'à un stade où le succès peut être identifié, ce qui implique une grande demande en temps CPU. Le processus est facile à paralléliser et la répartition des tâches sur une grande grille ou un supercalculateur a été un élément essentiel de cette méthode.

Le présent travail porte sur les approches des structures de phases ab initio remplacer le besoin de résolution atomique par des connaissances stéréochimiques à travers des fragments de structure secondaires et des plis locaux.

2. ARCIMBOLDO

S'appuyant sur l'expérience du recyclage dans le double espace à résolution atomique, l'idée centrale de notre approche pour surmonter la barrière de la résolution et étendre la portée de ab initio le phasage à des résolutions jusqu'à 2 Å consistait à substituer les contraintes d'atomicité par l'application d'une structure secondaire. Plutôt que de commencer la mise en phase à partir d'une collection d'atomes, des fragments de modèle de structure secondaire seraient placés au hasard et leur position de départ optimisée localement ou alternativement localisée avec le programme PHASER (McCoy et al. , 2007 ). Au lieu d'améliorer les phases grâce à la formule de la tangente et d'interpréter comme des atomes les maxima dans les cartes de densité électronique produites, les cartes seraient améliorées par des techniques de modification de la densité et les cartes améliorées seraient interprétées en termes de chaîne principale avec le programme ETAGERE (Sheldrick, 2002). Le traçage automatique de la chaîne principale fournirait à son tour un facteur de mérite fiable à la résolution proposée (Sheldrick, 2010 ). Le CC caractérisant la trace est nettement plus élevé pour les traces correctes que pour les traces erronées (Thorn & Sheldrick, 2013 ). La figure 3 présente un schéma de cette approche. Nous avons nommé la méthode d'après le peintre du XVIe siècle Arcimboldo, qui a assemblé des portraits à partir d'objets tels que des fruits et des légumes. Notre hypothèse de départ assemble des structures partielles à partir de fragments de structure secondaires et, si elle est suffisamment correcte, la modification de la densité réussit à révéler le portrait de notre protéine, s'étendant jusqu'à une structure presque complète. Comme la plupart de nos essais restent une « nature morte », la méthode nécessite un calcul intensif. Heureusement, les calculs peuvent être facilement scindés en petites tâches et répartis sur une grille d'ordinateurs ou un supercalculateur.


figure 3
ARCIMBOLDO algorithme pour ab initio phasage avec des fragments de modèle à une résolution jusqu'à 2 Å.

2.1. α -Les hélices comme fragments idéaux

Le fragment idéal évident à partir duquel commencer était celui composé des atomes de la chaîne principale d'une hélice α régulière. Ils ont été utilisés pour le phasage d'une recherche multidimensionnelle stochastique, représentant moins de 13% du nombre total d'atomes par fragment (Glykos & Kokkinidis, 2003 ). α - Les hélices sont presque omniprésentes car 80% des structures déposées dans le PDB contiennent au moins un des plus de 12 résidus. Ils sont également constants dans leur géométrie, de sorte qu'une hélice de 14 résidus s'adaptera à la chaîne principale de presque n'importe quelle hélice sur n'importe quelle structure avec un r.m.s.d. en dessous de 0,3 Å. Plutôt rigides, les hélices auront souvent de faibles B valeurs par rapport au reste de la structure. Enfin, nous ne l'avions pas anticipé mais nous tirons probablement un avantage supplémentaire de leur caractère périodique, ce qui donne lieu à des traits caractéristiques dans la fonction de Patterson (Caliandro et al. , 2012 ). La première structure inconnue résolue par ARCIMBOLDO , était celui du PRD2, contenant 220 acides aminés dans l'unité asymétrique et diffractant à une résolution de 1,95 Å (Rodríguez et al. , 2009 ). Une solution a été trouvée dans le cas de trois des 1467 structures partielles combinant trois hélices de chaîne principale de 14 alanines. Depuis lors, comme on peut le voir dans le tableau 2, au moins 18 nouvelles structures ont été résolues à partir d'hélices. Depuis la première implémentation de la « force brute » qui a généré un grand nombre de structures partielles et tenté d'en étendre autant que possible pour une configuration donnée de ressources de calcul, l'examen des résultats intermédiaires a permis un contrôle plus rationnel du processus. La figure 4 illustre les étapes de la solution de myosine Vb à 2.07 Å (Nascimento et al. , 2013 ). 4 ( une ) affiche le ETAGERE carte de densité électronique obtenue après placement d'une seule hélice, modification de la densité et autotracing. Outre l'hélice correctement placée affichée, la carte encore très bruitée, caractérisée par une erreur de phase moyenne (MPE) de 73 & 176, montre la densité électronique autour de certains endroits où devraient se trouver les hélices manquantes. 4 ( b ), après le placement d'une deuxième hélice, affiche une carte plus correcte avec un MPE de 68 & 176, où les caractéristiques correctes de la structure commencent à émerger mais ne se développent pas en une structure complète. 4 ( c ), après placement d'une troisième hélice produit une carte initiale de 63° MPE dont le recyclage, illustré à la Fig. 4 ( ), conduit à la construction de plus des deux tiers de la chaîne principale et à une carte finale de 42 & 176 MPE, où la densité électronique de certaines des chaînes latérales devient également apparente.

Tableau 2
Structures précédemment inconnues résolues à l'aide ARCIMBOLDO et BORGES

Voir le texte pour plus d'informations sur les structures marquées d'un *.


Figure 4
Evolution par étapes dans la solution de myosine Vb (PDB ID 4j5m ). Les quatre panneaux affichent le Dm F oF c cartes contournées à 1 σ calculées après placement d'hélices successives de 22 alanines et au stade final. Les erreurs de phase moyennes initiales, CC pour la sous-structure de départ et le nombre de résidus tracés sont indiqués pour chaque panneau. ( une ) Après le placement d'une hélice de 22 acides aminés, le CC initial est de 7,21% et le wMPE est de 73,4 & 176, 64 résidus ( b ) après placement de deux hélices de 22 acides aminés, le CC initial est de 10,0% et le wMPE est de 68,0°, 76 résidus ( c ) après placement de trois hélices de 22 acides aminés, le CC initial est de 12,7% et wMPE est de 62,7°, 127 résidus ( ) solution finale, le CC initial est de 26,6% et le wMPE est de 53,4°, 241 résidus tracés et le wMPE final est de 42°. La figure a été préparée avec PyMOL .
2.1.1. Rotation des hélices

Étant donné une protéine entièrement hélicoïdale, il est intéressant d'examiner si toutes les hélices sont représentées ou non dans les solutions partielles, comment les solutions indépendantes sont au premier stade d'une PHASER recherche de rotation (Storoni et al. , 2004 ) et comment ils se développent au fur et à mesure de la recherche de fragments supplémentaires. Considérons quelques cas représentatifs, représentés sur la figure 5 . Pour la protéine PRD2 (PDB ID 3gwh ) décrite ci-dessus, contenant 220 acides aminés impliquant dix tronçons hélicoïdaux de longueurs allant de 10 à 20 acides aminés, des données de diffraction jusqu'à 1,95 Å sont disponibles. Une recherche de rotation en pleine résolution produit 42 solutions dans les 75 % de la valeur supérieure du gain de vraisemblance (LLG). Ils peuvent être regroupés avec une tolérance de 15 & 176 en six rotations indépendantes, en tenant compte de la symétrie du groupe spatial. Quatre des six groupes correspondent à des hélices dans la structure, les deux autres ont des erreurs telles que le mappage à la rotation représentant une hélice plus petite que le fragment de recherche ou de grands écarts par rapport à la rotation géométriquement la plus proche correspondant à une hélice dans la vraie structure. 5 ( une ) affiche la structure PRD2, représentant les quatre rotations correctement identifiées superposées à leurs emplacements corrects correspondants. Dans cette structure, 41 tronçons chevauchants sont compatibles avec une hélice modèle de 14 acides aminés de long, avec un r.m.s.d. allant de 0,29 à 0,36 Å. Calcul des valeurs LLG avec le mode MR_GYRE en PHASER nous permet de classer les hélices qui ont les meilleurs scores de fonction de rotation et pourraient donc être localisées. Les résultats ont été codés avec des couleurs arc-en-ciel, le bleu représentant les valeurs LLG les plus élevées et le rouge les plus faibles. Comme on peut le voir sur la figure 5 ( une ), trois des hélices possibles dans la structure présentent des valeurs LLG de rotation beaucoup plus faibles, leur emplacement étant hautement improbable car leurs valeurs LLG se situent en dehors de la limite de 75 %.


Figure 5
Structures de ( une ) PRD2 (ID PDB 3gwh ), ( b ) Niv -ranaspumine (4k82 ) et ( c ) eIF5 (2iu1 ) en représentation cartoon. Les hélices de 14 acides aminés ou plus sont codées avec un schéma arc-en-ciel pour représenter la valeur LLG de la fonction de rotation caractérisant chacune des hélices possibles qui peuvent être ajustées. Le bleu indique une valeur LLG élevée et le rouge une valeur faible. Les hélices dont la rotation a été trouvée dans une recherche à pleine résolution (seuil, 75 % du haut) sont représentées sous forme de bâtonnets magenta. La figure a été préparée avec Foulque et PyMOL .

La protéine eIF5 (Bieniossek et al. , 2006 ) (PDB ID 2iu1 ), illustré à la Fig. 5 ( b ), contient 179 acides aminés dans 11 tronçons hélicoïdaux de longueurs allant de sept à 21 acides aminés et pour lesquels des données de diffraction à 1.7 Å sont disponibles. Une recherche de rotation à pleine résolution donne 25 pics à moins de 75 % de la valeur LLG supérieure, qui peuvent être regroupés en quatre clusters, deux d'entre eux correspondent à de vraies hélices avec un r.m.s.d. en dessous de 0,3 Å.

Pour Niv -ranaspumine (Hissa et al. , 2014 ) (PDB ID 4k82 ) à 1,7 Å, les 26 pics de rotation correspondent à la même hélice correcte dans la structure finale, un deuxième groupe montre un r.m.s.d. de 1,26 Å à l'hélice réelle la plus proche.

En résumé, toutes les hélices d'une structure ne sont pas représentées de manière égale dans une recherche de rotation, réduisant même le pas d'échantillonnage. Longues hélices avec B les valeurs semblent en particulier être mieux localisées.

2.1.2. Traduction d'hélices

Une recherche de traduction (McCoy et al. , 2005 ) nécessite des rotations très précises pour réussir, mais est parfois capable de s'adapter de manière inattendue à des erreurs telles que le déplacement d'une hélice par un ou plusieurs résidus tombant à l'extérieur de l'hélice correctement placée ou une déviation locale élevée tant que le noyau du modèle placé est très précis. Dans les trois cas décrits, la translation correcte est localisée pour la moitié des hélices où une rotation correcte était reconnaissable, en particulier les cas où la rotation était la plus précise.

2.1.3. Hélices avec chaînes latérales

Tout modèle au format PDB peut être spécifié comme fragment de recherche. Notre première implémentation (Rodríguez et al. , 2012 ) envisageait d'évaluer les bibliothèques de modèles alternatifs par rapport à la fonction de rotation et de procéder avec la meilleure note en termes de rotation LLG ou Z But. Les tests ont montré qu'il était possible de sélectionner l'hélice avec des chaînes latérales définies sur les conformères les plus proches pour faciliter le phasage en utilisant des modèles plus complets. L'utilisation des bibliothèques s'est déplacée dans la mise en œuvre actuelle vers le traitement plus sophistiqué dans le ARCIMBOLDO_BORGES mode expliqué ci-dessous. Des hélices avec des chaînes latérales en tant que fragments ont été utilisées avec succès dans la première solution d'une structure en spirale d'atrogine musculaire (Franke et al. , 2014 ) mais la version actuelle réussit également à partir de fragments de polyalanine.

2.2. β -Chaînes

La géométrie des brins β est intrinsèquement plus variée, comme on peut l'apprécier d'un coup d'œil sur une parcelle typique de Ramachandran (Ramachandran et al. , 1963 ). Tous les acides aminés des hélices α se trouvent dans une plage très étroite d'angles φ , ψ autour de la région préférée 󔽇.8°, 󔼱.1°. Jusqu'à 40% de tous les acides aminés se trouvent dans cette région la plus peuplée, couvrant seulement 2% de la parcelle de Ramachandran. La région de la feuille β est clairement subdivisée en deux régions distinctes et les écarts types autour des deux maxima sont aussi élevés que 20° pour les acides aminés non proline et non glycine (Hovmöller et al. , 2002 ).

La structure de la protéine d'immunité à la colicine dimère CMI (Usón et al. , 2012 ) de Escherichia coli contient 115 acides aminés dans l'unité asymétrique et son pli présente une feuille de quatre brins antiparallèles et trois hélices, la plus longue comprenant 26 résidus. Données de diffraction dans le groupe d'espace C 222 1 sont disponibles à une résolution de 1,8 Å. Cette petite protéine a été utilisée comme test pour essayer de la résoudre à partir d'un modèle hélicoïdal ou d'un brin équivalent β. La recherche d'une hélice polyalanine modèle de neuf acides aminés résout la structure, alors qu'il faut noter que les hélices de recherche typiques sont généralement plus longues. En revanche, même le brin le plus long de la structure couvrant neuf résidus (de 97 à 105) n'a pas pu être utilisé avec succès, même en incluant des chaînes latérales dans leur véritable conformation. Un modèle aussi parfait est impossible à prédire et, par conséquent, les brins de modèle isolés sont d'une utilité limitée. Malgré la variabilité plus élevée de la conformation des brins, leur association dans un pli en feuille a tendance à être plus constante, car elle implique des liaisons hydrogène de la chaîne principale plutôt que les contacts médiés par la chaîne latérale reliant les hélices voisines. La structure peut être résolue à partir d'un modèle parfait à double brin, indiquant que les petits plis locaux devraient fournir un meilleur modèle de recherche pour les feuilles β que de s'appuyer sur des brins isolés.

2.3. Fragments de liaison à l'ADN

De petits plis locaux peuvent être prédits avec suffisamment de précision pour fournir des modèles appropriés. Il est clair qu'une telle approche implique l'utilisation de connaissances structurelles antérieures propres à la macromolécule à phaser et ne peut être considérée comme une ab initio méthode, à moins que l'hélice d'ADN ne suffise comme fragment de recherche dans un rôle analogue à celui de l'hélice α. Les éléments de structure secondaire de l'ARN ont été utilisés comme fragments de recherche multiples dans une méthode efficace, combinant le remplacement moléculaire (MR), l'inspection manuelle de la carte, le raffinement, la modification de la densité et les cartes composites à omission (Robertson & 38 Scott, 2008 Robertson et al. , 2010 ). Afin de permettre une solution de structure avec ARCIMBOLDO , nous avons suggéré de tirer parti des modèles spécifiques des protéines de liaison à l'ADN pour générer des bases de données de motifs structuraux conservés (Pröpper et al. , 2014 ). Les bibliothèques précalculées peuvent être téléchargées à partir de notre site Web (http://chango.ibmb.csic.es/dna) ou calculées à la volée pour ressembler structurellement à un modèle PDB d'entrée.

3. BROYEUR

De manière analogue, si un homologue distant est connu mais que la RM échoue, il arrive fréquemment qu'une partie de la structure cible ressemble au modèle de recherche dans son repli. Des méthodes sophistiquées existent pour prédire à partir des statistiques de séquence et de structure comment rogner et modifier un tel modèle pour produire des modèles de recherche RM. Sculpteur (Superposés & 243czi & 38 Lire, 2011 ), mrtailleur (Gruene, 2013 ), SCED (McCoy et al. , 2013 ) ou Ensembler (superposés & 243czi et al. , 2013 ). Une approche potentielle serait d'extraire toutes sortes de petits fragments possibles du modèle de l'homologue distant et de les utiliser comme modèles de recherche au sein de ARCIMBOLDO . Le nombre d'hypothèses structurelles raisonnables devient très grand et donc l'algorithme dans ARCIMBOLDO_SHREDDER a été conçu pour sélectionner les meilleurs modèles de recherche par optimisation par rapport aux données de diffraction expérimentales, plutôt que sur des attentes basées sur des connaissances antérieures. L'évaluation de chaque résidu dans le modèle est effectuée par l'analyse de la fonction Shred-LLG, combinant les résultats LLG d'un certain nombre de fonctions de rotation (Storoni et al. , 2004 ) calculés sur des modèles systématiquement déchiquetés (Sammito et al. , 2014 ). Quelques modèles résultant de l'omission de toutes les portées moins appropriées, comme indiqué par les valeurs de la fonction Shred-LLG, sont utilisés comme ARCIMBOLDO fragments de recherche.

4. BORGES

En l'absence de connaissances spécifiques, nous nous attendrions à ce que toute structure inconnue contienne des plis locaux déjà observés dans l'APB, mais comment récupérerions-nous et exploiterions-nous ces informations ? Notre programme BORGES a été développé pour identifier, récupérer et exploiter une structure tertiaire non spécifique à travers des bibliothèques de fragments (Sammito et al. , 2013 ). La base de données PDB contient une grande quantité d'informations et pour toute structure inconnue, étant donné des fragments suffisamment petits, tels que la chaîne principale de deux hélices ou de trois brins dans une disposition particulière, des modèles similaires à une précision avoisinant les 0,5 Å r.m.s.d. sont tenus de se produire dans certaines des entrées déposées. Par analogie avec l'infinie "Bibliothèque de Babel" de Borges qui contenait des livres avec toutes les combinaisons aléatoires de lettres et renfermait donc n'importe quel livre possible, les modèles partiels requis pour mettre en phase une structure par la recherche de fragments et la modification de la densité auraient déjà dû être décrits dans d'autres structures déposées. dans l'APB. Contrairement à la `bibliothèque Borges', la PDB n'est pas aléatoire, ne contenant dans toutes sortes de contextes structurels que des unités structurelles significatives. De plus, notre méthode de phasage nécessite de petites phrases plutôt que des volumes complets, c'est-à-dire qu'elle doit trouver et utiliser une petite fraction d'une chaîne principale parfaite et non une description complète de la structure. Ceci constitue une approche alternative aux méthodes très réussies combinant ab initio modélisation d'une structure presque complète à utiliser pour le remplacement moléculaire, telle que RosettaMR (DiMaio et al. , 2011 ), AMPLE (Bibby et al. , 2012 ) ou la mise en place du groupe Zhang (Shrestha et al. , 2011 ).

Exploiter des plis locaux non spécifiques dans un ab initio approche, plutôt que des fragments de structure secondaires, augmente considérablement les dimensions du problème de recherche. La précision requise est inférieure à 0,6 Å r.m.s.d. et en l'absence d'hypothèse sur le pli, quelques indications faibles peuvent être dérivées de la fonction de Patterson et de la prédiction de structure secondaire mais éventuellement des bibliothèques des plis locaux les plus fréquents doivent être essayées. La notation des bibliothèques réduites ou des hypothèses alternatives, telles que trois brins antiparallèles/parallèles/parallèles et antiparallèles du même nombre d'acides aminés est effectuée pour établir un ordre. Si aucune indication claire n'est fournie, le cas le plus fréquent (dans ce cas antiparallèle) est tenté en premier. Il est essentiel à la méthode de fournir des degrés de liberté internes aux modèles de bibliothèque, en les affinant par rapport aux données expérimentales à deux des étapes. La figure 6 affiche un schéma de la ARCIMBOLDO_BORGES méthode (http://chango.ibmb.csic.es/BORGES ). Pour accélérer l'extraction du modèle, une base de données est précalculée annotant les structures PDB à l'aide de vecteurs décrivant la géométrie de la chaîne principale et les caractéristiques structurelles utiles. Les modèles extraits de cette base de données pour correspondre à une description géométrique dans une tolérance donnée sont d'abord regroupés géométriquement, puis regroupés à nouveau grâce aux résultats d'une fonction de rotation. Dans le processus de phasage, les modèles reçoivent des degrés de liberté internes et sont affinés par rapport à la fonction de rotation, avant de passer à la recherche de translation, au filtrage d'emballage et au raffinement par groupe rigide. Encore une fois, le découpage du modèle pour optimiser le coefficient de corrélation est utilisé pour noter les hypothèses avant la modification de la densité et le traçage automatique. Le recyclage des étapes de rotation et de translation des fragments à partir d'un modèle affiné est poursuivi en parallèle, afin de corriger d'éventuelles solutions pseudo-traduites (Caliandro et al. , 2007 ). La méthode décrite réussit à résoudre la structure CMI décrite dans ڈ.2 , à partir d'une feuille β à trois brins antiparallèle comprenant la chaîne principale de 13 acides aminés. La solution à partir d'un seul brin parfait n'était pas possible. De même, même toutes les structures de test peuvent être résolues de cette manière. Le tableau 2 contient trois structures inconnues auparavant qui ont été résolues avec BORGES .


Figure 6
ARCIMBOLDO_BORGES la mise en oeuvre. Le schéma résume les étapes de la procédure. PHASER les opérations sont imprimées en bleu et ETAGERE ceux sur fond bleu. BORGES les opérations sont imprimées en rouge. A partir d'un gabarit de modèle, une bibliothèque de plis équivalents est créée et agrégée géométriquement. Pour chaque cluster, une recherche de rotation est calculée à 2 Å. Les modèles sont désassemblés et optimisés localement dans P 1 avec PHASER . Les pics sont regroupés géométriquement, dans une tolérance de 15°. L'emplacement des fragments et la modification de la densité et le traçage automatique sont poursuivis pour chaque modèle.

5. Mise en œuvre

L'approche multisolution sous-jacente à cette méthode nécessite un calcul massif, notamment dans les cas difficiles. Ne pas être en mesure d'identifier les solutions partielles correctes à un stade précoce impose la nécessité de transmettre tous les essais à l'étape suivante et d'essayer de les développer en une solution complète. Pour effectuer des calculs dans un laps de temps pratique, le processus est divisé en de nombreuses tâches indépendantes et réparties sur un pool d'ordinateurs ou un superordinateur. Notre première implémentation a simplement envoyé tous les calculs à une grille. Condor (Tannenbaum et al. , 2002 ). avant l'achèvement. Malheureusement, ce middleware sophistiqué et puissant nécessite une expertise informatique plus spécifique et un dévouement à son installation et à sa maintenance que ce qui peut généralement être alloué dans un laboratoire cristallographique. Ainsi, bien que Condor soit populaire dans d'autres communautés, son utilisation n'est pas répandue dans le domaine de la cristallographie macromoléculaire. Au cours de l'année dernière, le programme a été totalement réécrit car l'expérience de la première implémentation a permis la conception d'un algorithme amélioré. De plus, il a profité des récentes avancées en matière de PHASER (Oeffner et al. , 2013 Lire et al. , 2013 ), permettant une discrimination beaucoup plus poussée des solutions partielles potentiellement correctes. La nouvelle version a simplifié l'exigence de middleware et éliminé l'exigence initiale de Condor au profit d'un choix plus large de middleware, d'un accès automatique plus facile aux pools d'ordinateurs et enfin, même d'une version conçue pour s'exécuter sur une seule machine.

5.1. Mise en œuvre centralisée sur un poste de travail avec accès à un pool

La dépendance au middleware a constitué un frein à l'utilisation de notre méthode. Afin de le réduire, nous avons séparé l'utilisation embarquée de Condor en un mode de fonctionnement plus simple et flexible, comme illustré sur la Fig. 7 . L'implémentation complète, conçue pour fonctionner avec de grandes bibliothèques de modèles structurels extraits de l'ensemble de la PDB, repose sur une base de données dans laquelle le poste de travail charge ou récupère les informations de la bibliothèque. Tous les processus essentiels à une exécution se déroulent sur un seul poste de travail, où tous les fichiers pertinents seront visibles, de sorte que l'utilisateur conserve le contrôle tout au long du processus. Le programme dirige automatiquement les calculs lourds vers un pool local ou distant où l'accès a été configuré. Ainsi, l'accès à une grille ou à un supercalculateur n'a besoin d'être configuré qu'au moment de l'installation. Tout ce dont l'utilisateur a besoin est d'avoir obtenu un nom d'utilisateur et un mot de passe ou une clé d'accès. L'allocation d'espace et de ressources dans le pool de calcul sera exploitée telle que configurée par le gestionnaire du système ou peut être davantage gérée dans le ARCIMBOLDO l'installation pour tenir compte de plusieurs utilisateurs s'exécutant sous un seul compte sur un pool local ou distant. Actuellement, outre Condor, SGE/Opengrid (Gentzsch, 2001 ), Torque et MOAB sont pris en charge. De cette façon, le ARCIMBOLDO l'utilisateur n'a pas besoin d'être impliqué ou même de percevoir le calcul intensif. Les fichiers d'entrée, les fichiers de sortie, l'interprétation et les diagnostics sont tous visibles et mis à jour sur le poste de travail local. Une page HTML centralise l'affichage des résultats et des liens vers la meilleure carte et trace si la structure semble avoir été résolue. Le programme dépend de données appropriées aux formats mtz et hkl, ainsi que de versions particulières de PHASER (actuellement 2.5.6) et ETAGERE (dernier). Une vérification initiale de ces exigences peut bloquer une exécution si elle est perçue comme vouée à l'échec. Par exemple, ARCIMBOLDO ne fonctionnera pas si la résolution des données est inférieure à 2.5 Å.


Figure 7
ARCIMBOLDO–BORGES la mise en oeuvre. Le travail est contrôlé à partir d'un seul poste de travail, où la sortie et les résultats intermédiaires sont accessibles. Pour BORGES , il faut accéder à une bibliothèque locale ou distante, qui peut être partagée par plusieurs utilisateurs. L'accès aux ressources informatiques est configuré pour fournir un nom d'utilisateur et une clé d'accès au système à exploiter. Le programme décharge automatiquement les calculs lourds vers des pools de grille locaux ou externes ou vers un superordinateur.

5.2. Implémentation sur une seule machine : ARCIMBOLDO_LITE

Même la nécessité d'accéder à un parc d'ordinateurs et d'installer le middleware requis est perçue comme chronophage et peu conviviale par de nombreux cristallographes. L'analyse des cas réussis passés ainsi que des cas de test nous a permis de proposer une procédure minimale qui réduirait considérablement le calcul et par conséquent serait capable de fonctionner sur une seule machine multicœur. L'écoulement de ARCIMBOLDO_LITE s'affiche sur la figure 8 . Le fragment de recherche est généralement une hélice de modèle de longueur sélectionnée qui est fournie en interne, bien que tout autre modèle puisse être spécifié via un fichier PDB. Tous PHASER les calculs sont effectués en premier et un nombre limité de ETAGERE les expansions seront tentées sur le meilleur score, pas nécessairement sur des sous-structures situées plus grandes. La procédure est dimensionnée en fonction du nombre de cœurs physiques, donc une exécution sur une machine avec plus de cœurs ne fonctionnera pas simplement plus rapidement, mais tentera de développer des structures plus partielles en une solution. ARCIMBOLDO_LITE est distribué sous forme de binaire unique pour Linux ou MacOS et peut être téléchargé à partir de http://chango.ibmb.csic.es/ARCIMBOLDO . L'exécution nécessite un seul fichier d'instructions contenant un minimum d'entrées car des valeurs par défaut appropriées sont fournies pour la plupart des paramètres. L'utilisateur doit spécifier le chemin d'accès à la dernière PHASER et ETAGERE versions, le nom des fichiers de données de diffraction dans ETAGERE (Sheldrick, 2008) hkl et PCC 4 (Gagner et al. , 2011 ) mtz, la composition unitaire asymétrique de la structure cible ainsi que la longueur d'hélice et le nombre de copies à localiser.


Figure 8
ARCIMBOLDO_LITE couler. A partir du ou des fragments donnés, tous PHASER les opérations sont calculées en premier et seulement autant de solutions partielles de meilleure notation que de cœurs disponibles sont étendus par la modification de la densité et le traçage automatique.
5.2.1. Structures de test résolues avec ARCIMBOLDO_LITE

La structure de S100A4 en complexe avec le peptide myosine-IIA non musculaire (PDB ID 4eto ) a été utilisée pour exécuter des références pour ARCIMBOLDO_LITE sur diverses distributions et matériels Linux. Les P 2 1 structure pour laquelle les données à 1.54 Å sont disponibles contient 202 résidus dans l'unité asymétrique. La structure a été résolue en recherchant quatre hélices de 14 alanines chacune, prenant une à deux heures sur des machines avec des installations Debian, Ubuntu ou SUSE Linux, avec i7 ou quatre à huit cœurs Xeon, un minimum de 2 & 8197 Go de RAM par cœur. Une version MacOS fonctionnant sur la distribution Mavericks a également été testée avec des résultats équivalents.

Certains des cas précédemment signalés de ARCIMBOLDO solution de structure ont également été reproduits avec cette version autonome. Ils sont signalés dans le tableau 2 par un astérisque. Cela comprend notamment, 4e1p , 3gwh , 4k82 , 4m3l , 4bjs (Shi et al. , 2013 ), et deux structures encore inédites. De plus, deux structures jusque-là inconnues ont d'abord été mises en œuvre avec cette mise en œuvre.

Récemment, une structure jusque-là inconnue avec 130 résidus et des données de diffraction à 1,5 Å a été résolue en utilisant ARCIMBOLDO_LITE par le groupe dirigé par le professeur Carine Tisné à l'Université Descartes à Paris.

6. Perspectives

Ab initio le phasage exploitant de petits fragments pour renforcer la structure secondaire et tertiaire a permis de résoudre des cas comprenant plusieurs centaines d'acides aminés dans l'unité asymétrique, avec des résolutions allant jusqu'à 2,1 Å, qui sortaient du cadre des méthodes précédentes en termes de limites de résolution et la taille. Une vingtaine de structures jusque-là inconnues résolues par ARCIMBOLDO et BORGES dans ses divers modes est présenté dans le tableau 2 . L'incorporation de diverses sources de connaissances antérieures dans ce cadre permet un relâchement supplémentaire de certaines des limites. L'utilisation du raffinement dans les procédures décrites et l'octroi de degrés de liberté supplémentaires aux modèles augmente le rayon de convergence de la méthode. Considérer tous les résultats partiels conjointement, plutôt que comme des essais isolés, augmente l'efficacité et peut être exploité dans des implémentations plus économiques, appropriées pour une seule machine multicœur.

Notes de bas de page

‡Ces auteurs ont contribué à parts égales.

Remerciements

Ce travail a été soutenu par les subventions BFU2012-35367 et IDC-20101173 (ministère espagnol de l'Économie et de la Compétitivité) et de la Generalitat de Catalunya (2009SGR-1036). Nous remercions Randy Read, Airlie McCoy et George M. Sheldrick pour la discussion et les corrections utiles.

Les références

Berman, H. M., Westbrook, J., Feng, Z., Gilliland, G., Bhat, T. N., Weissig, H., Shindyalov, I. N. & 38 Bourne, P. E. (2000). Acides nucléiques Res. 28 , 235�. Web of Science CrossRef PubMed CAS Google Scholar
Bernstein, F. C., Koetzle, T. F., Williams, G. J. B., Meyer, E. F. Jr, Brice, M. D., Rodgers, J. R., Kennard, O., Shimanouchi, T. & Tasumi, M. (1977). J. Mol. Biol. 112 , 535�. CrossRef CAS PubMed Web of Science Google Scholar
Bibby, J., Keegan, R. M., Mayans, O., Winn, M. D. & Rigden, D. J. (2012). Acta Cristal.68 , 1622�. Web of Science CrossRef IUCr Journals Google Scholar
Bieniossek, C., Schuütz, P., Bumann, M., Limacher, A., Usón, I. & Baumann, U. (2006). J. Mol. Biol. 360 , 457�. CrossRef PubMed CAS Google Scholar
Bragg, W. H. & 38 Bragg, W. L. (1913). La nature , 91 , 557. CrossRef Google Scholar
Bunkóczi, G., Echols, N., McCoy, A.J., Oeffner, R.D., Adams, P.D.& Read, R.J. (2013). Acta Cristal.69 , 2276�. Web of Science CrossRef IUCr Journals Google Scholar
Superposés & 243czi, G. & 38 Read, R. J. (2011). Acta Cristal.67 , 303�. Web of Science CrossRef IUCr Journals Google Scholar
Burla, M. C., Carrozzini, B., Cascarano, G. L., Giacovazzo, C. & 38 Polidori, G. (2011). J. Appl. Cristal. 44 , 1143�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Burla, M. C., Carrozzini, B., Cascarano, G. L., Giacovazzo, C. & 38 Polidori, G. (2012). J. Appl. Cristal. 45 , 1287�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C., Mazzone, A. & Siliqi, D. (2008). J. Appl. Cristal. 41 , 548�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & Siliqi, D. (2005 une ). Acta Cristal.61 , 1080�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & Siliqi, D. (2005 b ). Acta Cristal.61 , 556�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Caliandro, R., Carrozzini, B., Cascarano, G. L., De Caro, L., Giacovazzo, C. & Siliqi, D. (2007). J. Appl. Cristal. 40 , 883�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Caliandro, R., Dibenedetto, D., Cascarano, G. L., Mazzone, A. & Nico, G. (2012). Acta Cristal.68 , 1󈝸. CrossRef IUCr Journaux Google Scholar
DiMaio, F., Terwilliger, TC, Read, RJ, Wlodawer, A., Oberdorfer, G., Wagner, U., Valkov, E., Alon, A., Fass, D., Axelrod, HL, Das, D ., Vorobiev, SM, Iwaï, H., Pokkuluri, PR & Baker, D. (2011). La nature , 473 , 540�. CrossRef CAS PubMed Google Scholar
Franke, B., Gasch, A., Rodriguez, D., Chami, M., Khan, MM, Rudolf, R., Bibby, J., Hanashima, A., Bogomolovas, J., von Castelmur, E., Rigden, DJ, Uson, I., Labeit, S. & 38 Mayans, O. (2014). Ouvrez Biol. 4 , 130172. Web of Science CrossRef PubMed Google Scholar
Frazao, C., Sieker, L., Sheldrick, G. M., Lamzin, V., LeGall, J. & 38 Carrondo, M. A. (1999). J. Biol. Inorg. Chem. 4 , 162�. Google Scholar PubMed CAS
Friedrich, W., Knipping, P. & 38 Laue, M. (1912). Sitzungsber. K. Bayer. Akad. Wiss. p. 303�. Google Scholar
Fujinaga, M. & 38 Read, R. J. (1987). J. Appl. Cristal. 20 , 517�. CrossRef Web of Science Revues IUCr Google Scholar
Gentzsch, W. (2001). Proc. Premier symposium international IEEE/ACM sur l'informatique en grappe et la grille, 2001 , p. 35󈞐. CrossRef Google Scholar
Gessler, K., Usón, I., Takaha, T., Krauss, N., Smith, S. M., Okada, S., Sheldrick, G. M. & Saenger, W. (1999). Proc. Natl Acad. Sci. Etats-Unis , 96 , 4246�. Web of Science CSD CrossRef PubMed CAS Google Scholar
Glykos, N. M. & 38 Kokkinidis, M. (2003). Acta Cristal.59 , 709�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Gruene, T. (2013). Acta Cristal.69 , 1861�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Hauptman, H. et Karle, J. (1953). Monographie ACA n° 3 . Ohio : Service de livres en polycristal. Google Scholar
Hendrickson, W.A. (1991). Science , 254 , 51󈞦. CrossRef PubMed CAS Web of Science Google Scholar
Hissa, D.C., Bezerra, G.A., Birner-Gruenberger, R., Silva, L.P., Usón, I., Gruber, K.& Melo, V.M.M. (2014). Chembiochem , 15 , 393�. Google Scholar PubMed
Hovm&#ller, S., Zhou, T. et Ohlson, T. (2002). Acta Cristal.58 , 768�. Web of Science CrossRef IUCr Journals Google Scholar
Karle, J. & 38 Hauptman, H. (1956). Acta Cristal. 9 , 635�. CrossRef CAS IUCr Revues Web of Science Google Scholar
Langs, D.A. (1989). Biopolymères , 28 , 259�. CrossRef CAS PubMed Web of Science Google Scholar
Laue, M. von (1912). Sitzungsber. K. Bayer. Akad. Wiss. p. 363�. Google Scholar
Loll, P.J., Bevivino, A.E., Korty, B.D. & 38 Axelsen, P.H. (1997). Confiture. Chem. Soc. 119 , 1516�. CSD CrossRef CAS Web of Science Google Scholar
McCoy, A.J., Grosse-Kunstleve, R.W., Adams, P.D., Winn, M.D., Storoni, L.C. & Read, R.J. (2007). J. Appl. Cristal. 40 , 658�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
McCoy, A. J., Grosse-Kunstleve, R. W., Storoni, L. C. & Read, R. J. (2005). Acta Cristal.61 , 458�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
McCoy, A.J., Nicholls, R.A. & 38 Schneider, T.R. (2013). Acta Cristal.69 , 2216�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Miller, R., DeTitta, G.T., Jones, R., Langs, D.A., Weeks, C.M. & 38 Hauptman, H.A. (1993). Science , 259 , 1430�. CSD CrossRef CAS PubMed Web of Science Google Scholar
Miller, R., Gallo, S. M., Khalak, H. G. & 38 Weeks, C. M. (1994). J. Appl. Cristal. 27 , 613�. CrossRef CAS Web of Science Revues IUCr Google Scholar
Nascimento, AFZ, Trindade, DM, Tonoli, CCC, de Giuseppe, PO, Assis, LHP, Honorato, RV, de Oliveira, PSL, Mahajan, P., Burgess-Brown, NA, von Delft, F., Larson, RE & Murakami, MTJ (2013). J. Biol. Chem. 288 , 34131�. CrossRef CAS PubMed Google Scholar
Nimz, O., Gessler, K., Usón, I., Sheldrick, G. M. & 38 Saenger, W. (2004). Glucides. Rés. 339 , 1427�. CrossRef PubMed CAS Google Scholar
Oeffner, R.D., Bunkocz, G., McCoy, A.J. & Read, R.J. (2013). Acta Cristal.69 , 2209�. CrossRef IUCr Journaux Google Scholar
Pröpper, K., Meindl, K., Sammito, M., Dittrich, B., Sheldrick, G. M., Pohl, E. & Usón, I. (2014). Acta Cristal.70 , 1743�. Web of Science CrossRef IUCr Journals Google Scholar
Ramachandran, G.N., Ramakrishnan, C. & 38 Sasisekharan, V. (1963). J. Mol. Biol. 7 , 95󈟏. CrossRef PubMed CAS Web of Science Google Scholar
Read, R.J., Adams, P.D. & 38 McCoy, A.J. (2013). Acta Cristal.69 , 176�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Robertson, M.P., Chi, Y.-I. & Scott, W. G. (2010). Méthodes , 52 , 168�. Web of Science CrossRef CAS PubMed Google Scholar
Robertson, M. P. & 38 Scott, W. G. (2008). Acta Cristal.64 , 738�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Rodríguez, D.D., Grosse, C., Himmel, S., Gonzíguez, C., de Ilarduya, I. M., Becker, S., Sheldrick, G. M. & Usón, I. (2009). Nat. méth. 6 , 651�. Google Scholar
Rodríguez, D., Sammito, M., Meindl, K., de Ilarduya, I. M., Potratz, M., Sheldrick, G. M. & Usón, I. (2012). Acta Cristal.68 , 336�. Web of Science CrossRef IUCr Journals Google Scholar
Rossmann, M.G. (1972). La méthode de remplacement moléculaire . New York : Gordon et Breach. Google Scholar
Sammito, M., Millón, C., Rodríguez, DD, de Ilarduya, IM, Meindl, K., De Marino, I., Petrillo, G., Buey, RM, de Pereda, JM, Zeth, K., Sheldrick, GM & Usón, I. (2013). Nat. méth. 10 , 1099�. CrossRef CAS Google Scholar
Sammito, M., Meindl, K., de Ilarduya, I. M., Mill&# 225n, C., Artola-Recolons, C., Hermoso J. A. & Usón, I. (2014). FEBS J , 281 , 4029�. Google Scholar
Safaee, N., Noronha, A. M., Rodionov, D., Kozlov, G., Wilds, C. J., Sheldrick, G. M. & Gehring, K. (2013). Angew. Chem. Int. Éd. 52 , 10370�. CrossRef CAS Google Scholar
Schö228fer, M., Schneider, T.R. & 38 Sheldrick, G.M. (1996). Structure , 4 , 1509�. CrossRef CAS PubMed Web of Science Google Scholar
Sheldrick, G.M. (2002). Z. Kristallogr. 217 , 644�. Web of Science CrossRef CAS Google Scholar
Sheldrick, G.M. (2008). Acta Cristal. UNE 64 , 112�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Sheldrick, G.M. (2010). Acta Cristal.66 , 479�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Sheldrick, G.M., Gilmore, C.J., Hauptman, H.A., Weeks, C.M., Miller, R. & Usón, I. (2011). Tables internationales pour la cristallographie , édité par E. Arnold, D. M. Himmel & 38 M. G. Rossmann, pp. 413 & 8211429. Chichester : Wiley. Google Scholar
Shi, T., Bunker, RD, Mattarocci, S., Ribeyre, C., Faty, M., Gut, H., Scrima, A., Rass, U., Rubin, SM, Shore, D. & Thomä, NH (2013). Cellule , 153 , 1340�. CrossRef CAS PubMed Google Scholar
Shrestha, R., Berenger, F. & 38 Zhang, K. Y. J. (2011). Acta Cristal.67 , 804�. Web of Science CrossRef IUCr Journals Google Scholar
Storoni, L. C., McCoy, A. J. & 38 Read, R. J. (2004). Acta Cristal.60 , 432�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Tannenbaum, T., Wright, D., Miller, K. & Livny, M. (2002). Informatique en grappe Beowulf avec Linux , édité par T. Sterling. La presse du MIT. Google Scholar
Thorn, A. & 38 Sheldrick, G. M. (2013). Acta Cristal.69 , 2251�. Web of Science CrossRef IUCr Journals Google Scholar
Usón, I., Patzer, S. I., Rodr&# 237guez, D. D., Braun, V. & Zeth, K. (2012). J. Struct. Biol. 178 , 45󈞡. Web of Science PubMed Google Scholar
Nous, I. & Sheldrick, G. M. (1999). Cour. Avis. Structurer. Biol. 9 , 643�. Web of Science CrossRef PubMed CAS Google Scholar
Usón, I., Sheldrick, G.M., Fortelle, E. de L., Bricogne, G., Marco, S.D., Priestle, J.P., Grütter, M.G.& Mittl, P.R.E. (1999). Structure , 7 , 55󈞫. Google Scholar PubMed
Winn, M.D. et al. (2011). Acta Cristal.67 , 235�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Xu, H., Hauptman, H. A., Weeks, C. M. & 38 Miller, R. (2000). Acta Cristal.56 , 238�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Yao, J. X., Dodson, E. J., Wilson, K. S. & 38 Woolfson, M. M. (2006). Acta Cristal.62 , 901�. Web of Science CrossRef CAS IUCr Journaux Google Scholar
Yao, J., Woolfson, M. M., Wilson, K. S. & 38 Dodson, E. J. (2005). Acta Cristal.61 , 1465�. Web of Science CrossRef CAS IUCr Journaux Google Scholar

Il s'agit d'un article en libre accès distribué sous les termes de la licence Creative Commons Attribution (CC-BY), qui permet une utilisation, une distribution et une reproduction sans restriction sur tout support, à condition que les auteurs originaux et la source soient cités.