Informations

Distribution multimodale des données d'expression génique

Distribution multimodale des données d'expression génique


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pourquoi certains gènes auraient-ils plus de deux modes de distribution d'expression ? Quels facteurs externes seraient à l'origine de cette anomalie ?

Je fais référence à la distribution de l'expression d'un gène dans différents échantillons de tissus. Par exemple, si l'on devait télécharger un tas de données de NCBI GEO, et localiser un gène et tracer le niveau d'expression par rapport à la fréquence de ce gène dans tous ces ensembles de données, certains gènes auraient plus de 2 modes (2 niveaux d'expression avec très haute fréquence). C'est le seul cas qui m'intéresse : plus de 2 modes - pas bimodal. Alors, qu'est-ce qui causerait plus de deux modes ?


Une situation triviale dans laquelle cela peut se produire est lorsque le tissu utilisé pour les études d'expression est hétérogène. Différentes cellules expriment différents niveaux du gène.

La bimodalité peut être observée lorsque le système peut effectivement occuper deux états stables ; c'est-à-dire qu'un gène peut avoir une expression élevée ou une expression faible. Lorsque vous échantillonnez la population, vous obtenez deux pics. La bistablity (deux états stables stables) est un phénomène courant dans les systèmes biologiques et les rétroactions positives présentent généralement un tel comportement. Dans les systèmes bistables, il existe également un état stable instable qui se situe "entre" les deux états stables (comme une montagne séparant deux vallées). Si le système est dans l'état instable, il peut tomber dans l'un ou l'autre des deux états stables. (Voir cet article pour un exemple). Ce concept peut être étendu aux systèmes multistables mais ils sont un peu plus complexes que les simples rétroactions. Cependant ils peuvent théoriquement exister (je ne connais pas encore d'exemple biologique).

La bimodalité/multimodalité peut également être observée en l'absence d'une bistabilité déterministe dans le système. Cela se produit à cause du bruit d'expression dû à la stochasticité et est observé en cas de rafales de transcription (Voir ici).


Gene2vec : représentation distribuée des gènes basée sur la co-expression

Les descriptions fonctionnelles existantes des gènes sont catégoriques, discrètes et principalement par le biais d'un processus manuel. Dans ce travail, nous explorons l'idée d'inclusion de gènes, représentation distribuée des gènes, dans l'esprit de l'inclusion de mots.

Résultats

D'une manière purement basée sur les données, nous avons formé une représentation vectorielle à 200 dimensions de tous les gènes humains, en utilisant des modèles de co-expression génique dans 984 ensembles de données des bases de données GEO. Ces vecteurs capturent la parenté fonctionnelle des gènes en termes de récupération des voies connues - le produit interne moyen (similitude) des gènes dans une voie est 1,52 fois supérieur à celui des gènes aléatoires. À l'aide de t-SNE, nous avons produit une carte de co-expression génique qui montre les concentrations locales de gènes spécifiques aux tissus. Nous avons également illustré l'utilité des vecteurs de gènes intégrés, chargés d'informations riches sur les modèles de co-expression génique, dans des tâches telles que la prédiction d'interaction gène-gène.

Conclusion

Nous avons proposé une méthode d'apprentissage automatique qui utilise la co-expression génique à l'échelle du transcriptome pour générer une représentation distribuée des gènes. Nous avons en outre démontré l'utilité de notre distribution en prédisant l'interaction gène-gène basée uniquement sur les noms de gènes. La représentation distribuée des gènes pourrait être utile pour davantage d'applications bioinformatiques.


Résumé

Nous proposons quatre modèles génératifs probabilistes pour modéliser simultanément les niveaux d'expression génique et les balises d'ontologie génique (GO). Contrairement aux approches précédentes pour l'utilisation des balises GO, le cadre de modélisation conjoint permet aux deux sources d'informations de se compléter et de se renforcer mutuellement. Nous adaptons nos modèles à trois ensembles de données chronologiques collectés pour étudier les processus biologiques, en particulier la croissance des vaisseaux sanguins (angiogenèse) et les cycles cellulaires mitotiques. Les modèles proposés aboutissent à un regroupement conjoint de gènes et d'annotations GO. Différents modèles regroupent les gènes en fonction des balises GO et de leur comportement tout au long du temps, au sein d'étapes biologiques ou même de points de temps individuels. Nous montrons comment de tels modèles peuvent être utilisés pour l'estimation de novo des limites de stade biologique. Nous évaluons également nos modèles sur la précision de la prédiction du stade biologique des échantillons conservés. Nos résultats suggèrent que les modèles fonctionnent généralement mieux lorsque les informations des balises GO sont incluses.


Contenu

Lorsque les deux modes sont inégaux, le plus grand mode est appelé mode majeur et l'autre mode mineur. La valeur la moins fréquente entre les modes est connue sous le nom d'antimode. La différence entre les modes majeur et mineur est connue sous le nom d'amplitude. Dans les séries temporelles, le mode majeur est appelé l'acrophase et l'antimode la batiphase. [ citation requise ]

Galtung a introduit un système de classification (AJUS) pour les distributions : [1]

  • A : distribution unimodale – pic au milieu
  • J : unimodale – pic à chaque extrémité
  • U : bimodal – pics aux deux extrémités
  • S : bimodale ou multimodale – pics multiples

Cette classification a depuis été légèrement modifiée :

Dans cette classification, les distributions bimodales sont classées en type S ou U.

Les distributions bimodales se produisent à la fois en mathématiques et en sciences naturelles.

Distributions de probabilité Modifier

Les distributions bimodales importantes incluent la distribution arcsinus et la distribution bêta. D'autres incluent la distribution U-quadratique.

Le rapport de deux distributions normales est également distribué de manière bimodale. Laisser

une et b sont constants et X et oui sont distribuées comme des variables normales avec une moyenne de 0 et un écart type de 1. R a une densité connue qui peut être exprimée comme une fonction hypergéométrique confluente. [2]

La distribution de la réciproque d'un t La variable aléatoire distribuée est bimodale lorsque les degrés de liberté sont plusieurs. De même, l'inverse d'une variable normalement distribuée est également distribuée de manière bimodale.

UNE t la statistique générée à partir d'un ensemble de données tiré d'une distribution de Cauchy est bimodale. [3]

Occurrences dans la nature Modifier

Des exemples de variables avec des distributions bimodales incluent le temps entre les éruptions de certains geysers, la couleur des galaxies, la taille des fourmis ouvrières, l'âge d'incidence du lymphome de Hodgkin, la vitesse d'inactivation du médicament isoniazide chez les adultes américains, la magnitude absolue des novae, et les modèles d'activité circadienne de ces animaux crépusculaires qui sont actifs à la fois au crépuscule du matin et du soir. Dans les sciences halieutiques, les distributions multimodales des longueurs reflètent les différentes classes d'âge et peuvent donc être utilisées pour les estimations de la distribution par âge et de la croissance de la population de poissons. [4] Les sédiments sont généralement distribués de manière bimodale. Lors de l'échantillonnage de galeries minières traversant soit la roche hôte soit les veines minéralisées, la distribution des variables géochimiques serait bimodale. Des distributions bimodales sont également observées dans l'analyse du trafic, où le trafic atteint son maximum pendant l'heure de pointe du matin, puis à nouveau pendant l'heure de pointe du soir. Ce phénomène est également observé dans la distribution quotidienne de l'eau, car la demande en eau, sous forme de douches, de cuisine et d'utilisation des toilettes, atteint généralement son maximum le matin et le soir.

Économétrie Modifier

Dans les modèles économétriques, les paramètres peuvent être distribués de manière bimodale. [5]

Mathématique Modifier

Les mélanges avec deux composants distincts n'ont pas besoin d'être bimodaux et les mélanges à deux composants de densités de composants unimodales peuvent avoir plus de deux modes. Il n'y a pas de lien immédiat entre le nombre de composants dans un mélange et le nombre de modes de la densité résultante.

Distributions particulières Modifier

Les distributions bimodales, malgré leur occurrence fréquente dans les jeux de données, n'ont que rarement été étudiées [ citation requise ] . Cela peut être dû aux difficultés d'estimation de leurs paramètres avec des méthodes fréquentistes ou bayésiennes. Parmi ceux qui ont été étudiés figurent

  • Distribution exponentielle bimodale. [6]
  • Distribution alpha-asymétrique-normale. [7]
  • Distribution normale asymétrique bimodale. [8]
  • Un mélange de distributions Conway-Maxwell-Poisson a été ajusté aux données de comptage bimodal. [9]

La bimodalité apparaît aussi naturellement dans la distribution des catastrophes à l'aube.

Biologie Modifier

En biologie, cinq facteurs sont connus pour contribuer aux distributions bimodales de la taille des populations [ citation requise ] :

  • la distribution initiale des tailles individuelles
  • la distribution des taux de croissance entre les individus
  • la taille et la dépendance temporelle du taux de croissance de chaque individu
  • taux de mortalité qui peuvent affecter chaque classe de taille différemment
  • la méthylation de l'ADN dans le génome humain et murin.

La distribution bimodale des tailles des ouvrières fourmis tisserandes résulte de l'existence de deux classes distinctes de ouvrières, à savoir les ouvrières principales et les ouvrières mineures. [dix]

La distribution des effets de remise en forme des mutations pour les génomes entiers [11] [12] et les gènes individuels [13] s'avère également fréquemment bimodale, la plupart des mutations étant soit neutres, soit mortelles, relativement peu ayant un effet intermédiaire.

Un mélange de deux distributions unimodales avec des moyennes différentes n'est pas nécessairement bimodale. La distribution combinée des tailles des hommes et des femmes est parfois utilisée comme exemple de distribution bimodale, mais en fait, la différence entre les tailles moyennes des hommes et des femmes est trop faible par rapport à leurs écarts types pour produire une bimodalité. [14]

Les distributions bimodales ont la propriété particulière que, contrairement aux distributions unimodales, la moyenne peut être un estimateur d'échantillon plus robuste que la médiane. [15] C'est clairement le cas lorsque la distribution est en forme de U comme la distribution arcsinus. Cela peut ne pas être vrai lorsque la distribution a une ou plusieurs longues queues.

Moments de mélanges Modifier

gje est une distribution de probabilité et p est le paramètre de mélange.

Les instants de F(X) sont [16]

et Sje et Kje sont l'asymétrie et l'aplatissement du je ème distribution.

Il n'est pas rare de rencontrer des situations où un enquêteur pense que les données proviennent d'un mélange de deux distributions normales. Pour cette raison, ce mélange a été étudié en détail. [17]

Un mélange de deux distributions normales a cinq paramètres à estimer : les deux moyennes, les deux variances et le paramètre de mélange. Un mélange de deux distributions normales avec des écarts types égaux n'est bimodal que si leurs moyennes diffèrent d'au moins deux fois l'écart type commun. [14] Les estimations des paramètres sont simplifiées si les variances peuvent être supposées égales (cas homoscédastique).

Si les moyennes des deux distributions normales sont égales, alors la distribution combinée est unimodale. Les conditions d'unimodalité de la distribution combinée ont été dérivées par Eisenberger. [18] Les conditions nécessaires et suffisantes pour qu'un mélange de distributions normales soit bimodale ont été identifiées par Ray et Lindsay. [19]

Un mélange de deux distributions normales de masse à peu près égales a un kurtosis négatif puisque les deux modes de chaque côté du centre de masse réduisent efficacement les queues de la distribution.

Un mélange de deux distributions normales avec une masse très inégale a un kurtosis positif puisque la plus petite distribution allonge la queue de la distribution normale plus dominante.

Les mélanges d'autres distributions nécessitent l'estimation de paramètres supplémentaires.

Tests d'unimodalité Modifier

p est le paramètre de mélange et

et où ??1 et ??2 sont les moyennes des deux distributions normales et ??1 et ??2 sont leurs écarts types.

Le facteur de séparation (S) est

Si les écarts sont égaux alors S = 1. La densité du mélange est unimodale si et seulement si

  • Une condition suffisante pour l'unimodalité est [21]
  • Si les deux distributions normales ont des écarts types égaux , une condition suffisante pour l'unimodalité est [21]

Les distributions bimodales sont un exemple couramment utilisé de la façon dont les statistiques récapitulatives telles que la moyenne, la médiane et l'écart type peuvent être trompeuses lorsqu'elles sont utilisées sur une distribution arbitraire. Par exemple, dans la distribution de la figure 1, la moyenne et la médiane seraient d'environ zéro, même si zéro n'est pas une valeur typique. L'écart type est également plus grand que l'écart de chaque distribution normale.

Bien que plusieurs aient été suggérées, il n'existe actuellement aucune statistique récapitulative généralement acceptée (ou ensemble de statistiques) pour quantifier les paramètres d'une distribution bimodale générale. Pour un mélange de deux distributions normales, les moyennes et les écarts types ainsi que le paramètre de mélange (le poids pour la combinaison) sont généralement utilisés - un total de cinq paramètres.

D d'Ashman Modifier

Une statistique qui peut être utile est le D d'Ashman : [22]

??1, ??2 sont les moyens et ??1 ??2 sont les écarts types.

Pour un mélange de deux distributions normales > 2 est requis pour une séparation nette des distributions.

A de van der Eijk Modifier

Cette mesure est une moyenne pondérée du degré de concordance de la distribution de fréquence. [23] UNE varie de -1 (bimodalité parfaite) à +1 (unimodalité parfaite). Il est défini comme

U est l'unimodalité de la distribution, S le nombre de catégories qui ont des fréquences non nulles et K le nombre total de catégories.

La valeur de U est 1 si la distribution a l'une des trois caractéristiques suivantes :

  • toutes les réponses sont dans une seule catégorie
  • les réponses sont uniformément réparties entre toutes les catégories
  • les réponses sont réparties uniformément entre deux ou plusieurs catégories contiguës, les autres catégories n'ayant aucune réponse

Avec des distributions autres que celles-ci, les données doivent être divisées en « couches ». Au sein d'une couche, les réponses sont soit égales soit nulles. Les catégories ne doivent pas nécessairement être contiguës. Une valeur pour UNE pour chaque couche (UNEje) est calculé et une moyenne pondérée de la distribution est déterminée. Les poids (wje) pour chaque couche sont le nombre de réponses dans cette couche. En symboles

Une distribution uniforme a UNE = 0 : lorsque toutes les réponses tombent dans une catégorie UNE = +1.

Un problème théorique avec cet indice est qu'il suppose que les intervalles sont également espacés. Cela peut limiter son applicabilité.

Séparation bimodale Modifier

Cet indice suppose que la distribution est un mélange de deux distributions normales avec des moyennes (??1 et ??2) et les écarts types (??1 et ??2): [24]

Coefficient de bimodalité Modifier

Coefficient de bimodalité de Sarle b est [25]

?? est l'asymétrie et ?? est l'aplatissement. L'aplatissement est ici défini comme le quatrième moment normalisé autour de la moyenne. La valeur de b est compris entre 0 et 1. [26] La logique derrière ce coefficient est qu'une distribution bimodale avec des queues légères aura un kurtosis très faible, un caractère asymétrique, ou les deux - qui augmentent tous ce coefficient.

La formule pour un échantillon fini est [27]

m est le nombre d'éléments dans l'échantillon, g est l'asymétrie de l'échantillon et k est l'excès d'aplatissement de l'échantillon.

La valeur de b pour la distribution uniforme est 5/9. C'est aussi sa valeur pour la distribution exponentielle. Des valeurs supérieures à 5/9 peuvent indiquer une distribution bimodale ou multimodale, bien que des valeurs correspondantes puissent également résulter de distributions unimodales fortement asymétriques. [28] La valeur maximale (1,0) n'est atteinte que par une distribution de Bernoulli avec seulement deux valeurs distinctes ou la somme de deux fonctions delta de Dirac différentes (une distribution bi-delta).

La distribution de cette statistique est inconnue. Il est lié à une statistique proposée plus tôt par Pearson - la différence entre le kurtosis et le carré de l'asymétrie (vide infra).

Amplitude de bimodalité Modifier

UNE1 est l'amplitude du plus petit pic et UNEun est l'amplitude de l'antimode.

UNEB est toujours < 1. Des valeurs plus élevées indiquent des pics plus distincts.

Rapport bimodal Modifier

C'est le rapport des pics gauche et droit. [24] Mathématiquement

UNEje et UNEr sont respectivement les amplitudes des pics gauche et droit.

Paramètre de bimodalité Modifier

Ce paramètre (B) est due à Wilcock. [29]

UNEje et UNEr sont respectivement les amplitudes des pics gauche et droit et Pje est le logarithme pris en base 2 de la proportion de la distribution dans le ième intervalle. La valeur maximale de la P est 1 mais la valeur de B peut être supérieur à cela.

Pour utiliser cet index, le journal des valeurs est pris. Les données sont ensuite divisées en intervalle de largeur dont la valeur est log 2. La largeur des pics est prise égale à quatre fois 1/4Φ centrée sur leurs valeurs maximales.

Indices de bimodalité Modifier

L'indice de bimodalité proposé par Wang et al suppose que la distribution est une somme de deux distributions normales avec des variances égales mais des moyennes différentes. [30] Il est défini comme suit :

??1, ??2 sont les moyens et ?? est l'écart type commun.

p est le paramètre de mélange.

Un indice de bimodalité différent a été proposé par Sturrock. [31]

Cet indice (B) est défini comme

Lorsque m = 2 et ?? est uniformément réparti, B est distribué de façon exponentielle. [32]

Cette statistique est une forme de périodogramme. Elle souffre des problèmes habituels d'estimation et de fuite spectrale communs à cette forme de statistique.

indice de Michele et Accatino

Un autre indice de bimodalité a été proposé par de Michele et Accatino. [33] Leur indice (B) est

?? est la moyenne arithmétique de l'échantillon et

mje est le nombre de points de données dans le je le bac, Xje est le centre de la je e bac et L est le nombre de bacs.

Les auteurs ont suggéré une valeur seuil de 0,1 pour B faire la distinction entre un bimodal (B > 0.1)et unimodale (B < 0.1). Aucune justification statistique n'a été offerte pour cette valeur.

Un autre indice (B) a été proposé par Sambrook Smith et al [34]

p1 et p2 sont la proportion contenue dans le mode primaire (celui de plus grande amplitude) et secondaire (celui de plus petite amplitude) et ??1 et ??2 sont les ??-tailles du mode primaire et secondaire. Les ??-taille est définie comme moins une fois le log de la taille des données prise à la base 2. Cette transformation est couramment utilisée dans l'étude des sédiments.

Les auteurs ont recommandé une valeur seuil de 1,5, B étant supérieur à 1,5 pour une distribution bimodale et inférieur à 1,5 pour une distribution unimodale. Aucune justification statistique de cette valeur n'a été donnée.

Indice de Chaudhuri et Agrawal

Un autre paramètre de bimodalité a été proposé par Chaudhuri et Agrawal.[35] Ce paramètre nécessite la connaissance des variances des deux sous-populations qui composent la distribution bimodale. Il est défini comme

mje est le nombre de points de données dans le je ème sous-population, ??je 2 est la variance du je ème sous-population, m est la taille totale de l'échantillon et ?? 2 est la variance de l'échantillon.

C'est une moyenne pondérée de la variance. Les auteurs suggèrent que ce paramètre peut être utilisé comme cible d'optimisation pour diviser un échantillon en deux sous-populations. Aucune justification statistique n'a été donnée à cette suggestion.

Un certain nombre de tests sont disponibles pour déterminer si un ensemble de données est distribué de manière bimodale (ou multimodale).

Méthodes graphiques Modifier

Dans l'étude des sédiments, la granulométrie est fréquemment bimodale. Empiriquement, il s'est avéré utile de tracer la fréquence en fonction du log (taille) des particules. [36] [37] Cela donne généralement une séparation claire des particules dans une distribution bimodale. Dans les applications géologiques, le logarithme est normalement ramené à la base 2. Les valeurs transformées en log sont appelées unités phi (Φ). Ce système est connu sous le nom d'échelle de Krumbein (ou phi).

Une autre méthode consiste à tracer le log de la taille des particules par rapport à la fréquence cumulée. Ce graphique consistera généralement en deux lignes raisonnablement droites avec une ligne de connexion correspondant à l'antimode.

Des valeurs approximatives pour plusieurs statistiques peuvent être dérivées des tracés graphiques. [36]

Moyenne est la moyenne, DevStd est l'écart type, Fausser est l'asymétrie, Kurt est l'aplatissement et ??X est la valeur de la variable ?? au X e pourcentage de la distribution.

Distribution unimodale vs. bimodale Modifier

Pearson en 1894 a été le premier à concevoir une procédure pour tester si une distribution pouvait être résolue en deux distributions normales. [38] Cette méthode nécessitait la résolution d'un polynôme de neuvième ordre. Dans un article ultérieur, Pearson a signalé que pour toute distribution, l'asymétrie 2 + 1 < kurtosis. [26] Plus tard, Pearson a montré que [39]

b2 est l'aplatissement et b1 est le carré de l'asymétrie. L'égalité n'est valable que pour la distribution de Bernoulli à deux points ou la somme de deux fonctions delta de Dirac différentes. Ce sont les cas les plus extrêmes de bimodalité possibles. L'aplatissement dans ces deux cas est de 1. Puisqu'ils sont tous les deux symétriques, leur asymétrie est de 0 et la différence est de 1.

Baker a proposé une transformation pour convertir une distribution bimodale en une distribution unimodale. [40]

Plusieurs tests d'unimodalité versus bimodalité ont été proposés : Haldane en a suggéré un basé sur les deuxièmes différences centrales. [41] Larkin a introduit plus tard un test basé sur le test F [42] Benett en a créé un basé sur le test G de Fisher. [43] Tokeshi a proposé un quatrième test. [44] [45] Un test basé sur un rapport de vraisemblance a été proposé par Holzmann et Vollmer. [20]

Une méthode basée sur le score et les tests de Wald a été proposée. [46] Cette méthode permet de distinguer les distributions unimodales et bimodales lorsque les distributions sous-jacentes sont connues.

Tests antimode Modifier

Des tests statistiques pour l'antimode sont connus. [47]

La méthode d'Otsu est couramment utilisée en infographie pour déterminer la séparation optimale entre deux distributions.

Tests généraux Modifier

Pour tester si une distribution est autre qu'unimodale, plusieurs tests complémentaires ont été imaginés : le test de bande passante, [48] le test de pendage, [49] le test de masse excessive, [50] le test MAP, [51] le test d'existence de mode , [52] le runt test, [53] [54] le span test, [55] et le test de selle.

Une implémentation du test dip est disponible pour le langage de programmation R. [56] Les valeurs p pour les valeurs de la statistique dip varient entre 0 et 1. Les valeurs p inférieures à 0,05 indiquent une multimodalité significative et les valeurs p supérieures à 0,05 mais inférieures à 0,10 suggèrent une multimodalité avec une signification marginale. [57]

Le test de Silverman Modifier

Silverman a introduit une méthode d'amorçage pour le nombre de modes. [48] ​​Le test utilise une bande passante fixe qui réduit la puissance du test et son interprétabilité. Les densités sous lissées peuvent avoir un nombre excessif de modes dont le nombre lors de l'amorçage est instable.

Test de Bajgier-Aggarwal Modifier

Bajgier et Aggarwal ont proposé un test basé sur le kurtosis de la distribution. [58]

Cas particuliers Modifier

Des tests supplémentaires sont disponibles pour un certain nombre de cas particuliers :

Mélange de deux distributions normales

Une étude d'une densité de mélange de données de deux distributions normales a révélé que la séparation entre les deux distributions normales était difficile à moins que les moyennes ne soient séparées par 4 à 6 écarts types. [59]

En astronomie, l'algorithme Kernel Mean Matching est utilisé pour décider si un ensemble de données appartient à une seule distribution normale ou à un mélange de deux distributions normales.

Cette distribution est bimodale pour certaines valeurs de ses paramètres. Un test de ces valeurs a été décrit. [60]

En supposant que la distribution soit connue pour être bimodale ou s'est avérée être bimodale par un ou plusieurs des tests ci-dessus, il est souvent souhaitable d'ajuster une courbe aux données. Cela peut être difficile.

Les méthodes bayésiennes peuvent être utiles dans les cas difficiles.

Logiciel Modifier

Un package pour R est disponible pour tester la bimodalité. [61] Ce package suppose que les données sont distribuées comme une somme de deux distributions normales. Si cette hypothèse n'est pas correcte, les résultats peuvent ne pas être fiables. Il comprend également des fonctions pour ajuster une somme de deux distributions normales aux données.

En supposant que la distribution est un mélange de deux distributions normales, l'algorithme de maximisation des attentes peut être utilisé pour déterminer les paramètres. Plusieurs programmes sont disponibles pour cela, notamment Cluster, [62] et le package R nor1mix. [63]

Le package mixtools disponible pour R peut tester et estimer les paramètres d'un certain nombre de distributions différentes. [64] Un package pour un mélange de deux distributions gamma à queue droite est disponible. [65]

Plusieurs autres packages pour R sont disponibles pour s'adapter aux modèles de mélange, notamment flexmix, [66] mcclust, [67] agrmt, [68] et mixdist. [69]

Le langage de programmation statistique SAS peut également s'adapter à une variété de distributions mixtes avec la procédure PROC FREQ.


ÉTAT DE LA CELLULE MOLÉCULAIRE

L'état moléculaire d'une cellule immunitaire peut être caractérisé par une combinaison de modalités du génome, de l'épigénome, du transcriptome et du protéome (Figure 1a). Une application courante de l'information multimodale consiste à isoler des cellules avec un certain état en utilisant une modalité, puis à examiner l'état cellulaire de ces cellules isolées dans une autre modalité. Ce processus est parfois répété plusieurs fois selon des modalités différentes. Par exemple, les marqueurs de protéines de surface ont été traditionnellement utilisés pour d'abord isoler ou trier les cellules par tri cellulaire activé par fluorescence, suivi d'une analyse utilisant l'expression génique, les récepteurs immunitaires, les régions d'accessibilité de la chromatine ou des combinaisons de ces modalités. L'un des principaux avantages de l'analyse unicellulaire est de disséquer l'hétérogénéité cellulaire et moléculaire dans un tissu ou un échantillon, et même d'identifier des sous-ensembles au sein du même type cellulaire. L'identification des états cellulaires à l'aide d'une analyse multimodale a été appliquée pour analyser les cellules immunitaires dans des échantillons sains et malades, d'infections pathogènes, auto-immunes et cancéreuses.

Identification de l'état cellulaire dans des échantillons sains

L'analyse multimodale à cellule unique peut être utilisée pour isoler des sous-ensembles de cellules et caractériser leurs signatures moléculaires à partir d'échantillons sains, qui peuvent ensuite être utilisées comme référence de base lors de la comparaison avec des cellules immunitaires provenant d'échantillons de maladies. Par exemple, une étude récente a exploré la composition des lymphocytes T dans les tissus lymphoïdes et non lymphoïdes d'humains et de souris sains. 8 En combinant l'expression de gènes unicellulaires avec des séquences de récepteurs de cellules T (TCR), cette étude a montré des signatures distinctives entre les sous-ensembles régulateurs et mémoriels dans les tissus lymphoïdes et non lymphoïdes, ainsi que des sous-ensembles similaires de cellules T régulatrices chez les humains et les souris. De manière inattendue, cette analyse intégrée a également révélé que les mêmes clones de cellules T (c'est-à-dire avec un TCR identique) pouvaient être identifiés dans des échantillons lymphoïdes et non lymphoïdes, suggérant ainsi une migration des cellules régulatrices entre les organes.

Les cellules individuelles peuvent être séparées à l'aide d'un tri cellulaire activé par fluorescence de haute pureté dans des puits, après quoi l'ARNm ou l'ADN est extrait pour des analyses à cellule unique. C'est le cas pour les approches basées sur des plaques telles que Smart-seq2 ou des protocoles similaires, comme précédemment examiné. 9 Cependant, ces méthodes sont laborieuses et ne s'appliquent qu'aux petits nombres de cellules. De nouvelles méthodes sont disponibles pour isoler des cellules individuelles à haut débit, par exemple, en utilisant des codes à barres cellulaires et des identifiants moléculaires uniques [par ex. technologie microfluidique (10x Chromium) ou nanoplaques (Rhapsody)]. 9 Ces méthodes nécessitent un démultiplexage de cellules individuelles qui est effectué de manière bioinformatique. Alors que ces approches ont d'abord été développées pour effectuer le séquençage d'ARN unicellulaire (scRNA-seq), plus récemment, elles ont également été développées pour effectuer des analyses multimodales. Par exemple, l'indexation cellulaire des transcriptomes et des épitopes par séquençage (CITE-Seq) 10 et AbSeq 11 sont deux technologies qui peuvent simultanément extraire l'expression intracellulaire (de surface) des protéines et des gènes dans la même cellule. Ces technologies ont été utilisées pour explorer des populations hétérogènes dans des échantillons sains et malades. 10-12 Par exemple, CITE-Seq 10 a été appliqué en combinaison avec du chrome 10x pour identifier les cellules mononucléées du sang ombilical et identifier avec succès les cellules tueuses naturelles sur la base des marqueurs de surface CD16 et CD56, après quoi l'analyse de l'expression génique a révélé des signatures différentiellement exprimées de tueur naturel sous-types entre les échantillons sains et malades, y compris les marqueurs cytotoxiques tels que GZMB, GZMK et PRF1.

Bien que des technologies telles que CITE-Seq et AbSeq permettent des mesures simultanées de la protéine de surface et de l'expression génique, l'extraction à la fois de la protéine intracellulaire et de l'expression génique dans la même cellule reste largement inexplorée. En effet, ces mesures nécessitent une perméabilisation de la membrane cellulaire qui peut entraîner la mort cellulaire, compromettant ainsi la possibilité d'utiliser les approches actuelles pour combiner la quantification de l'expression des protéines intracellulaires avec d'autres modalités, telles que scRNA-seq. Ce barrage routier a été récemment résolu par la coloration et le séquençage intracellulaires (INs-seq), 13 qui permettent la mesure à la fois de la protéine intracellulaire et de l'ARNm. INs-seq a été appliqué à plusieurs sous-ensembles immunitaires, y compris les cellules dendritiques, les cellules myéloïdes et les cellules T. Pour ces derniers, la quantification intracellulaire des facteurs de transcription FOXP3, TCF7 et ID2 en combinaison avec les données scRNA-seq a révélé des modules de gènes associés à ces facteurs de transcription, par exemple, les cellules TCF7+ avaient des modules de gènes associés à un phénotype naïf (CCR7, VENDRE et LEF1), alors que les cellules ID2 + ont révélé des gènes liés à la cytotoxicité (GNLY, GZMA/B, PRF1).

Identification de l'état cellulaire dans les maladies

L'identification des états cellulaires à l'aide d'une analyse multimodale peut conduire à la découverte de nouveaux corrélats de la maladie, des paramètres cliniques et des résultats. Par exemple, une étude a effectué une analyse protéomique et transcriptomique en utilisant CITE-Seq et scRNA-seq à partir de cellules mononucléées du sang périphérique d'individus sains vaccinés avec le vaccin contre la grippe ou la fièvre jaune. 14 Cette analyse a révélé une signature de base distinctive parmi les répondeurs faibles et élevés après la vaccination. Au sein de chaque type cellulaire identifié par les données de protéines CITE-Seq, l'expression génique a été utilisée pour identifier des différences significatives entre les répondeurs faibles et élevés au sein des amas de cellules dendritiques et de lymphocytes plasmacytoïdes, suggérant que les personnes qui répondent bien aux vaccins ont un statut d'activation distinct des cellules à de référence (c'est-à-dire avant la vaccination).

L'analyse multimodale unicellulaire a également été utilisée pour étudier simultanément l'expression génique et l'expansion clonale des cellules T et des cellules B. Par exemple, l'expression des gènes et le séquençage des récepteurs immunitaires de ces deux sous-ensembles ont été mesurés simultanément à partir de cellules mononucléées du sang périphérique de patients atteints de mélanome métastatique traités avec un blocage des points de contrôle immunologique anti-CTLA-4 et anti-PD-1. 15 En utilisant des techniques d'apprentissage automatique, les auteurs de cette étude ont montré qu'un sous-ensemble étendu par clonage de cellules CD8 + T périphériques était associé à une réponse au traitement à long terme. L'expression génique unicellulaire et le récepteur immunitaire ont également été appliqués pour découvrir de nouveaux états cellulaires dans le cancer tels que le carcinome hépatocellulaire, le cancer colorectal et le cancer du poumon, 16-18 ainsi que dans les cellules T infiltrant la tumeur dans le contexte de nouvelles thérapies de blocage des points d'immunocontrôle ( par exemple dans le mélanome). 19

Dans le cas des infections virales, l'analyse multimodale unicellulaire s'est avérée extrêmement utile dans l'identification des cellules T et des cellules B spécifiques du virus. Ces cellules se trouvent généralement en faible nombre dans le pool de cellules circulantes et résidentes, ce qui pose des défis pour leur identification et leur séparation pour les analyses moléculaires et phénotypiques. L'analyse unicellulaire a fourni un moyen de caractériser avec précision les populations de cellules rares. 20 Plusieurs équipes, dont la nôtre, ont appliqué des analyses multimodales à cellule unique pour séparer les cellules CD8 + T spécifiques au virus à l'aide de tétramères, puis ont utilisé le tri par index et scRNA-seq (Smart-seq2) pour identifier simultanément leur expression génique et leur TCR complet. chez les personnes infectées par le virus de l'hépatite C. 21, 22 Ces analyses ont ensuite été utilisées pour identifier les sous-ensembles actifs et au repos au sein de ces réponses virales spécifiques, ainsi que leur expansion clonale. Des applications similaires ont également été utilisées pour étudier l'infection chronique par le VIH, par exemple, pour démontrer l'existence de cellules CD8 + T spécifiques du VIH qui reconnaissent les épitopes dans le HLA-II au lieu de la classe I 23 et les cellules CD8 + T spécifiques de la grippe, 24 pour révéler l'évolution des signatures moléculaires des cellules CD8 + T spécifiques de la grippe à différents stades de l'infection.

L'importance de l'analyse multimodale unicellulaire a conduit à plusieurs études récentes sur la maladie à coronavirus 2019 (COVID-19). L'analyse unicellulaire du profil d'expression génique et du séquençage des récepteurs immunitaires a également été réalisée sur des fluides de lavage broncho-alvéolaire de patients atteints d'une maladie légère ou grave. 25 Cette analyse a révélé que les patients atteints d'une maladie COVID-19 bénigne étaient caractérisés par des cellules CD8 + T hautement développées de manière clonale, et que les macrophages pro-inflammatoires dérivés des monocytes étaient abondants dans le liquide de lavage bronchoalvéolaire des cas graves de COVID-19. L'utilisation de la protéomique, de l'expression des gènes et de l'information clonale a également été étudiée. 26 Ici, la protéine de surface utilisant CITE-Seq, en plus de scRNA-seq et des informations sur les récepteurs des cellules B et le TCR, a été utilisée pour étudier les cellules mononucléées du sang périphérique des patients COVID-19. Ces auteurs ont montré qu'un phénotype de pré-épuisement dans les cellules T activées par HLA-DR + CD38 + et une signature anti-inflammatoire dans les monocytes sont associés à une maladie progressive, alors qu'une analyse du TCR et des récepteurs des cellules B a révélé une distribution clonale asymétrique de CD8. + Réponse des lymphocytes T et B primaires.

Des analyses multimodales unicellulaires ont été récemment appliquées pour la première fois à des cellules B pathogènes rares sécrétant des auto-anticorps dans le contexte du syndrome de Sjögren. 27 Dans cette étude, les cellules B ont d'abord été triées en cellules mémoire CD19 + CD27 + IgD − provenant de patients atteints du syndrome de Sjögren, pour isoler les cellules clonalement apparentées responsables des auto-anticorps associés à la vascularite cryoglobulinémique. En utilisant le séquençage du génome monocellulaire et du transcriptome, 28 données d'expression génique complète de chaque cellule ont été analysées avec VDJPuzzle 22 pour reconstruire les chaînes lourdes et légères complètes des auto-anticorps sécrétant des cellules d'immunoglobuline B, démontrant ainsi l'expansion d'un seul " rogue » dominant le phénotype observé. L'ADN unicellulaire a ensuite été utilisé pour identifier les mutations somatiques inductrices de lymphome présentes uniquement dans le clone voyou de cellules B formatrices d'auto-anticorps. Cette étude a fourni la première preuve directe que les mutations somatiques entraînent une perte de tolérance et la pathogenèse de la maladie.

L'analyse multimodale unicellulaire a également été utile pour étudier le profil épigénétique des sous-ensembles de cellules T et leur expansion clonale dans le contexte de la leucémie. 29 En combinant le dosage de la chromatine accessible par transposase utilisant le séquençage avec le séquençage du TCR, cette étude a d'abord identifié les éléments régulateurs et les facteurs de transcription associés à chaque sous-ensemble canonique de cellules T chez des donneurs sains. Étonnamment, cette étude a révélé que les profils épigénétiques des sous-ensembles de cellules T canoniques forment un continuum d'états, suggérant une variabilité régulatrice significative au sein des sous-populations définies par des marqueurs de surface cellulaire. En appliquant cette approche aux cellules T dérivées de patients atteints de leucémie, les auteurs ont identifié l'état de clones anormaux, déterminant ainsi les mécanismes à l'origine de la maladie. Dans une étude distincte, 30 mutations des données scRNA-seq ont été utilisées pour identifier et isoler trois clones dans un échantillon de moelle osseuse d'un patient atteint de leucémie myéloïde aiguë. L'expression génique a ensuite été utilisée pour identifier les compositions de type cellulaire de ces clones, déterminant que ces clones appartenaient à des cellules de type progéniteur, monocytes et cellules dendritiques.


Aebersold, R., et Mann, M. (2016). Exploration par spectrométrie de masse de la structure et de la fonction du protéome. La nature 537, 347&# x02013355. doi: 10.1038/nature19949

Allis, C.D., et Jenuwein, T. (2016). Les caractéristiques moléculaires du contrôle épigénétique. Nat. le révérend Genet. 17, 487�. doi: 10.1038/nrg.2016.59

Angel, T.E., Aryal, Royaume-Uni, Hengel, S.M., Baker, E.S., Kelly, R.T., Robinson, E.W., et al. (2012). Protéomique basée sur la spectrométrie de masse : capacités existantes et orientations futures. Chem. Soc. Tour. 41, 3912�. doi: 10.1039/c2cs15331a

Chen, G., Ning, B. et Shi, T. (2019). Technologies RNA-Seq unicellulaires et analyse des données informatiques associées. Devant. Genet. 10:317. doi: 10.3389/fgene.2019.00317

Costa, V., Angelini, C., De Feis, I. et Ciccodicola, A. (2010). Découvrir la complexité des transcriptomes avec RNA-Seq. J. Biomed. Biotechnologie. 2010 : 853916. doi: 10.1155/2010/853916

Garalde, D.R., Snell, E.A., Jachimowicz, D., Sipos, B., Lloyd, J.H., Bruce, M., et al. (2018). Séquençage direct d'ARN hautement parallèle sur un réseau de nanopores. Nat. Méthodes 15, 201�. doi: 10.1038/nmeth.4577

Hasin, Y., Seldin, M. et Lusis, A. (2017). Approches multi-omiques de la maladie. Génome Biol. 18h83. doi: 10.1186/s13059-017-1215-1

Knight, R., Callewaert, C., Marotz, C., Hyde, E. R., Debelius, J.W., McDonald, D. et al. (2017). Le microbiome et la biologie humaine. Annu. Rév. Genomics Hum. Genet. 18, 65�. doi: 10.1146/annurev-genom-083115-022438

Li, Y., Xu, Q., Wu, D. et Chen, G. (2020). Exploration d'informations supplémentaires précieuses à partir de données RNA-Seq unicellulaires. Devant. Dév. Biol. 8 :593007. doi: 10.3389/fcell.2020.593007

Lynch, J.B. et Hsiao, E.Y. (2019). Les microbiomes comme sources de phénotypes d'hôtes émergents. Science 365, 1405�. doi: 10.1126/science.aay0240

Marchese, F. P., Raimondi, I. et Huarte, M. (2017). Les mécanismes multidimensionnels de la fonction des ARN longs non codants. Génome Biol. 18:206. doi: 10.1186/s13059-017-1348-2

Misra, B. B., Langefeld, C. D., Olivier, M. et Cox, L. A. (2018). Oomiques intégrés : outils, avancées et approches futures. J. Mol. Endocrinol. 62, R21&# x02013R45. doi: 10.1530/JME-18-0055

Stark, R., Grzelak, M. et Hadfield, J. (2019). Séquençage d'ARN : l'adolescence. Nat. le révérend Genet. 20, 631�. doi: 10.1038/s41576-019-0150-2

Weinhold, B. (2006). L'épigénétique : la science du changement. Environ. Point de vue sur la santé. 114, A160�. doi: 10.1289/ehp.114-a160

Xiao, M.S., Ai, Y. et Wilusz, J.E. (2020). La biogenèse et les fonctions des ARN circulaires sont mises au point. Tendances Cell Biol. 30, 226�. doi: 10.1016/j.tcb.2019.12.004

Mots clés : multi-omiques, analyse intégrative, omiques monocellulaires, analyse multi-omiques, séquençage de nouvelle génération

Citation : Chen G (2021) Editorial : Analyse multimodale et intégrative de données de séquençage monocellulaire ou en vrac. Devant. Genet. 12:658185. doi: 10.3389/fgene.2021.658185

Reçu : 25 janvier 2021 Accepté : 08 février 2021
Publication : 26 février 2021.

Edité et révisé par : Richard D. Emes, Université de Nottingham, Royaume-Uni

Copyright © 2021 Chen. Il s'agit d'un article en libre accès distribué sous les termes de la Creative Commons Attribution License (CC BY). L'utilisation, la distribution ou la reproduction dans d'autres forums est autorisée, à condition que le ou les auteurs originaux et le ou les titulaires des droits d'auteur soient crédités et que la publication originale dans cette revue soit citée, conformément à la pratique académique acceptée. Aucune utilisation, distribution ou reproduction non conforme à ces conditions n'est autorisée.


Éditorial : Analyse multimodale et intégrative des données de séquençage monocellulaire ou en vrac

1 Center for Bioinformatics and Computational Biology, Shanghai Key Laboratory of Regulatory Biology, Institute of Biomedical Sciences, School of Life Sciences, East China Normal University, Shanghai, Chine

2 Genecast Biotechnology Co., Ltd., Wuxi, Chine

Les systèmes biologiques impliquent souvent des interactions complexes entre les molécules de différentes couches omiques, notamment le génome, le méthylome, le transcriptome, le protéome, le métabolome et même le microbiome. Au niveau du génome, divers types de variantes (p. Pour l'épigénome, il comprend une variété de modifications épigénétiques, telles que des modifications covalentes sur l'ADN et les histones, l'accessibilité et la compaction de la chromatine, ainsi que la conformation d'ordre supérieur des domaines chromosomiques, qui forment un réseau régulateur complexe qui peut influencer la structure de la chromatine et l'expression des gènes (Weinhold, 2006 Allis et Jenuwein, 2016). L'exploration du transcriptome a été grandement révolutionnée par les technologies RNA-seq, qui ont progressivement remplacé les puces à ADN traditionnelles et ont fourni des informations sans précédent sur la dynamique et la complexité de l'expression des gènes (Costa et al., 2010 Stark et al., 2019). Plus précisément, de nombreux ARN longs non codants (lncRNAs) et ARN circulaires (circRNAs) se sont avérés avoir des fonctions régulatrices critiques dans divers processus biologiques (Marchese et al., 2017 Xiao et al., 2020). Les protéines codées par les ARNm sont généralement organisées en structures et réseaux d'ordre supérieur pour exécuter des fonctions catalytiques, synthétiques et régulatrices à des moments et des emplacements spécifiques (Aebersold et Mann, 2016). Les méthodes basées sur la spectrométrie de masse (MS) [telles que la chromatographie liquide-MS/MS (LC-MS/MS)] ont grandement révolutionné le profilage du protéome et ont largement facilité la dissection de processus biologiques et de phénotypes complexes (Angel et al., 2012). De plus, le métabolome peut théoriquement lier le génome, le transcriptome et le protéome au phénotype (Misra et al., 2018). Les niveaux et les rapports relatifs des métabolites pourraient généralement refléter les fonctions métaboliques, ainsi des perturbations anormales qui au-delà de la plage normale peuvent indiquer certaines maladies (Hasin et al., 2017). De plus, les microbiomes peuvent également contribuer de manière significative à la biologie et aux divers phénotypes de leurs organismes partenaires, ce qui peut révéler les interactions entre le génome et l'environnement de l'organisme hôte (Knight et al., 2017 Lynch et Hsiao, 2019). Par conséquent, l'analyse multi-omique peut favoriser le développement de la biologie des systèmes, ce qui est essentiel pour étudier de manière approfondie les changements dynamiques et les interactions des molécules cellulaires ainsi que pour comprendre les mécanismes sous-jacents (Figure 1).

Une vue schématique simple des recherches en biologie des systèmes basées sur des données multi-omiques.

Dans ce thème de recherche, plusieurs équipes de recherche ont mené des analyses intégratives pour explorer les mécanismes moléculaires ou identifier des biomarqueurs potentiels pour certaines maladies/troubles. Chen et al. ont systématiquement étudié les profils d'expression du spectre du placenta accreta (PAS) aux niveaux transcriptomique et protéomique, ce qui a fourni de nouvelles informations sur le mécanisme moléculaire sous-jacent du PAS. Grâce à une analyse conjointe des réseaux d'interaction entre les miARN, les ARNm et les lncRNA, Wang et al. identifié de nouveaux marqueurs pronostiques potentiels pour les patientes atteintes d'un cancer du sein luminal. Soleil et al. ont révélé que l'ARNnc-HEIPP lié à la voie HIF-1α (expression élevée dans la prééclampsie placentaire) pourrait jouer un rôle important dans la pathogenèse de la prééclampsie basée sur l'exploration multi-omique. Wang et al. ont effectué une analyse intégrative des mécanismes sous-jacents de la perte auditive induite par le bruit (NIHL) et ont suggéré que les voies inflammatoires sont étroitement associées aux modifications des organes auditifs de la NIHL. Zhang et al. ont découvert que les G-quadruplexes pourraient être des cibles potentielles pour la découverte de médicaments contre le coronavirus 2 du syndrome respiratoire aigu sévère (SRAS-CoV-2) en analysant systématiquement les structures secondaires non canoniques des G-quadruplexes dans les brins de sens positif et négatif du SRAS -CoV-2. Wang et al. a révélé que le profil d'expression de l'IGFBP7 pourrait être un biomarqueur potentiel du système vasculaire en réponse à une lésion cérébrale traumatique et que la signalisation du TGFβ pourrait être étroitement corrélée à la régulation à la hausse de l'IGFBP7. Yuan et al. ont systématiquement exploré les modèles d'expression du trouble dépressif majeur (TDM) et découvert que la signalisation de l'éphrine et la transduction du signal de la protéine Ras pourraient être associées à la pathogenèse du TDM. Wang et al. identifié des biomarqueurs diagnostiques et pronostiques potentiels pour le cancer colorectal sur la base d'une analyse intégrative des ensembles de données provenant de différentes bases de données publiques. De plus, Xiong et al. a développé une approche informatique intégrative d'ASDmiR pour identifier les gènes, les réseaux et les modules pathogènes potentiels en corrélation avec les troubles du spectre autistique. Dans l'ensemble, ces études ont effectué des analyses conjointes sur les données de couches omiques distinctes, ce qui a permis d'acquérir de nouvelles connaissances sur différentes maladies.


Résultats

Prédire les distributions d'ARNm cytoplasmique à partir de l'activité transcriptionnelle.

Pour prédire comment l'activité transcriptionnelle des noyaux individuels dicte la formation de motifs cytoplasmiques d'ARNm, nous avons commencé avec un modèle simple qui considère l'équilibre entre le taux de synthèse et de dégradation de l'ARNm d ARNm dt ( x , t ) = pactive ( x ) ︸ fraction de noyaux actifs R ( x , t ) ︸ synthèse − γ ARNm ( x , t ) ︸ dégradation , [1] où l'ARNm ( x , t ) indique la concentration d'ARNm à la position x le long de l'embryon au temps t, R ( x , t ) correspond au taux de synthèse d'ARNm moyenné sur plusieurs noyaux dans la même position x, pactive ( x ) est la fraction de noyaux actifs (correspondant à la stratégie de régulation illustrée à la Fig. 1), et est le taux de dégradation (voir Annexe SI, section A pour les détails de cette dérivation).

Examiner les conséquences quantitatives des 3 stratégies réglementaires potentielles (Fig. 1 B), nous avons adopté des hypothèses répandues dans la modélisation de la régulation transcriptionnelle. Premièrement, nous avons supposé que le taux de dégradation est une constante et n'est soumis à aucun type de contrôle spatio-temporel. Les comparaisons entre les prédictions du modèle et les niveaux mesurés empiriquement d'ARNm cytoplasmique suggèrent que cette hypothèse est raisonnable (Annexe SI, partie B). Deuxièmement, nous avons postulé qu'à chaque position de l'embryon, le taux de synthèse R ( x , t ) ne varie pas de manière significative dans le temps, de sorte qu'il peut être approximé par sa moyenne temporelle R ( x ) = R ( x , t ) ⟩ . Cette hypothèse est révisée plus loin dans le texte pour tenir compte de la régulation temporelle du taux moyen de transcription. Enfin, nous avons supposé que les noyaux le long de l'axe de l'embryon commencent à se transcrire au temps t on (x) et arrêtent de transcrire et entrent dans un état de quiescence transcriptionnelle au temps t o ff (x) . Sous ces hypothèses, l'équation. 1 peut être résolu analytiquement, ce qui donne un ARNm ( x , t ) = R ( x ) γ ︸ taux de transcription moyen × e − γ ( t − min < toff ( x ) , t >) − e − γ ( t − ton ( x ) ) ︸ fenêtre temporelle transcriptionnelle × pactive ( x ) ︸ fraction active . [2] Éq. 2 fait des prédictions précises sur la façon dont chaque stratégie de régulation contribue à la formation du modèle d'ARNm cytoplasmique. Ainsi, mesurer comment chaque quantité est régulée à travers la bande nous permet de prédire leurs contributions relatives à la formation de motifs.

Le contrôle binaire de la fenêtre temporelle de transcription est le principal moteur de la formation de bandes.

Pour tester le modèle simple de formation de motifs proposé dans l'équation. 2, nous avons quantifié la transcription de la bande 2 de veille dans la mouche des fruits. Nous avons imagé la transcription d'un veille rapporteur de bande 2, en utilisant le système MS2 (18, 27, 28). Transcriptions d'un gène rapporteur piloté par le veille l'amplificateur de bande 2 et le veille promoteur contiennent des répétitions d'une séquence d'ADN qui, une fois transcrites, forment des tiges-boucles (29). Ces boucles de tige sont reconnues par la protéine d'enveloppe MS2 fournie par la mère fusionnée à la GFP (Fig. 2UNE). En conséquence, les sites de formation de transcrits naissants apparaissent sous forme de points fluorescents dans les noyaux individuels (Fig. 2B et Film S1). Comme décrit dans Annexe SI, Fig. S2, l'intensité de ces points lumineux fluorescents est proportionnelle au nombre de molécules RNAP transcrivant activement le gène. Ces valeurs de fluorescence résultantes pourraient ensuite être calibrées à l'aide de FISH à molécule unique pour estimer le nombre de molécules RNAP transcrivant activement le gène (Matériaux et méthodes et réf. 27). En alignant plusieurs embryons (Annexe SI, Fig. S1), nous avons obtenu le nombre moyen de molécules d'ARN à transcription active en fonction du temps et de la position dans l'embryon (Fig. 2C).

Mesurer la dynamique transcriptionnelle de veille formation de la bande 2 à l'aide du système MS2. (UNE) Les tiges-boucles MS2 introduites dans un veille le gène rapporteur de la bande 2 sont liés par la protéine d'enveloppe MS2 fusionnée à la GFP. (B) Les sites de formation de transcrits naissants apparaissent sous la forme de puncta fluorescents verts dont l'intensité rend compte du nombre de molécules d'ARN qui transcrivent activement. Les noyaux sont visualisés par une fusion de RFP à Histone. (C) Nombre moyen de molécules RNAP transcrivant activement le gène en fonction de l'espace et du temps (données en moyenne sur 11 embryons).

En utilisant le système MS2, nous avons quantifié chaque stratégie de régulation potentielle et déterminé sa contribution prévue à la formation de motifs selon notre modèle dans l'équation. 2. Nous avons d'abord utilisé les intensités de fluorescence moyennes de nos traces MS2 pour estimer le taux moyen dans le temps de chargement RNAP, R ( x ) comme décrit dans Annexe SI, section B. Nous avons constaté que ce taux est modulé le long de l'axe de l'embryon (Fig. 3 UNE et B Film S2 Annexe SI, fig. S3 et Matériaux et méthodes) : Alors qu'au centre de la bande, les molécules d'ARNP sont chargées à un taux d'environ 16 molécules par minute, ce taux de chargement diminue à environ 8 molécules par minute aux limites.

Stratégies réglementaires pour la formation de modèles dans veille bande 2. (UNEF) Taux moyen dans le temps de production d'ARNm (UNE et B), fenêtre de temps de transcription (C et ), et fraction de noyaux actifs en fonction de la position le long de l'embryon (E et F). (g) Amplitude de la distribution de l'ARNm cytoplasmique par rapport aux contributions à la formation de bandes du contrôle analogique du taux de transcription moyen, du contrôle binaire de la fenêtre temporelle de transcription et du contrôle de la fraction de noyaux actifs. La contribution combinée des stratégies analogique et binaire est également indiquée. Voir Annexe SI, Fig. S5 pour plus de détails sur la façon dont les profils représentés ont été dérivés des données brutes. UNE, C, et E montrer des instantanés représentatifs d'un embryon individuel 40 min dans le cycle nucléaire 14 B, , et F montrent une moyenne sur 11 embryons et les barres d'erreur indiquent une estimation bootstrap du SEM.

Nous avons ensuite utilisé nos données MS2 pour examiner les tendances spatiales dans la fenêtre temporelle de transcription. Nos données ont révélé que la fenêtre temporelle de transcription est modulée le long de la bande (Annexe SI, illustration S4UNE). Alors que le moment auquel chaque noyau devient transcriptionnellement actif, t on ( x ) , était constant sur toute la bande, tous les noyaux devenant actifs 8 ± 4 min après l'anaphase précédente (Annexe SI, illustration S4B), le moment auquel les noyaux cessent de transcrire et deviennent quiescents, t o ff ( x ) , a montré une forte modulation le long de l'axe de l'embryon (Annexe SI, illustration S4C). En conséquence, la fenêtre temporelle sur laquelle chaque locus transcriptionnel est engagé dans la transcription, t = t o ff − t o n , est fortement modulée le long de la bande (Fig. 3 C et et Movie S3), avec des noyaux au centre de la bande transcrivant pendant >30 min et des noyaux sur les frontières transcrivant uniquement pendant ∼10 min. Nous notons que, pour dériver ces résultats, il était nécessaire de tenir compte des effets potentiels de la limite de détection dans nos expériences de molécules ∼4 RNAP par locus sur les estimations du moment de l'apparition et de la disparition des points fluorescents. Cette procédure est décrite en détail dans Annexe SI, section C, ainsi que dans Annexe SI, Figues. S12 et S13.

Enfin, notre analyse a également révélé l'amplitude de la modulation de la fraction de noyaux actifs le long de la bande. La plupart des noyaux le long de la bande étaient engagés dans la transcription. Au centre de la bande, près de 100 % des noyaux se sont transcrits à un moment donné du cycle des noyaux. Ce nombre est réduit à environ 80 % aux limites (Fig. 3 E et F et Film S4).

L'analyse de la figure 3 UNEF révèle que chacune des 3 stratégies de régulation identifiées dans la figure 1 est en jeu dans l'embryon et qu'elles ont toutes le potentiel de contribuer à la formation de motifs. Cependant, ces mesures seules ne peuvent pas nous renseigner sur la contribution de chacune de ces stratégies au modèle d'ARNm cytoplasmique. Quantifier dans quelle mesure chaque stratégie réglementaire contribue à la formation de veille bande 2, nous avons utilisé le modèle décrit dans l'Eq. 2.

3g indique la contribution quantitative de chaque stratégie de régulation (chaque terme à droite de l'Eq. 2) à la formation de ce motif cytoplasmique. Le motif cytoplasmique de l'ARNm accumulé, correspondant au côté gauche de l'Eq. 2, a été obtenu en intégrant à partir de nos données d'imagerie en direct (voir Annexe SI, section B pour plus de détails). Régulation de la fraction de noyaux actifs le long de l'embryon (Fig. 3g, jaune) contribue de manière négligeable à ce modèle d'ARNm. En revanche, tant la régulation analogique du débit moyen (Fig. 3g, vert) et le contrôle binaire de la fenêtre temporelle transcriptionnelle (Fig. 3g, bleu) contribuent de manière significative au modèle global, le contrôle binaire jouant le rôle dominant. Nous avons donc conclu que l'effet conjoint de ces 2 stratégies (Fig. 3g, marron) est suffisant pour récapituler quantitativement la bande d'ARNm cytoplasmique de l'activité transcriptionnelle unicellulaire.

Le taux de transcription moyen est dicté par l'éclatement par modulation du taux d'activation du promoteur.

Les stratégies de contrôle binaires et analogiques sont-elles conduites par des mécanismes moléculaires distincts, ou sont-elles des manifestations différentes du même processus sous-jacent ? Pour découvrir le mécanisme moléculaire derrière le contrôle analogique du taux moyen de transcription, nous avons analysé l'activité transcriptionnelle de noyaux individuels. Des travaux antérieurs ont démontré que le taux d'expression génique au niveau de loci individuels au sein du veille le motif de la bande 2 est hautement stochastique (18). En effet, comme le montre la figure 4UNE, nos données ont révélé des pics et des creux ponctués du nombre de molécules RNAP actives. Ces caractéristiques ont été liées au taux d'initiation du RNAP au veille promoteur en supposant que l'activité transcriptionnelle est « de type rafale », le promoteur chargeant rapidement plusieurs molécules d'ARNP sur le gène à un taux constant pendant des « rafales » discrètes d'activité entrecoupées de périodes d'inactivité (18). Ceci et d'autres preuves de l'imagerie en direct (18, 25, 30), ainsi que des données d'approches à tissus fixes (26, 31 -33), soutiennent un modèle minimal à 2 états de commutation de promoteur (Fig. 4B) : Les promoteurs basculent stochastiquement entre les états ON et OFF avec des taux k on et k off . Dans ce modèle, les promoteurs à l'état ON s'engagent dans le chargement de RNAP (et, par conséquent, la production d'ARNm) au taux r. Ainsi, nous trouvons que, pour décrire veille bande 2 dynamique transcriptionnelle, nous devons tenir compte à la fois des périodes ON courtes et transitoires dictées par les sursauts transcriptionnels et d'une fenêtre de temps transcriptionnelle plus longue qui décrit la période pendant laquelle les loci s'engagent dans ce sursaut transcriptionnel.

L'éclatement transcriptionnel veille bande 2. (UNE) Les mesures sur un seul noyau révèlent que les noyaux se transcrivent en rafales. (B) Modèle à deux états d'éclatement d'un seul promoteur. (C) Le même taux caché de chargement RNAP (Bas) peut correspondre à différents nombres observables de molécules RNAP sur le gène (Sommet), de sorte que les approches standard du modèle de Markov caché ne peuvent pas être utilisées pour déduire l'état du promoteur caché. () Les points lacrymaux fluorescents sont composés de 2 loci de transcription distincts au sein d'une tache limitée par la diffraction, chacun correspondant à une chromatide sœur. (E) Modèle à trois états de commutation de promoteur dans un punctum fluorescent qui représente l'action combinée des deux chromatides sœurs. (F) Modèle efficace à 2 états d'éclatement transcriptionnel. (Dans UNE, les barres d'erreur sont obtenues à partir de l'estimation des fluctuations fluorescentes de fond Matériaux et méthodes et réf. 27.)

Dans le modèle de bursting, le taux moyen de transcription est donné par le produit de la fraction de temps passé dans l'état ON avec le taux de transcription dans cet état actif (34 ⇓ ⇓ –37) R ( x ) ︸ taux moyen de transcription = r ( x ) ︸ taux de chargement RNAP × kon ( x ) kon ( x ) + ko ff ( x ) ︸ fraction de temps à l'état ON , [3] où tous les paramètres peuvent varier en fonction de la position le long de l'embryon, x (voir Annexe SI, section A pour les détails de cette dérivation). Ainsi, dans ce cadre, la modulation observée du taux moyen de transcription à travers la bande (Fig. 3g, vert) implique qu'un ou plusieurs de ces paramètres d'éclatement sont soumis à une régulation spatialement contrôlée. Cependant, la tendance du taux moyen à elle seule n'est pas suffisante pour identifier lequel des 3 paramètres d'éclatement (k o n , k o ff et r) est régulé par les facteurs de transcription d'entrée pour contrôler le taux de transcription moyen. Bien que chaque paramètre d'éclatement ne corresponde pas nécessairement directement à une seule étape moléculaire du cycle de transcription, l'identification du ou des paramètres soumis à une régulation peut aider à réduire l'ensemble des mécanismes moléculaires possibles. Par exemple, une variation de r pourrait indiquer que les facteurs de transcription jouent un rôle actif dans le recrutement de RNAP vers le promoteur ou dans la libération de RNAP à partir d'une pause promoteur-proximal (38).

En règle générale, le mécanisme moléculaire in vivo de l'action du facteur de transcription est déduit des mesures du bruit transcriptionnel obtenues à partir d'instantanés d'embryons ou de cellules morts et fixés à l'aide de modèles théoriques (26, 31 ⇓ –33, 39 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ –47) . En revanche, l'imagerie en direct basée sur MS2 peut informer directement sur la dynamique de l'éclatement transcriptionnel en temps réel. L'approche MS2, cependant, rend compte du nombre total de molécules RNAP activement transcrivant et non sur le taux instantané de chargement RNAP au niveau du promoteur, qui est la quantité pertinente pour estimer k o n , k o ff et r. À ce jour, les approches pour extraire les paramètres d'éclatement de ces données dans les organismes multicellulaires se sont principalement appuyées sur l'analyse manuelle de la dynamique transcriptionnelle à noyau unique (18, 25) ou sur des méthodes basées sur l'autocorrélation qui déduisent des paramètres d'éclatement moyens à travers des ensembles de traces (30, 48 , 49). Une méthode de calcul pour déduire les taux de chargement RNAP (Fig. 4 C, Bas) à partir du nombre total de molécules d'ARN à transcription active dans des cellules individuelles (Fig. 4 C, Sommet) est donc nécessaire pour obtenir les paramètres d'éclatement.

Les modèles de Markov cachés (HMM) sont largement utilisés pour découvrir la dynamique d'un système lors de sa transition à travers des états qui ne sont pas directement accessibles à l'observateur (50). Cependant, notre observable (le signal MS2) ne correspond pas à la variable cachée d'intérêt (l'état du promoteur) d'une manière un-à-un (comparer Fig. 4 C, Sommet et Bas). Au lieu de cela, le signal MS2 observable reflète l'effet net du changement de promoteur sur une période égale au temps qu'une molécule RNAP prend pour transcrire le gène entier. Ainsi, la fluorescence instantanée ne dépend pas seulement de l'état actuel du promoteur, elle dépend de l'activité du promoteur au cours d'une fenêtre de temps précédente, ce qui constitue effectivement une mémoire pour les états récents du promoteur (24, 37, 51, 52). Les approches HMM classiques ne peuvent pas prendre en compte ce type de mémoire système.

Pour modéliser le processus de transcription et extraire les paramètres cinétiques de la commutation de promoteur, nous avons augmenté les HMM classiques pour tenir compte de la mémoire (les détails sur la mise en œuvre de la méthode sont donnés dans Annexe SI, partie D). Des approches similaires ont été récemment introduites pour étudier la dynamique transcriptionnelle dans des échantillons de culture cellulaire et de tissus (22 –24, 53 ⇓ ⇓ ⇓ –57). Nous avons utilisé des données simulées pour établir que cpHMM extrait de manière fiable les paramètres cinétiques de l'éclatement transcriptionnel à partir de données d'imagerie en direct (Annexe SI, section E), fournissant un outil idéal pour disséquer les contributions des paramètres d'éclatement individuels aux modèles observés d'activité transcriptionnelle dans l'espace et le temps.

Avant d'appliquer notre modèle aux données transcriptionnelles en temps réel, nous avons dû tenir compte de la réplication rapide de la Drosophila melanogaster génome au début de chaque cycle nucléaire (58), ce qui conduit à la présence de 2 veille loci dans chaque tache fluorescente (Fig. 4 et Film S5). La première preuve de chromatides résolues apparaît dès 8 min dans le cycle nucléaire 14 (Annexe SI, Fig. S24)—coïncidant avec le temps de début moyen de la transcription (Annexe SI, illustration S4B). De plus, notre analyse indique que la réplication de la partie pertinente du génome se produit probablement dans tous les veille-exprimant les noyaux au plus tard 10 min après la mitose (Annexe SI, fig. S24). Ainsi, nous concluons que la grande majorité de nos données présentent 2 veille loci dans chaque tache de transcription limitée par diffraction. De plus, alors que la distance entre les loci sœurs varie dans le temps (par exemple, Fig. 4), ils restent néanmoins relativement proches pour assurer leur bonne ségrégation les uns des autres à la prochaine mitose (59) de sorte que les signaux d'intensité de fluorescence extraits de nos données reflètent l'intégrale sur les deux loci (Annexe SI, fig. S2). En conséquence, si nous supposons que chaque locus peut être bien représenté par un modèle à 2 états (OFF/ON) de salve transcriptionnelle, alors un modèle effectif à 3 états (OFF/OFF + OFF/ON + OFF/ON + ON /ON) est nécessaire pour capturer veille dynamique (Fig. 4E). Ainsi, nous avons choisi d'utiliser un tel modèle à 3 états dans notre analyse. En raison de preuves contradictoires provenant d'études précédentes (26, 32, 60), nous n'avons fait aucune hypothèse préalable sur la nature ou le degré de coopérativité entre les chromatides sœurs, que ce soit dans les transitions entre les états d'activité ou dans les taux d'initiation dans chaque état (voir Annexe SI, section E pour plus de détails). Bien que ces hypothèses accroissent la complexité de notre modèle, nous pensions qu'une approche conservatrice laissant le modèle libre de déduire la présence ou l'absence d'interactions sœurs était justifiée, étant donné notre ignorance de la nature et de la force des interactions entre les loci de gènes adjacents. Pour faciliter l'exposition, nous présentons nos principaux résultats dans le contexte d'un modèle efficace à 2 états, dans lequel, comme détaillé dans Annexe SI, section A, le système est considéré comme étant à l'état ON tant que l'une ou l'autre des chromatides éclate (Fig. 4F). Notez qu'aucune de nos conclusions ci-dessous n'est affectée par ce choix d'un modèle efficace comme le montre Annexe SI, section G, où nous présentons les résultats complets pour le modèle à 3 états.

Une trace expérimentale typique d'un noyau au cœur de la bande est illustrée à la Fig. 5UNE, ainsi que son meilleur ajustement, qui correspond à la trajectoire du promoteur inférée par cpHMM sur la figure 5B. Notre capacité à déduire l'état instantané du promoteur dans les noyaux individuels tout au long du développement est illustrée plus en détail sur la figure 5C et Film S6. Ces données ont révélé qu'au fur et à mesure que le développement progresse et que la rayure s'affine, la veille le promoteur fluctue continuellement entre les états ON et OFF sur une échelle de temps de 1 à 2 min.

Déduire la dynamique d'éclatement à l'aide d'un modèle de Markov caché ajusté en mémoire. (UNE et B) Trace expérimentale représentative avec son meilleur ajustement (UNE) et sa trajectoire d'état de promoteur la plus probable correspondante (B). (C) Visualisation instantanée de l'état du promoteur dans les cellules individuelles tout au long du développement grâce à la fausse coloration des noyaux par l'état du promoteur (couleurs comme dans B). () Le taux d'initiation pour chaque état transcriptionnel n'est pas modulé de manière significative le long de l'embryon. (E) Notre cpHMM révèle que le taux de transition entre les états OFF et ON (équivalent à la fréquence de rafale) est régulé à la hausse au centre de la bande. (Dans UNE, les barres d'erreur sont obtenues à partir de l'estimation des fluctuations fluorescentes de fond, comme décrit dans Matériaux et méthodes et réf. 27 dans et E, les barres d'erreur indiquent l'ampleur de la différence entre les premier et troisième quartiles des résultats d'inférence cpHMM pour des échantillons bootstrap de données expérimentales prélevés sur 11 embryons voir Matériaux et méthodes pour plus de détails.)

Pour déduire les valeurs des paramètres d'éclatement moyennées dans le temps, nous avons regroupé les traces par position le long de l'axe antéro-postérieur. Le taux de chargement RNAP, r, est resté constant tout au long de la bande (Fig. 5), suggérant qu'aucun des facteurs de transcription régulant veille stripe 2 agit directement sur la série rapide d'étapes moléculaires impliquées dans l'initiation de la transcription par RNAP. De même, nous n'avons noté aucune modulation spatiale significative du taux de sortie de l'état ON, k o ff (Fig. 5E). En revanche, le taux de commutation dans l'état ON (également connu sous le nom de fréquence de rafale), k o n , était fortement régulé à la hausse au centre de la bande (Fig. 5E). Ces observations suggèrent que, pour contrôler le taux moyen de transcription, les facteurs de transcription agissent principalement sur le taux d'activation du promoteur, ce qui est cohérent avec les résultats précédents à la fois dans les embryons (25, 30, 33) et dans les cellules individuelles (41, 43, 44, 46). Cette modalité de régulation augmente la fraction de temps que les loci proches du centre de la bande passent dans l'état ON (Annexe SI, fig. S7 et réf. 26).

Le contrôle binaire de la fenêtre temporelle de transcription est indépendant de l'éclatement de la transcription.

Après avoir déterminé que le contrôle analogique du taux de transcription moyen est réalisé par la modulation de la fréquence de salve, k on, nous avons ensuite cherché à découvrir le mécanisme moléculaire par lequel la régulation binaire de la fenêtre temporelle de transcription est mise en œuvre. Dans un scénario possible, le début de la quiescence transcriptionnelle à la fin de la fenêtre temporelle de transcription refléterait un changement fondamental du caractère moléculaire du locus transcriptionnel de telle sorte que le cadre d'éclatement ne s'applique plus. Par exemple, la répression des facteurs de transcription pourrait modifier le paysage local de la chromatine en repositionnant les nucléosomes promoteurs ou amplificateurs (61), des changements qui pourraient bloquer la liaison des activateurs au niveau de l'amplificateur de la bande 2 ou des facteurs de transcription généraux au niveau du promoteur et ainsi abolir d'autres facteurs médiés par l'activateur. éclatement (Fig. 6 UNE, je). Alternativement, si les taux de commutation de promoteur varient dans le temps, alors la fenêtre temporelle pourrait être expliquée sans invoquer un état de silence supplémentaire qui est mécaniquement distinct des processus entraînant l'éclatement transcriptionnel. Plus précisément, la quiescence transcriptionnelle pourrait être obtenue en réduisant progressivement la fréquence (k o n ), l'intensité (r) et/ou la durée (1 / k o ff ) des salves transcriptionnelles. Par exemple, il est possible que l'augmentation des niveaux de répresseur dans les flancs de la bande perturbe la capacité des activateurs à initier des rafales de transcription via des interactions d'extinction à courte portée (62), un mécanisme qui se manifesterait par une diminution du k on au fil du temps.

Enquêter sur le caractère moléculaire de la quiescence transcriptionnelle. (UNE) Deux hypothèses expliquant le début de la quiescence du promoteur : (UNE, je) une transition vers un état alternatif de longue durée de silence transcriptionnel et (UNE, ii) la modulation d'un ou plusieurs paramètres d'éclatement dans le temps. (B–F) Division de la bande en 5 régions (B) pour notre analyse de la fraction de noyaux quiescents (C), le taux de transition de OFF à ON (), le taux de chargement RNAP lorsque le promoteur est à l'état ON (E), et le taux de transition de ON à OFF en fonction du temps et de la position le long de la bande (F). La région ombrée en gris indique le début de la quiescence transcriptionnelle. (Dans C, les barres d'erreur indiquent une estimation bootstrap du SEM dans D–F, les barres d'erreur indiquent l'ampleur de la différence entre les premier et troisième quartiles des résultats d'inférence cpHMM pour des échantillons de données expérimentales bootstrapées voir Matériaux et méthodes pour plus de détails.)

Pour déterminer si la quiescence peut être expliquée dans le cadre de l'éclatement, nous avons divisé la bande en 5 régions illustrées à la Fig. 6B. Pour chaque région, nous avons cherché à déterminer si la dynamique d'éclatement variait dans le temps d'une manière qui pourrait expliquer la dynamique d'entrée en quiescence des noyaux individuels (Fig. 6C). Pour sonder cette dépendance temporelle dans l'éclatement transcriptionnel, nous avons étendu notre méthode cpHMM pour obtenir des paramètres d'éclatement du promoteur sur des périodes de temps discrètes en effectuant une inférence sur nos données d'imagerie en direct à l'aide d'une fenêtre glissante (voir Annexe SI, section D pour plus de détails). Notre inférence a révélé que le taux d'activation du promoteur, k o n , variait considérablement dans le temps (Fig. 6). Plus précisément, k o n a diminué dans les limites des bandes antérieures et postérieures (Fig. 6, courbes noires et rouges) au fur et à mesure que le développement progressait et que la fraction de noyaux actifs diminuait (Fig. 6, région ombrée en gris), tandis que les loci au centre de la bande (Fig. 6, courbes verte et jaune) ont montré une augmentation significative de k o n . De plus, bien que relativement constant à la plupart des positions le long de la bande, le taux de chargement RNAP à l'état ON, r, et le taux de désactivation du promoteur, k o ff , ont légèrement diminué (Fig. 6 E et F).

Ces résultats ont confirmé nos résultats d'inférence moyennés dans le temps (Fig. 5 et E) indiquant que k o n était la principale voie cinétique par laquelle les facteurs de transcription influencent veille dynamique de transcription de la bande 2. De plus, la coïncidence de la diminution de k o n dans les noyaux des flancs avec le début de la quiescence transcriptionnelle (région grisée de la Fig. 6) semblait suggérer que, au moins en partie, la quiescence dans les flancs de la bande pourrait être entraînée par la modulation temporelle des paramètres d'éclatement (Fig. 6 UNE, ii). Cependant, d'autres tendances dans nos données n'étaient pas cohérentes avec l'opinion selon laquelle une diminution de k o n entraîne une quiescence transcriptionnelle.

Bien que 70 % et 50 % des noyaux dans les régions directement antérieures et postérieures du centre de la bande étaient au repos à 40 min dans le cycle nucléaire (courbes bleues et jaunes sur la figure 6C), nous n'avons détecté aucune diminution correspondante de k o n . En fait, k o n a augmenté dans certaines régions internes de la bande (Fig. 6) - une tendance qui augmenterait l'activité transcriptionnelle globale et irait donc à l'encontre de l'établissement d'une quiescence transcriptionnelle.

Les résultats divergents observés dans les régions de la bande centrale, le taux d'éclatement transcriptionnel restant constant ou augmentant à veille loci au sein de la population de noyaux engagés alors même que les loci dans les noyaux voisins s'éteignent pour de bon, va à l'encontre de l'hypothèse selon laquelle la quiescence est entraînée par la modulation temporelle des paramètres de commutation du promoteur. Il est concevable que les changements temporels des paramètres d'éclatement associés au début de la quiescence se produisent trop rapidement pour être capturés par notre modèle. Cependant, comme discuté dans Annexe SI, section I, ces changements devraient se produire sur la même échelle de temps que l'éclatement lui-même (1 à 3 min). Étant donné que les autres tendances temporelles détectées par notre inférence (Fig. 6) et les changements dans les facteurs de transcription d'entrée eux-mêmes (Annexe SI, section H) se déroulent sur des échelles de temps significativement plus lentes (5 à 15 min), nous avons conclu que bien que possible, un scénario où la dynamique d'éclatement change trop rapidement pour être détecté est peu probable.

Les tendances contradictoires observées dans le centre et les flancs de la bande ont indiqué que l'entrée dans la quiescence transcriptionnelle pourrait impliquer des processus non capturés dans le modèle d'éclatement (Fig. 6 UNE, je), suggérant ainsi que le contrôle binaire de la fenêtre temporelle transcriptionnelle et l'éclatement transcriptionnel entraînant le contrôle analogique du taux de transcription moyen peuvent provenir de processus moléculaires distincts.

L'analyse des entrées-sorties révèle une logique réglementaire distincte pour l'éclatement et la fenêtre de temps de transcription.

veille la bande 2 est principalement établie par l'action combinée de 2 activateurs, Bicoid et Bossu, et de 2 répresseurs, Giant et Krüppel (16, 17, 63). Si l'éclatement de la transcription et la fenêtre temporelle de la transcription sont contrôlés par des processus moléculaires distincts, alors des formes distinctes de logique régulatrice peuvent être en jeu. Par exemple, les activateurs Bicoid et Hunchback pourraient contrôler l'éclatement transcriptionnel, tandis que les répresseurs Giant et Krüppel pourraient dicter l'entrée dans l'état de repos. Pour révéler la logique moléculaire contrôlant chaque stratégie de régulation, nous avons cherché à corréler la fraction de noyaux qui sont entrés dans l'état de repos (Fig. 7UNE) et la fraction de noyaux à l'état d'éclatement ON (Fig. 7B) avec les patrons spatio-temporels correspondants dans les concentrations d'entrée de ces 4 facteurs de transcription.

Sonder la logique régulatrice de l'éclatement et la fenêtre temporelle transcriptionnelle. (UNE et B) Fraction de noyaux à l'état de quiescence transcriptionnelle (UNE) et fraction de noyaux à l'état d'éclatement ON (B) en fonction du temps et de la position le long de l'embryon. (C) Instantanés des niveaux de facteurs de transcription d'entrée et des prévisions veille Niveaux d'ARNm de notre embryon "moyen" à 10, 25 et 40 min dans le cycle nucléaire 14. () Fraction prévue de noyaux quiescents pour des modèles de régression de plus en plus complexes. Le modèle le plus simple avec la probabilité la plus élevée est surligné en violet. Les cercles à code couleur indiquent lesquels des 4 facteurs de transcription—Krüppel (Kr), Giant (Gt), Bossu (Hb) et Bicoid (Bcd)—ont été inclus dans chaque version du modèle. (E) La vraisemblance du modèle indiquant que les niveaux de Krüppel et Giant sont suffisants pour récapituler la fraction de noyaux quiescents dans . (F) Fraction prédite de noyaux à l'état ON. Le modèle le plus simple et le plus probable est surligné en violet. (g) Les scores du modèle révèlent que Giant, Krüppel et Hunchback récapitulent le comportement d'éclatement dans F.

Nous avons mesuré les profils de concentration de Bicoïde à l'aide d'une fusion Bicoïde-GFP bien établie (64) et obtenu des profils de concentration spatiotemporels pour Krüppel, Giant et Bossu à partir de données d'immunofluorescence publiées (65, 66).Nous avons combiné ces données avec nos données d'imagerie en direct de veille l'activité transcriptionnelle de la bande 2 pour générer un « embryon moyen » dans lequel la concentration de toutes les entrées pertinentes et l'activité transcriptionnelle de sortie à chaque point dans le temps et dans l'espace étaient connues (Fig. 7C et Film S7). Sur la base de travaux antérieurs (67), nous avons utilisé des régressions logistiques pour sonder le rôle régulateur joué par chacun de ces 4 facteurs dans le contrôle spatio-temporel de l'éclatement transcriptionnel et de la fenêtre temporelle transcriptionnelle. La régression logistique est une méthode largement utilisée pour inférer des modèles prédictifs dans des processus avec des résultats binaires. Par exemple, pour interroger la logique de régulation derrière le contrôle de la fenêtre de temps de transcription, le modèle sonde l'impact de chaque facteur de transcription sur la probabilité relative d'un locus entrant dans l'état de repos par rapport à la probabilité de rester transcriptionnellement engagé de telle sorte que log P au repos P engagé = β 0 + β 1 B cd + β 2 H b + β 3 G t + β 4 K r , [4] où les coefficients β n indiquent l'ampleur et la nature (activante ou répressive) de la fonction régulatrice du facteur de transcription. Pour estimer ces coefficients, nous avons utilisé des connaissances préalables sur la fonction de chaque facteur de transcription, obligeant Bicoid et Bossu à jouer des rôles d'activation et Krüppel et Giant à jouer des rôles de répression (5, 16). Nous avons utilisé un modèle analogue pour étudier la logique régulatrice contrôlant l'éclatement transcriptionnel en déduisant les facteurs qui déterminent la probabilité relative que les noyaux soient dans l'état d'éclatement ON par rapport à l'état OFF, P O N / P O F F .

Notre analyse de la fraction de noyaux à l'état de repos a révélé qu'aucun facteur de transcription unique ne peut expliquer la dynamique de quiescence (Fig. 7 et E). Cependant, un modèle simple dans lequel les niveaux croissants des répresseurs Giant et Krüppel entraînent le début de la quiescence transcriptionnelle dans les flancs de la bande antérieure et postérieure, respectivement, récapitule les tendances observées expérimentalement. L'ajout supplémentaire de Bossu et/ou de Bicoid n'a eu aucun impact sur le pouvoir prédictif du modèle, suggérant que les concentrations d'activateur n'ont aucune influence sur les processus moléculaires responsables du silence. L'assouplissement des contraintes sur le rôle fonctionnel de chaque facteur de transcription - par exemple, permettre aux activateurs présumés de fonctionner comme des répresseurs - n'a également fourni aucune amélioration significative par rapport aux modèles présentés ici, comme indiqué dans Annexe SI, chapitre H.

Nous avons ensuite porté notre attention sur la relation entre les niveaux de facteurs de transcription et la fraction de noyaux à l'état ON (Fig. 7B). Contrairement à la fenêtre de temps transcriptionnelle, les niveaux de répresseur seuls ne pouvaient pas récapituler le profil d'éclatement observé Les niveaux de bossu étaient également nécessaires pour capturer pleinement la dynamique d'éclatement spatio-temporelle (Fig. 7 E et g). Plus précisément, nous avons lié une augmentation de la concentration de Bossu à une augmentation observée de la fraction de noyaux à l'état ON dans le centre de la bande entre 30 et 35 min dans le cycle nucléaire (Fig. 7 B et F).

Notre analyse entrée-sortie a ainsi révélé que le bursting et la fenêtre temporelle transcriptionnelle présentent des formes de logique de régulation significativement différentes : alors que les niveaux de répresseurs à eux seuls suffisent à expliquer la fenêtre temporelle transcriptionnelle, l'action conjointe des activateurs et des répresseurs apparaît nécessaire pour expliquer les schémas observés de éclatement transcriptionnel. Ces résultats sont cohérents avec l'hypothèse selon laquelle la régulation de l'éclatement et de la fenêtre de temps de transcription se produit via des processus moléculaires distincts, soutenant ainsi un modèle dans lequel l'état silencieux de longue durée observé dans les noyaux des flancs constitue un état moléculaire distinct en dehors du modèle d'éclatement. .


Utilisation de réseaux bayésiens pour analyser les données d'expression

Les puces d'hybridation d'ADN mesurent simultanément le niveau d'expression de milliers de gènes. Ces mesures fournissent un « instantané » des niveaux de transcription dans la cellule. Un défi majeur en biologie computationnelle est de découvrir, à partir de telles mesures, les interactions gène/protéine et les principales caractéristiques biologiques des systèmes cellulaires. Dans cet article, nous proposons un nouveau cadre pour découvrir les interactions entre les gènes sur la base de multiples mesures d'expression. Ce cadre s'appuie sur l'utilisation de Réseaux bayésiens pour représenter les dépendances statistiques. Un réseau bayésien est un modèle basé sur des graphes de distributions de probabilités multivariées conjointes qui capture les propriétés d'indépendance conditionnelle entre les variables. De tels modèles sont attrayants pour leur capacité à décrire des processus stochastiques complexes et parce qu'ils fournissent une méthodologie claire pour apprendre à partir d'observations (bruyantes). Nous commençons par montrer comment les réseaux bayésiens peuvent décrire les interactions entre les gènes. Nous décrivons ensuite une méthode pour récupérer les interactions géniques à partir de données de puces à ADN à l'aide d'outils d'apprentissage des réseaux bayésiens. Enfin, nous démontrons cette méthode sur le S. cerevisiae mesures du cycle cellulaire de Spellman et al. (1998).


Atlas des expressions

iRAP : outil d'analyse RNA-seq
Un pipeline flexible pour l'analyse RNA-seq qui intègre de nombreux outils existants pour filtrer et cartographier les lectures, quantifier l'expression et tester l'expression différentielle. iRAP est utilisé pour traiter toutes les données RNA-seq dans Expression Atlas.

API RNASeq-er : une passerelle vers une analyse systématiquement mise à jour des données RNA-Seq publiques
L'API REST RNASeq-er offre un accès facile aux résultats de l'analyse systématiquement mise à jour et en constante augmentation des données publiques RNA-seq dans l'European Nucleotide Archive (ENA). L'analyse de chaque séquence de séquençage est effectuée par l'équipe d'expression génique de l'EMBL-EBI à ​​l'aide du pipeline iRAP (voir ci-dessus).

Pack Expression Atlas R sur Bioconducteur
Recherchez et téléchargez des données préemballées à partir d'Expression Atlas dans une session R. Des comptes bruts sont fournis pour les ensembles de données RNA-seq et des intensités normalisées sont disponibles pour les expériences de microarray. Des protocoles décrivant comment les données ont été générées et des exemples d'annotations sont contenus dans les objets R téléchargés.

Carte thermique de l'Atlas d'expression
Vous pouvez intégrer la carte thermique d'Expression Atlas en tant que widget JavaScript sur votre site. Vous pouvez le construire à partir de la source ou vous pouvez créer un lien direct vers nos bundles construits. Les instructions pour les deux méthodes sont fournies dans le référentiel GitHub. Il est fortement suggéré que vous parcouriez tous les exemples disponibles dans notre galerie vitrine.


Voir la vidéo: La Régulation de Lexpression des gènes chez Les procaryotes (Juillet 2022).


Commentaires:

  1. Tolan

    À mon avis, cela a déjà été discuté, utilisez la recherche.

  2. Halsey

    Je trouve que tu n'as pas raison. Je suis sûr. Écrivez en MP, nous discuterons.

  3. Akinotilar

    Vous n'êtes pas correcte. Je suis sûr. Nous discuterons.

  4. Welburn

    Il existe encore de nombreuses variantes

  5. Goltik

    Quels mots nécessaires ... super, magnifique idée

  6. Gut

    Je m'excuse, mais à mon avis, vous admettez l'erreur. Écrivez-moi dans PM, nous en discuterons.



Écrire un message