Informations

2.S : Ajustement des modèles statistiques aux données (Résumé) - Biologie

2.S : Ajustement des modèles statistiques aux données (Résumé) - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

1 : Je suppose ici que vous vous intéressez peu aux organismes autres que les lézards.

retour au texte principal

2: Et, souvent, conclut que nous avons juste « besoin de plus de données » pour obtenir la réponse que nous voulons.

retour au texte principal

3: Surtout dans des domaines comme la génomique où les tests multiples et les corrections massives de Bonferroni sont courants ; on ne peut que s'étonner des légions d'erreurs de type II qui sont commises dans de telles circonstances.

retour au texte principal

Les références

Akaike, H. 1998. La théorie de l'information et une extension du principe du maximum de vraisemblance. Pp. 199-213 dans E. Parzen, K. Tanabe et G. Kitagawa, éd. Articles choisis de Hirotugu Akaike. Springer New York, New York, État de New York.

Burnham, K.P. et D.R. Anderson. 2003. Sélection de modèle et inférence multimodèle : Une approche théorique de l'information pratique. Springer Science & Business Media.

Edwards, A.W.F. 1992. Probabilité. Presses universitaires Johns Hopkins, Baltimore.

Gelman, A., J.B. Carlin, H.S. Stern, D. Dunson, A. Vehtari et D. Rubin. 2013. Analyse de données bayésienne, troisième édition. Chapman; Salle/CRC.

Neal, R. 2008. La moyenne harmonique de la vraisemblance : la pire méthode de Monte Carlo de tous les temps. Le blog de Radford Neal.

Newton, M.A. et A.E. Raftery. 1994. Inférence bayésienne approximative avec le bootstrap de vraisemblance pondéré. J. Stat. Soc. Statistiques de la série B. Méthod. 56:3-48.

Perneger, T. V. Quel est le problème avec les ajustements Bonferroni. BMJ 316 : 1236–1238.

Perrakis, K., I. Ntzoufras et E.G. Tsionas. 2014. Sur l'utilisation de postérieurs marginaux dans l'estimation de la vraisemblance marginale via l'échantillonnage d'importance. Calcul. Analyse de données. 77:54-69.

Posada, D., et K.A. Crandall. MODELTEST : Test du modèle de substitution de l'ADN. Bioinformatique 14:817-818.

Xie, W., P.O. Lewis, Y. Fan, L. Kuo et M.-H. Chen. 2011. Amélioration de l'estimation de la vraisemblance marginale pour la sélection de modèles phylogénétiques bayésiens. Syst. Biol. 60 : 150-160.


Introduction

La sélection de la meilleure équation pour s'adapter à nos données expérimentales peut nécessiter une certaine expérience. Que devons-nous faire lorsque nous n'avons pas d'informations sur la littérature ? Nous ne sommes pas des mathématiciens et notre approche de la construction de modèles est souvent émipirique. C'est-à-dire que nous examinons les processus biologiques, traçons les données et notons qu'ils suivent un certain schéma. Par exemple, nous aurions pu observer que la réponse d'une espèce végétale à la dose d'une substance toxique est en forme de S. Par conséquent, nous avons besoin d'une fonction en forme de S pour s'adapter à nos données, mais… comment sélectionner la bonne équation ?

J'ai pensé qu'il pourrait être utile de lister les équations les plus répandues, ainsi que leurs principales propriétés et la signification biologique de leurs paramètres. Bien sûr, je ne dois pas oublier que nous nous intéressons à ces équations parce que nous voulons les ajuster ! Par conséquent, je donnerai aussi les fonctions R correspondantes, au moins, je donnerai celles que j'utilise le plus souvent.

Un problème avec la régression non linéaire est qu'elle fonctionne de manière itérative : nous devons fournir des estimations initiales pour les paramètres du modèle et l'algorithme les ajuste pas à pas, jusqu'à ce qu'il converge (espérons-le) vers la solution approximative des moindres carrés. D'après mon expérience, fournir des suppositions initiales peut être gênant. Par conséquent, il est très pratique d'utiliser les fonctions R, y compris les routines d'auto-démarrage appropriées, ce qui peut grandement simplifier le processus d'ajustement.

Plusieurs autodémarreurs peuvent être trouvés dans le package « drc », qui peut être utilisé avec la fonction de régression non linéaire « drm() ». D'autres autodémarreurs sont fournis dans le package « nlme », à utiliser avec les fonctionnalités de régression non linéaire « nls() », « nlsList() » et « nlme() ». J'ai ajouté quelques autodémarreurs dans le package "aomisc". En faisant ce travail, je me suis donné la 'règle' suivante : si une équation est nommée 'eqName', 'eqName.fun' est la fonction R codant pour cette équation (que nous pouvons utiliser, par exemple, pour tracer), 'NLS .eqName' est l'autodémarreur pour 'nls()' et 'DRC.eqName' est l'autodémarreur pour 'drm()'.

Dans ce didacticiel, nous utiliserons certains des ensembles de données disponibles dans le package « aomisc ».

Avant de commencer ce tutoriel, chargeons les packages nécessaires.


Test du khi carré de la qualité de l'ajustement

Vous utilisez le test du Khi deux de qualité de l'ajustement lorsque vous avez une variable nominale, vous voulez voir si le nombre d'observations dans chaque catégorie correspond à une attente théorique et la taille de l'échantillon est grande.

Quand l'utiliser

Utilisez le test du Khi deux d'adéquation lorsque vous avez une variable nominale avec deux valeurs ou plus (telles que des fleurs rouges, roses et blanches). Vous comparez les nombres d'observations observés dans chaque catégorie avec les nombres attendus, que vous calculez en utilisant une sorte d'attente théorique (comme un sex-ratio 1:1 ou un ratio 1:2:1 dans un croisement génétique).

Si le nombre attendu d'observations dans une catégorie est trop petit, le test du chi carré peut donner des résultats inexacts et vous devez utiliser un test exact à la place. Voir la page Web sur les petites tailles d'échantillons pour une discussion sur ce que "petit" signifie.

Le test du chi carré de la qualité de l'ajustement est une alternative au g&ndashtest de qualité de l'ajustement chacun de ces tests présente des avantages et des inconvénients, et les résultats des deux tests sont généralement très similaires. Vous devriez lire la section sur « Chi-deux vs. g&ndashtest" près du bas de cette page, choisissez soit le chi-carré soit g&ndashtest, puis restez fidèle à ce choix pour le reste de votre vie. La plupart des informations et des exemples sur cette page sont les mêmes que sur le g&ndashpage de test, donc une fois que vous avez décidé quel test vous convient le mieux, vous n'avez qu'à en lire un.

Hypothèse nulle

L'hypothèse nulle statistique est que le nombre d'observations dans chaque catégorie est égal à celui prédit par une théorie biologique, et l'hypothèse alternative est que les nombres observés sont différents de ceux attendus. L'hypothèse nulle est généralement une hypothèse extrinsèque, où vous connaissiez les proportions attendues avant de faire l'expérience. Les exemples incluent un sex-ratio 1:1 ou un ratio 1:2:1 dans un croisement génétique. Un autre exemple serait de regarder une zone de rivage qui avait 59% de la zone couverte de sable, 28% de boue et 13% de roches si vous enquêtiez sur l'endroit où les mouettes aiment se tenir, votre hypothèse nulle serait que 59% des mouettes étaient debout sur le sable, 28% sur la boue et 13% sur les rochers.

Dans certaines situations, vous avez une hypothèse intrinsèque. Il s'agit d'une hypothèse nulle où vous calculez les proportions attendues après avoir fait l'expérience, en utilisant certaines des informations des données. L'exemple le plus connu d'hypothèse intrinsèque est celui des proportions Hardy-Weinberg de la génétique des populations : si la fréquence d'un allèle dans une population est p et l'autre allèle est q, l'hypothèse nulle est que les fréquences attendues des trois génotypes sont p 2 , 2pq, et q 2 . Il s'agit d'une hypothèse intrinsèque, car vous estimez p et q à partir des données après avoir collecté les données, vous ne pouvez pas prédire p et q avant l'expérience.

Comment fonctionne le test

Contrairement au test exact d'adéquation, le test du chi carré ne calcule pas directement la probabilité d'obtenir les résultats observés ou quelque chose de plus extrême. Au lieu de cela, comme presque tous les tests statistiques, le test du chi carré a une étape intermédiaire, il utilise les données pour calculer une statistique de test qui mesure à quelle distance les données observées sont de l'attente nulle. Vous utilisez ensuite une relation mathématique, dans ce cas la distribution du Khi deux, pour estimer la probabilité d'obtenir cette valeur de la statistique de test.

Vous calculez la statistique de test en prenant un nombre observé (O), en soustrayant le nombre attendu (E), puis la quadrature de cette différence. Plus l'écart par rapport à l'hypothèse nulle est grand, plus la différence entre l'observé et l'attendu est grande. La quadrature des différences les rend toutes positives. Vous divisez ensuite chaque différence par le nombre attendu et vous additionnez ces différences standardisées. La statistique de test est approximativement égale au rapport de vraisemblance logarithmique utilisé dans le g&ndashtest. On l'appelle conventionnellement une statistique « chi carré », bien que cela soit quelque peu déroutant car ce n'est qu'une des nombreuses statistiques de test qui suivent la distribution théorique du khi carré. L'équation est

Comme pour la plupart des statistiques de test, plus la différence entre observé et attendu est grande, plus la statistique de test devient grande. Pour donner un exemple, disons que votre hypothèse nulle est un rapport de 3 : 1 d'ailes lisses aux ailes ridées chez la progéniture d'un groupe de Drosophile des croix. Vous observez 770 mouches aux ailes lisses et 230 mouches aux ailes ridées, les valeurs attendues sont 750 mouches à ailes lisses et 250 mouches à ailes ridées. En entrant ces nombres dans l'équation, la valeur du chi carré est de 2,13. Si vous aviez observé 760 mouches à ailes lisses et 240 mouches à ailes ridées, ce qui est plus proche de l'hypothèse nulle, votre valeur du chi carré aurait été plus petite, à 0,53 si vous aviez observé 800 mouches à ailes lisses et 200 mouches à ailes ridées. mouches, ce qui est plus éloigné de l'hypothèse nulle, votre valeur du chi carré aurait été de 13,33.

La distribution de la statistique de test sous l'hypothèse nulle est approximativement la même que la distribution théorique du chi carré. Cela signifie qu'une fois que vous connaissez la valeur du khi-deux et le nombre de degrés de liberté, vous pouvez calculer la probabilité d'obtenir cette valeur du khi-deux à l'aide de la distribution du khi-deux. Le nombre de degrés de liberté est le nombre de catégories moins un, donc pour notre exemple il y a un degré de liberté. En utilisant la fonction CHIDIST dans une feuille de calcul, vous entrez =CHIDIST(2.13, 1) et calculez que la probabilité d'obtenir une valeur chi-carré de 2,13 avec un degré de liberté est P=0.144.

La forme de la distribution du chi carré dépend du nombre de degrés de liberté. Pour une hypothèse nulle extrinsèque (la situation beaucoup plus courante, où vous connaissez les proportions prédites par l'hypothèse nulle avant de collecter les données), le nombre de degrés de liberté est simplement le nombre de valeurs de la variable, moins un. Ainsi si vous testez une hypothèse nulle d'un sex-ratio 1:1, il y a deux valeurs possibles (masculin et féminin), et donc un degré de liberté. C'est parce qu'une fois que vous savez combien du total sont des femmes (un nombre qui est « libre » de varier de 0 à la taille de l'échantillon), le nombre d'hommes est déterminé. S'il y a trois valeurs de la variable (comme le rouge, le rose et le blanc), il y a deux degrés de liberté, et ainsi de suite.

Une hypothèse nulle intrinsèque est une hypothèse dans laquelle vous estimez un ou plusieurs paramètres à partir des données afin d'obtenir les chiffres de votre hypothèse nulle. Comme décrit ci-dessus, un exemple est les proportions Hardy-Weinberg. Pour une hypothèse nulle intrinsèque, le nombre de degrés de liberté est calculé en prenant le nombre de valeurs de la variable, en soustrayant 1 pour chaque paramètre estimé des données, puis en soustrayant 1 de plus. Ainsi pour les proportions Hardy-Weinberg avec deux allèles et trois génotypes, il y a trois valeurs de la variable (les trois génotypes) vous soustrayez une pour le paramètre estimé des données (la fréquence allélique, p), puis vous en soustrayez un de plus, ce qui donne un degré de liberté. Il y a d'autres problèmes statistiques impliqués dans les tests d'adéquation aux attentes de Hardy-Weinberg, donc si vous devez le faire, voir Engels (2009) et les références plus anciennes qu'il cite.

Test post-hoc

S'il y a plus de deux catégories et que vous voulez savoir lesquelles sont significativement différentes de leur attente nulle, vous pouvez utiliser la même méthode pour tester chaque catégorie par rapport à la somme de toutes les autres catégories, avec la correction de Bonferroni, comme je le décris. pour le test exact. Vous utilisez bien sûr des tests du chi carré pour chaque catégorie.

Hypothèses

Le chi carré de la qualité de l'ajustement suppose l'indépendance, comme décrit pour le test exact.

Exemples : hypothèse extrinsèque

Becs-croisés d'Europe (Loxia curvirostra) ont le bout du bec supérieur à droite ou à gauche du bec inférieur, ce qui les aide à extraire les graines des pommes de pin. Certains ont émis l'hypothèse que la sélection dépendante de la fréquence maintiendrait le nombre d'oiseaux à bec droit et gauche à un rapport de 1:1. Groth (1992) a observé 1752 becs-croisés à bec droit et 1895 becs-croisés à bec gauche.

Calculer la fréquence attendue des oiseaux à bec droit en multipliant la taille totale de l'échantillon (3647) par la proportion attendue (0,5) pour obtenir 1823,5. Faites de même pour les oiseaux à bec gauche. Le nombre de degrés de liberté quand un pour une hypothèse extrinsèque est le nombre de classes moins un. Dans ce cas, il y a deux classes (droite et gauche), donc il y a un degré de liberté.

Le résultat est chi carré = 5,61, 1 d.f., P= 0,018, indiquant que vous pouvez rejeter l'hypothèse nulle, il y a significativement plus de becs-croisés à bec gauche que de bec droit.

Shivrain et al. (2006) ont croisé du riz clair, résistant à l'herbicide imazethapyr, avec du riz rouge, sensible à l'imazéthapyr. Ils ont ensuite croisé la progéniture hybride et examiné le F2 génération, où ils ont trouvé 772 plantes résistantes, 1611 plantes modérément résistantes et 737 plantes sensibles. Si la résistance est contrôlée par un seul gène avec deux allèles co-dominants, vous vous attendriez à un rapport 1:2:1. En comparant les nombres observés avec le rapport 1:2:1, la valeur du chi carré est de 4,12. Il y a deux degrés de liberté (les trois catégories, moins un), donc le P valeur est de 0,127, il n'y a pas de différence significative par rapport à un rapport 1:2:1.

Sittelle à poitrine rousse femelle, Sitta canadensis.

Mannan et Meslow (1984) ont étudié le comportement d'alimentation des oiseaux dans une forêt de l'Oregon. Dans une forêt aménagée, 54 % du volume de la canopée était constitué de douglas, 40 % de pin ponderosa, 5 % de sapin de grande taille et 1 % de mélèze occidental. Ils ont fait 156 observations de recherche de nourriture par des sittelles à poitrine rousse 70 observations (45 % du total) dans le sapin de Douglas, 79 (51 %) dans le pin ponderosa, 3 (2%) dans le grand sapin et 4 (3 %) dans l'ouest mélèze. L'hypothèse biologique nulle est que les oiseaux se nourrissent au hasard, quelle que soit l'espèce d'arbre dans laquelle ils se trouvent. L'hypothèse statistique nulle est que les proportions d'événements de recherche de nourriture sont égales aux proportions du volume de la canopée. La différence de proportions est significative (chi carré = 13,59, 3 d.f., P=0.0035).

Les nombres attendus dans cet exemple sont assez petits, il serait donc préférable de l'analyser avec un test exact. Je le laisse ici parce que c'est un bon exemple d'hypothèse extrinsèque qui vient de la mesure de quelque chose (le volume de la canopée, dans ce cas), pas une théorie mathématique. J'ai eu du mal à en trouver de bons exemples.

Exemple : hypothèse intrinsèque

McDonald (1989) a examiné la variation au Mpi locus chez le crustacé amphipode Platorchestia platensis recueillies à partir d'un seul endroit sur Long Island, New York. Il y avait deux allèles, Mpi 90 et Mpi 100 et les fréquences de génotype dans les échantillons de plusieurs dates regroupées étaient de 1203 Mpi 90/90 , 2919 Mpi 90/100 et 1678 Mpi 100/100. L'estimation de la Mpi La proportion d'allèles à 90 à partir des données est de 5325/11600 = 0,459. En utilisant la formule de Hardy-Weinberg et cette proportion estimée d'allèles, les proportions de génotype attendues sont de 0,211 Mpi 90/90 , 0.497 Mpi 90/100 et 0,293 Mpi 100/100. Il existe trois catégories (les trois génotypes) et un paramètre estimé à partir des données (le Mpi 90 proportion d'allèles), il y a donc un degré de liberté. Le résultat est chi carré = 1,08, 1 d.f., P= 0,299, ce qui n'est pas significatif. Vous ne pouvez pas rejeter l'hypothèse nulle selon laquelle les données correspondent aux proportions attendues de Hardy-Weinberg.

Représentation graphique des résultats

S'il n'y a que deux valeurs de la variable nominale, vous ne devriez pas afficher le résultat dans un graphique, car ce serait un graphique à barres avec une seule barre. Au lieu de cela, rapportez simplement la proportion, par exemple, Groth (1992) a trouvé 52,0 % de becs-croisés à bec gauche.

Avec plus de deux valeurs de la variable nominale, vous devez généralement présenter les résultats d'un test d'adéquation dans un tableau des proportions observées et attendues. Si les valeurs attendues sont évidentes (telles que 50 %) ou faciles à calculer à partir des données (telles que les proportions Hardy&ndashWeinberg), vous pouvez omettre les nombres attendus de votre tableau. Pour une présentation, vous aurez probablement besoin d'un graphique montrant à la fois les proportions observées et attendues, pour donner une impression visuelle de leur distance. Vous devez utiliser un graphique à barres pour les proportions observées qui peuvent être affichées avec une ligne horizontale en pointillés ou avec des barres d'un motif différent.

Si vous souhaitez ajouter des barres d'erreur au graphique, vous devez utiliser des intervalles de confiance pour une proportion. Notez que les intervalles de confiance ne seront pas symétriques, et cela sera particulièrement évident si la proportion est proche de 0 ou 1.

Utilisation de l'habitat chez la sittelle à poitrine rousse.. Les barres grises sont les pourcentages observés d'événements de recherche de nourriture dans chaque espèce d'arbre, avec des intervalles de confiance à 95 %, les barres noires sont les pourcentages attendus.

Certaines personnes utilisent un « graphique à barres empilées » pour afficher les proportions, surtout s'il y a plus de deux catégories. Cependant, cela peut rendre difficile la comparaison des tailles des valeurs observées et attendues pour les catégories intermédiaires, car leurs hauts et leurs bas sont à des niveaux différents, je ne le recommande donc pas.

Essais similaires

Vous utilisez le test d'indépendance du Khi deux pour deux variables nominales, pas une.

Il existe plusieurs tests qui utilisent les statistiques du chi carré. Celui décrit ici est formellement connu sous le nom de chi-carré de Pearson. C'est de loin le test du chi-carré le plus courant, il est donc généralement appelé test du chi-carré.

Vous avez le choix entre trois tests d'adéquation : le test d'adéquation exact, le g&ndashtest de la qualité de l'ajustement, ou le test du chi carré de la qualité de l'ajustement. Pour les petites valeurs des nombres attendus, le chi carré et gLes &ndashtests sont inexacts, car les distributions des statistiques de test ne correspondent pas très bien à la distribution du Khi-deux.

La règle empirique habituelle est que vous devez utiliser le test exact lorsque la plus petite valeur attendue est inférieure à 5, et que le chi carré et gLes &ndashtests sont suffisamment précis pour des valeurs attendues plus importantes.Cette règle de base date de l'époque où les gens devaient faire des calculs statistiques à la main, et les calculs pour le test exact étaient très fastidieux et à éviter autant que possible. De nos jours, les ordinateurs permettent d'effectuer le test exact aussi facilement que le chi-carré ou le calcul plus simple. g&ndashtest, sauf si la taille de l'échantillon est si grande que même les ordinateurs ne peuvent pas le gérer. Je vous recommande d'utiliser le test exact lorsque la taille totale de l'échantillon est inférieure à 1000. Avec des tailles d'échantillon comprises entre 50 et 1000 et des valeurs attendues supérieures à 5, le test que vous utilisez ne fait généralement pas une grande différence, vous ne devriez donc pas t critiquer quelqu'un pour avoir utilisé le chi carré ou g&ndashtest pour les expériences où je recommande le test exact. Voir la page Web sur les petits échantillons pour une discussion plus approfondie.

Chi-deux vs. g&ndashtest

Le test du chi carré donne à peu près les mêmes résultats que le g&ndashtest. Contrairement au test du chi carré, les valeurs G sont additives. Vous pouvez mener une expérience élaborée dans laquelle les valeurs G des différentes parties de l'expérience s'ajoutent à une valeur G globale pour l'ensemble de l'expérience. Les valeurs du khi-deux s'en rapprochent, mais les valeurs du khi-deux des sous-parties d'une expérience ne correspondent pas exactement à la valeur du khi-deux de l'ensemble de l'expérience. gLes &ndashtests sont une sous-classe de tests de rapport de vraisemblance, une catégorie générale de tests qui ont de nombreuses utilisations pour tester l'ajustement des données aux modèles mathématiques. La capacité de faire des analyses statistiques plus élaborées est l'une des raisons pour lesquelles certaines personnes préfèrent g&ndashtest, même pour des conceptions plus simples. D'un autre côté, le test du chi carré est plus familier à plus de gens, et c'est toujours une bonne idée d'utiliser des statistiques que vos lecteurs connaissent lorsque cela est possible. Vous voudrez peut-être consulter la littérature dans votre domaine et utiliser celle qui est la plus couramment utilisée.

Bien sûr, vous devriez ne pas analyser vos données à la fois avec le g&ndashtest et le test du chi carré, puis choisissez celui qui vous donne le résultat le plus intéressant qui serait de la triche. Chaque fois que vous essayez plus d'une technique statistique et utilisez uniquement celle qui donne le P valeur, vous augmentez vos chances d'avoir un faux positif.

Comment faire le test

Tableur

J'ai mis en place une feuille de calcul pour le test du chi carré de la qualité de l'ajustement. Il est largement explicite. Il calculera les degrés de liberté pour vous si vous utilisez une hypothèse nulle extrinsèque si vous utilisez une hypothèse intrinsèque, vous devez entrer les degrés de liberté dans la feuille de calcul.

Les pages Web

Il existe des pages Web qui effectueront le test du chi carré ici et ici. Aucune de ces pages Web ne vous permet de définir les degrés de liberté sur la valeur appropriée pour tester une hypothèse nulle intrinsèque.

Voici un programme SAS qui utilise PROC FREQ pour un test du chi carré. Il utilise les données du pois Mendel ci-dessus. Le « nombre de POIDS » indique à SAS que la variable « nombre » est le nombre de fois où chaque valeur de « texture » ​​a été observée. L'option ZEROS lui dit d'inclure des observations avec des comptes de zéro, par exemple si vous aviez 20 pois lisses et 0 pois ridés, cela ne fait pas de mal de toujours inclure l'option ZEROS. CHISQ indique à SAS de faire un test du chi carré, et TESTP=(75 25) lui indique les pourcentages attendus. Les pourcentages attendus doivent totaliser 100. Vous devez donner les pourcentages attendus par ordre alphabétique : comme « lisse » vient avant « froissé », vous donnez les fréquences attendues pour 75 % de lissé, 25 % de froissé.

Voici un programme SAS qui utilise PROC FREQ pour un test du chi carré sur des données brutes, où vous avez répertorié chaque observation individuelle au lieu de les compter vous-même. J'ai utilisé trois points pour indiquer que je n'ai pas montré l'ensemble de données complet.

La sortie comprend les éléments suivants :

Vous rapporteriez ceci comme "chi-carré=0.3453, 1 d.f., P=0.5568."

Analyse de puissance

Pour effectuer une analyse de puissance à l'aide du programme G*Power, choisissez « Tests d'ajustement : tableaux de contingence » dans le menu Test statistique, puis choisissez « Tests du Khi-deux » dans le menu Famille de tests. Pour calculer la taille de l'effet, cliquez sur le bouton Déterminer et entrez les proportions de l'hypothèse nulle dans la première colonne et les proportions que vous espérez voir dans la deuxième colonne. Cliquez ensuite sur le bouton Calculer et transférer vers la fenêtre principale. Définissez votre alpha et votre puissance, et assurez-vous de définir les degrés de liberté (Df) pour une hypothèse nulle extrinsèque, c'est-à-dire le nombre de lignes moins une.

À titre d'exemple, disons que vous voulez faire un croisement génétique de mufliers avec un rapport attendu de 1:2:1, et que vous voulez pouvoir détecter un modèle avec 5% d'hétérozygotes de plus que prévu. Entrez 0,25, 0,50 et 0,25 dans la première colonne, entrez 0,225, 0,55 et 0,225 dans la deuxième colonne, cliquez sur Calculer et transférer vers la fenêtre principale, entrez 0,05 pour alpha, 0,80 pour la puissance et 2 pour les degrés de liberté. Si vous avez fait cela correctement, votre résultat devrait être une taille d'échantillon totale de 964.

Les références

Engels, W.R. 2009. Tests exacts pour les proportions Hardy-Weinberg. Génétique 183 : 1431-1441.

Groth, J.G. 1992. De plus amples informations sur la génétique du croisement du bec chez les becs-croisés. Auk 109:383-385.

Mannan, R.W. et E.C. Meslow. 1984. Populations d'oiseaux et caractéristiques de la végétation dans les forêts aménagées et anciennes, nord-est de l'Oregon. Journal de gestion de la faune 48 : 1219-1238.

McDonald, J.H. 1989. Analyse des composantes de sélection du Mpi locus dans l'amphipode Platorchestia platensis. Hérédité 62 : 243-249.

Shivrain, V.K., N.R. Burgos, K.A.K. Moldenhauer, R.W. McNew et T.L. Baudouin. 2006. Caractérisation des croisements spontanés entre riz Clearfield (Oryza sativa) et du riz rouge (Oryza sativa). Technologie des mauvaises herbes 20 : 576-584.

&lArr Sujet précédent|Sujet suivant &rArr Table des matières

Cette page a été révisée pour la dernière fois le 20 juillet 2015. Son adresse est http://www.biostathandbook.com/chigof.html. Il peut être cité comme :
McDonald, J.H. 2014. Manuel de statistiques biologiques (3e éd.). Éditions Sparky House, Baltimore, Maryland. Cette page Web contient le contenu des pages 45-52 dans la version imprimée.

©2014 par John H. McDonald. Vous pouvez probablement faire ce que vous voulez avec ce contenu, consultez la page des autorisations pour plus de détails.


Cinétique biochimique¶

Les propriétés des voies métaboliques d'un organisme et les réactions biochimiques sous-jacentes (à médiation enzymatique) (cinétique) sont sans doute ses «traits» les plus fondamentaux, car ils déterminent tous les traits de «performance», de la photosynthèse à la respiration, en passant par le mouvement et le taux de croissance.

Le modèle Michaelis-Menten est largement utilisé pour quantifier les données de cinétique de réaction et estimer les paramètres biochimiques clés. Ce modèle relie la vitesse de réaction biochimique ( (V) ) (vitesse de formation du produit de la réaction), à la concentration du substrat ( (S) ) :

(V_) est la vitesse maximale qui peut être atteinte dans le système de réaction, ce qui se produit à une concentration de substrat saturante (comme (S) devient vraiment grand), et

(K_M) est la constante de Michaelis ou de demi-saturation, définie comme la concentration du substrat à laquelle la vitesse de réaction est la moitié de (V_) . Ce paramètre contrôle la forme globale de la courbe, c'est-à-dire si (V) s'approche de (V_) lentement ou rapidement. Dans les réactions catalysées par une enzyme, il mesure à quel point le substrat se lie de manière lâche à l'enzyme : un grand (K_M) indique une liaison lâche de l'enzyme au substrat, un petit (K_M) indique une liaison étroite (il a des unités de concentration de substrat, (S ) ).

Les réactions biochimiques impliquant un seul substrat sont souvent bien adaptées à la cinétique de Michaelis-Menten.

Le modèle Michaelis-Menten.

Ajustons le modèle Michaelis-Menten à certaines données.

Générer des données¶

Au lieu d'utiliser de vraies données expérimentales, nous allons en fait produire certaines « données » parce que de cette façon, nous savons exactement quelles sont les erreurs dans les données. Vous pouvez également importer et utiliser votre propre ensemble de données pour les étapes d'ajustement ci-dessous.

Nous pouvons générer certaines données comme suit.

Tout d'abord, générez une séquence de concentrations de substrat de 1 à 50 par sauts de 5, en utilisant seq() (consultez la documentation pour seq() ).

  1. 1
  2. 6
  3. 11
  4. 16
  5. 21
  6. 26
  7. 31
  8. 36
  9. 41
  10. 46

Notez que parce que nous avons généré des valeurs uniquement à des intervalles de, il y aura 50/5 = 10 valeurs de « substrat ».

Générez maintenant une réponse de vitesse de réaction de Michaelis-Menten avec V_max = 12,5 et K_M = 7,1 :

Notez que notre choix de (V_ = 12.5) et (K_M = 7.1) est complètement arbitraire. Tant que nous nous assurons que (V_ > 0) , (K_H > 0) et (K_M) se situe bien dans la moitié inférieure de la plage des concentrations de substrat (0-50 ), ces « données » seront physiquement biologiquement sensibles.

Ajoutons maintenant quelques fluctuations aléatoires (normalement distribuées) aux données pour émuler l'erreur expérimentale/de mesure :


Le modèle de régression binomiale négative

Dans la section précédente, nous avons découvert le modèle de régression de Poisson et nous avons vu comment l'appliquer aux données basées sur le dénombrement, telles que l'ensemble de données des dénombrements de cyclistes sur le pont de Brooklyn :

Image de fond : Le pont de Brooklyn vu de l'île de Manhattan

Nous avons également vu que le modèle de régression de Poisson s'est avéré inadéquat pour modéliser notre ensemble de données sur les cyclistes.

Bien que le modèle de régression de Poisson ait fait des prédictions visuellement satisfaisantes… :

Nombres quotidiens réels de cyclistes, par rapport aux valeurs prédites par le modèle de régression de Poisson. (Image de l'auteur)

…ses résultats étaient statistiquement insatisfaisants :

Résumé de la formation pour le modèle de régression de Poisson montrant des valeurs inacceptablement élevées pour la déviance et les statistiques du chi-carré de Pearson (Image de l'auteur)

La faible performance du modèle était due au fait que les données n'obéissaient pas aux variance = moyenne critère requis par le modèle de régression de Poisson.

Ce critère assez strict n'est souvent pas satisfait par les données du monde réel. Souvent, la variance est supérieure à la moyenne, une propriété appelée sur-dispersion, et parfois la variance est inférieure à la moyenne, appelée sous-dispersion. Dans de tels cas, il faut utiliser un modèle de régression qui ne rendra pas le hypothèse d'équidispersionc'est-à-dire ne pas supposer que variance=moyenne.

Les Binôme négatif (NB) le modèle de régression est l'un de ces modèles qui ne rend pas le variance = moyennehypothèse sur les données.

Dans le reste de la section, nous découvrirons le modèle NB et verrons comment l'utiliser sur l'ensemble de données de dénombrement des cyclistes.

Disposition de la rubrique

La section est organisée comme suit :

  1. Nous allons découvrir un ensemble de données de comptage du monde réel que nous utiliserons dans le reste de cette section.
  2. Nous allons définir notre objectif de régression sur cet ensemble de données.
  3. Nous allons formuler la stratégie de régression en utilisant le modèle NB comme modèle de régression.
  4. Nous allons configurer le modèle NB, l'entraîner sur l'ensemble de données et faire des prédictions sur l'ensemble de données de test. Nous allons faire tout cela en utilisant le Modèles de statistiques Pythonune bibliothèque.
  5. Enfin, nous examinerons si les performances du modèle NB sont réellement supérieures à celles du modèle de Poisson.

Un ensemble de données de comptage du monde réel

Le tableau suivant contient le nombre de cyclistes traversant divers ponts de New York. Les comptages ont été mesurés quotidiennement du 1er avril 2017 au 31 octobre 2017.

Source : Bicycle Counts for East River Bridges (Source des données : NYC OpenData) (Image de l'auteur)

Nous concentrerons notre analyse sur le nombre de cyclistes traversant quotidiennement le pont de Brooklyn. Voici un tracé chronologique du décompte des cyclistes vu sur le pont de Brooklyn.

Le cycliste quotidien compte sur le pont de Brooklyn (Contexte : Le pont de Brooklyn vu de l'île de Manhattan)

Notre objectif de régression

Notre objectif de régression est de prédire le nombre de cyclistes traversant le pont de Brooklyn un jour donné.

Notre stratégie de régression

Étant donné les valeurs d'un ensemble de variables de régression pour un jour donné, nous utiliserons le modèle NB pour prédire le nombre de cyclistes sur le pont de Brooklyn ce jour-là.

Nous devons détailler cette stratégie, alors creusons plus profondément. Commençons par définir quelques variables :

oui = le vecteur de le cycliste compte vu les jours 1 par m.
Ainsi y =[y_1, y_2, y_3,…,y_n].
y_i
est le nombre de cyclistes par jour je.

X = la matrice de prédicteurs alias. régresseurs alias variables explicatives alias. variables de régression. La taille de la matrice X est un (n x m) puisqu'il y a m observations indépendantes (lignes) dans l'ensemble de données et chaque ligne contient des valeurs de m variables explicatives.

?? = le vecteur des taux d'événements. Le vecteur ?? est une caractéristique principale des ensembles de données basés sur le nombre. ?? est un vecteur de taille (n x 1). Il contient m les taux [λ_0, λ_1, _2,…,λ_n], correspondant à la m comptages observés dans le vecteur de comptages oui. Le taux _i pour l'observation 'je' est supposé conduire au nombre réel observé y_i dans le vecteur de comptage oui. Les ?? La colonne n'est pas présente dans les données d'entrée. Au lieu, ?? vecteur est une variable déduite qui est calculée par le modèle de régression pendant la phase d'apprentissage.

Pour les données de comptage des cyclistes, chacun des _i les valeurs sont définies comme le nombre de cyclistes traversant le pont en temps « unitaire » le jour je. Le temps unitaire peut être 1 seconde, 1 heure, 1 jour, 1 semaine — quel que soit l'intervalle de temps unitaire sur lequel nous voulons mesurer le taux. Ce taux _i est supposé conduire le nombre observé de cyclistes y_i le jour je.

La figure suivante illustre ces définitions sur un sous-ensemble de notre ensemble de données sur le nombre de cyclistes :

La matrice des variables de régression X et le vecteur des comptages de cyclistes observés oui (Image de l'auteur)

L'algorithme d'apprentissage du modèle de régression binomiale négative ajustera les nombres observés y à la matrice de régression X.

Une fois le modèle entraîné, nous testerons ses performances sur un ensemble de données de test d'attente que le modèle n'a pas vu du tout pendant l'entraînement.

Rappelez-vous que le modèle de régression binomiale négative ne rend pas le variance = moyenne l'hypothèse que le modèle de régression de Poisson fait.

Au lieu de cela, le modèle NB nous oblige à définir un nouveau paramètre ?? qu'il utilise pour exprimer la variance en termes de moyenne comme suit:

La fonction de variance du modèle NB (Image by Author)

En pratique, cette équation prend l'une des deux formes courantes :

La fonction de variance du modèle NB1 (Image by Author) La fonction de variance du modèle NB2 (Image by Author)

Le cas p=2 est appelé le NB2 maquette.

Nous utiliserons le modèle NB2.

Les Modèles de statistiques Python La bibliothèque prend également en charge le modèle NB2 dans le cadre de la classe Modèle linéaire généralisé qu'elle propose.

En fait, le package statsmodels.genmod.families.family a une classe entière consacrée au modèle NB2 :

Notez que la valeur par défaut de alpha=1 que cette classe suppose, n'est pas toujours la bonne valeur pour tous les ensembles de données. Alors, comment pouvons-nous déterminer la valeur correcte de ?? pour notre ensemble de données sur les décomptes de cyclistes ?

Trouver la valeur correcte de ??

Une fois de plus, MM. Cameron et Trivedi viennent à notre secours. Dans leur livre, Regression Analysis of Count Data, Cameron et Trivedi suggèrent un moyen intelligent de calculer ?? en utilisant une technique qu'ils appellent régression OLS auxiliaire sans constante. L'équation de régression qu'ils recommandent est la suivante :

Régression OLS auxiliaire pour trouver pour le modèle NB2 (Image de l'auteur)

Vous pouvez immédiatement voir la relation de l'équation aux OLS avec l'équation de régression en ligne droite : Oui = B_1*X + B_0.

Au cas où vous seriez curieux, l'équation à estimer ?? pour le modèle NB1 est la suivante :

Estimateur pour ?? pour le modèle NB1 (Image de l'auteur)

Dans le reste de cette section, nous utiliserons le modèle NB2.

On peut trouver la valeur de ??, une fois que nous avons ajusté l'équation de régression auxiliaire à l'aide de la technique de régression des moindres carrés ordinaires sur notre ensemble de données de dénombrements. Nous verrons comment faire cela bientôt.

Mais comment trouver _i qui est contenu dans l'équation de régression aux OLS?

Trouver _i, nous adaptons le modèle de régression de Poisson à notre ensemble de données ! En fait, cela nous donne le vecteur de taux complet ?? = [λ_1, _2, λ_3, …, λ_n] correspondant à tout m observations dans le jeu de données.

Nous avons maintenant tous les ingrédients en place pour la stratégie de régression NB2. Résumons-le.

Résumé de la stratégie de régression NB2

  • ÉTAPE 1: Ajustez le modèle de régression de Poisson sur l'ensemble de données. Cela nous donnera le vecteur des taux ajustés .
  • ÉTAPE 2: Ajustez le modèle de régression aux OLS sur l'ensemble de données. Cela nous donnera la valeur de .
  • ÉTAPE 3: Utilisez le ?? de l'ÉTAPE 2 pour ajuster le modèle de régression NB2 à l'ensemble de données.
  • ÉTAPE 4: Utilisez le modèle NB2 ajusté pour faire des prédictions sur les nombres attendus sur l'ensemble de données de test.
  • ÉTAPE 5 : Testez la qualité de l'ajustement du modèle NB2.

Maintenant que notre stratégie de régression est esquissée, implémentons-la en utilisant Python, Pandas et statsmodels.

Comment faire une régression binomiale négative en Python

Nous allons commencer par importer tous les packages requis.

Ensuite, créez un DataFrame pandas pour l'ensemble de données de comptage.

Nous ajouterons quelques variables de régression dérivées au X matrice.

Nous n'utiliserons pas le Date variable en tant que régresseur car elle contient une valeur de date absolue mais nous n'avons rien de spécial à faire pour supprimer Date car il est déjà consommé comme index des pandas DataFrame. Il ne nous sera donc pas disponible dans le X matrice.

Créons les ensembles de données d'entraînement et de test.

ÉTAPE 1 : Nous allons maintenant configurer et ajuster le modèle de régression de Poisson sur l'ensemble de données d'apprentissage.

Configurez l'expression de régression en notation patsy. Nous disons à patsy que BB_COUNT est notre variable dépendante et cela dépend des variables de régression : DAY, DAY_OF_WEEK, MONTH, HIGH_T, LOW_T et PRECIP.

Mettre en place le X et oui matrices pour les ensembles de données d'apprentissage et de test. patsy rend cela très simple.

En utilisant le statsmodèles GLMclasse, entraînez le modèle de régression de Poisson sur l'ensemble de données d'apprentissage.

Ceci termine l'apprentissage du modèle de régression de Poisson. Pour voir le résultat de la formation, vous pouvez imprimer le résumé de la formation.

Cela imprime ce qui suit :

Résumé de formation pour le modèle de régression de Poisson (Image par auteur)

Notre véritable intérêt réside dans le vecteur des taux ajustés ?? produit par la formation. Ce vecteur de taux est contenu dans le paramètre poisson_training_results.mu.

La sortie suivante montre les premières et dernières valeurs du vecteur ajusté :

Ceci termine ÉTAPE 1: ajustement du modèle de régression de Poisson.

ÉTAPE 2 : Nous allons maintenant ajuster le modèle de régression OLS auxiliaire sur l'ensemble de données et utiliser le modèle ajusté pour obtenir la valeur de .

Ajouter le ??vecteur comme une nouvelle colonne appelée « BB_LAMBDA » dans le bloc de données de l'ensemble de données d'apprentissage. Rappelez-vous que 's dimensions sont (n x 1). Dans notre exemple ce sera (161 x 1). Rappelez-vous également que le ??vecteur est disponible dans poisson_training_results.mu :

Ensuite, ajoutons une colonne dérivée appelée « AUX_OLS_DEP » au cadre de données pandas. Cette nouvelle colonne stockera les valeurs de la variable dépendante de la régression OLS. C'est le côté gauche de l'équation de régression OLS ci-dessous :

Régression OLS auxiliaire pour trouver pour le modèle NB2 (Image de l'auteur)

Dans l'extrait de code ci-dessus, la partie en gras est le côté gauche de l'équation aux OLSR ci-dessus.

Utilisons patsy pour former la spécification du modèle pour l'OLSR. Nous voulons dire à patsy que AUX_OLS_DEP est la variable dépendante et cela s'explique par BB_LAMBDA (qui est le vecteur de taux ??). Le « -1 » à la fin de l'expression est une syntaxe patsy pour dire : n'utilisez pas d'interception de régression, c'est-à-dire ajustez simplement une ligne droite passant par l'origine, comme suggéré par MM. Cameron et Trivedi.

Nous sommes maintenant prêts à adapter un modèle OLSR.

Configurez et adaptez le modèle OLSR :

Imprimer les paramètres de régression :

Vous verrez s'imprimer le coefficient unique suivant correspondant à la variable de régression unique BB_LAMBDA. Ce coefficient est le ?? que nous recherchions :

Est ?? statistiquement significatif?

Nous devons maintenant répondre à une question très importante. Est-ce que cette valeur de (0.037343) statistiquement significatif? Ou peut-il être considéré comme nul à toutes fins pratiques ?

Pourquoi est-il si important de le découvrir ? Rappelez-vous que si ?? est nul, alors l'équation suivante :

La fonction de variance du modèle NB2 (Image by Author)

… se réduit à Écart = moyenne. Il s'agit de la fonction de variance du modèle de régression de Poisson.

Si la valeur de n'est pas statistiquement significative, le modèle de régression binomiale négative ne peut pas mieux ajuster l'ensemble de données d'apprentissage qu'un modèle de régression de Poisson.

Les Résultats OLSR l'objet contient le t-score du coefficient de régression . Imprimons-le :

À partir d'un calculateur de valeur t, nous pouvons voir que la valeur t critique à un niveau de confiance de 99% (à droite) et des degrés de liberté = (161 observations) - (1 paramètre de dispersion α) = 160 est 2.34988. C'est confortablement inférieur à la statistique t de ?? qui était 4.814096. Nous concluons que,

Ceci termine ÉTAPE 2: La détermination de .

ÉTAPE 3 : Nous fournissons la valeur d'alpha trouvée à l'ÉTAPE 2 dans le statsmodels.genmod.families.family.NégatifBinomial et entraînez le modèle NB2 sur l'ensemble de données d'entraînement.

Il s'agit d'une opération en une étape dans statsmodels :

Comme précédemment, nous imprimerons le résumé de la formation :

Qui imprime le résumé suivant :

Résumé de la formation du modèle NB2 (Image par l'auteur)

ÉTAPE 4 : Faisons quelques prédictions à l'aide de notre modèle NB2 entraîné.

La prédiction est à nouveau une procédure en une seule étape dans statsmodels :

Imprimons les prédictions :

Voici les premières lignes du résultat :

Premières lignes de sortie de nb2_predictions.summary_frame() (Image de l'auteur)

Traçons également les décomptes prévus par rapport aux décomptes réels pour les données de test.

Nombre de cyclistes prévu par rapport au nombre réel de cyclistes sur le pont de Brooklyn à l'aide du modèle NB2 (Image par l'auteur)

Pas mal! Le modèle NB2 semble suivre plus ou moins la tendance du nombre de vélos. Et tout comme avec les performances du modèle de régression de Poisson, dans certains cas, ses prédictions sont très éloignées des valeurs réelles.

Voici le code source Python complet pour entraîner un modèle de régression binomiale négative et tester ses prédictions :

importer des pandas au format pd
à partir de matrices d'importation patsy
importer numpy en tant que np
importer des modèles de statistiques . api en tant que sm
importer des modèles de statistiques . formule . api en smf
importer matplotlib . pyplot en tant que plt
#créer un DataFrame pandas pour l'ensemble de données de comptage
df = pd. read_csv ( 'nyc_bb_bicyclist_counts.csv' , header = 0 , infer_datetime_format = True , parse_dates = [ 0 ], index_col = [ 0 ])
#ajouter quelques variables de régression dérivées à la matrice X
ds = df . indice. à_série ()
df [ 'MOIS' ] = ds . dt. mois
df [ 'DAY_OF_WEEK' ] = ds . dt. jour de la semaine
df [ 'DAY' ] = ds . dt. journée
#créer les ensembles de données d'entraînement et de test
masque = np . Aléatoire . rand ( len ( df )) < 0.8
df_train = df [ masque ]
df_test = df [

La dernière question qui nous attend est :

Statistiquement, notre modèle de régression NB2 a-t-il fait un meilleur travail que le modèle de régression de Poisson ?

ÉTAPE 5 : Mesurer la qualité de l'ajustement du modèle NB2

Du point de vue de la qualité de l'ajustement, il y a trois choses intéressantes dans le résumé d'entraînement du modèle NB2. Ils sont encadrés en rouge dans la figure ci-dessous. Nous examinerons chacun d'eux en commençant par le Log-Likelihood.

Résumé de la formation du modèle NB2 (Image par l'auteur)

Commençons par comparer le résumé d'apprentissage du modèle NB2 avec celui du modèle de régression de Poisson sur le même ensemble de données :

La première statistique à examiner est la Log-vraisemblance valeur. La vraisemblance maximale du journal a été générée par le Estimation du maximum de vraisemblance (MLE) technique qui a été exécutée par statsmodels lors de l'apprentissage des modèles de Poisson et NB2. La technique MLE est utilisée pour fixer les valeurs de tous les coefficients du modèle à certaines valeurs optimales qui maximiseront la probabilité de voir le vecteur de comptage oui dans l'ensemble de données d'entraînement. Pour en savoir plus sur le MLE et son utilisation dans l'apprentissage des modèles, veuillez vous référer à la section sur le modèle de régression de Poisson.

Le test du rapport de vraisemblance (LR)

Le test du rapport de vraisemblance est utilisé pour comparer l'ajustement de deux modèles aux données.

La statistique du test LR est simplement négative deux fois la différence dans les log-vraisemblances ajustées des deux modèles.

Dans notre cas, la log-vraisemblance pour NB2 est de -1383,2, tandis que pour le modèle de régression de Poisson, elle est de -12616. La statistique du test LR est donc 2 * (12616–1383,2) = 22465,6. Cette valeur est largement supérieure à la valeur critique de χ2(1) au niveau de signification de 1 % qui est de 5,412.

Selon le test LR, le modèle de régression NB2 entraîné a démontré une bien meilleure qualité d'ajustement sur l'ensemble de données des cyclistes par rapport au modèle de régression de Poisson.

Comparons maintenant la qualité de l'ajustement du modèle de régression NB2 en termes absolus.

Les statistiques du chi carré de Deviance et Pearson

Les valeurs rapportées de Deviance et de Pearson chi-carré pour le modèle NB2 sont respectivement de 330,99 et 310. Pour effectuer une détermination quantitative de la qualité de l'ajustement à un certain niveau de confiance, disons 95% (p = 0,05), nous recherchons la valeur dans le 2 tableau pour p=0.05 et Degrés de liberté des résidus=165. Nous comparons cette valeur du Khi carré avec la statistique observée - dans ce cas, il s'agit de la Déviance ou de la valeur du Khi carré de Pearson rapportée dans GLMResults. Nous constatons qu'à p = 0,05 et DF Residuals = 165, la valeur du chi carré d'un tableau standard du chi carré est de 195,973, ce qui est inférieur à la statistique rapportée de 330,99 et 310. Par conséquent, selon ce test, le modèle de régression NB2, bien qu'il démontre un meilleur ajustement que le modèle de régression de Poisson, est encore sous-optimal. Nous force pouvoir faire mieux.

Conclusion et prochaines étapes

Les modèles de régression de Poisson et de régression binomiale négative sont utilisés pour modéliser des ensembles de données basés sur les dénombrements. Les deux modèles produisent des résultats qui sont :

Les deux modèles sont soutenus par une théorie statistique solide et très bien comprise.

Pour effectuer une régression sur des ensembles de données basés sur des nombres, une bonne stratégie à suivre consiste à commencer par le modèle de régression de Poisson, puis à voir si vous pouvez obtenir de meilleurs résultats en utilisant le modèle de régression binomiale négative.

Si ni Poisson ni NB2 ne conviennent à votre ensemble de données, envisagez d'utiliser des techniques plus avancées telles que :

  1. Variantes complexes du modèle de régression de Poisson telles que le modèle gonflé à zéro.
  2. Le modèle d'obstacle
  3. Un modèle de régression basé sur une forêt aléatoire
  4. Un modèle de régression basé sur un réseau de neurones à mémoire à long terme (LSTM)

Références, citations et droits d'auteur

Base de données

Comptes de vélos pour les ponts de l'East River. Total quotidien des décomptes de vélos effectués mensuellement sur le pont de Brooklyn, le pont de Manhattan, le pont de Williamsburg et le pont de Queensboro. De NYC Open Data sous Conditions d'utilisation. Ensemble de données organisé à télécharger .

Liens livre et papier

Cameron A. C. et Trivedi P. K., Regression Analysis of Count Data, deuxième édition, Econometric Society Monograph No. 53, Cambridge University Press, Cambridge, mai 2013.

Images

Toutes les images sont protégées par le droit d'auteur Sachin Date sous CC-BY-NC-SA, à moins qu'une source et un droit d'auteur différents ne soient mentionnés sous l'image.

J'écris sur des sujets liés à la science des données, avec un accent particulier sur l'analyse des séries chronologiques, la régression et les prévisions.

Si vous avez aimé ce contenu, veuillez vous abonner pour recevoir de nouveaux contenus dans votre e-mail :


Matériaux et méthodes

La figure 1 montre un aperçu général du processus final d'analyse bayésienne. Il peut être divisé en trois sections principales : analyse de sensibilité, analyse bayésienne et vérification de modèle. Cependant, avant d'appliquer le processus, des données doivent être générées ou collectées et un modèle approprié choisi.

Une représentation simplifiée du processus d'analyse bayésienne.

Choix du modèle

Alors qu'un bref aperçu de l'histoire des modèles BrainSignals a été donné dans l'introduction, dans cette section, nous fournissons plus d'informations sur les spécificités des différents modèles. Le tableau 1 compare le nombre de réactions, d'équations, de relations, de réactions, de variables et de paramètres dans trois modèles différents. Le modèle BRAINCIRC de 2005 s'appuie sur un modèle circulatoire antérieur d'Ursino et Lodi [29] et sur des modèles combinés pour la biophysique du système circulatoire, la biochimie métabolique du cerveau et la fonction du muscle lisse vasculaire. Le modèle BrainSignals qui lui a succédé a simplifié le modèle « BRAINCIRC » et a ajouté un sous-modèle de métabolisme mitochondrial. Comme mentionné précédemment, afin de mieux simuler les processus physiologiques et métaboliques du cerveau du porcelet, qui est souvent utilisé comme modèle préclinique néonatal, le modèle « BrainPiglet » [4] a été développé à partir du modèle BrainSignals. Il impliquait de modifier les valeurs par défaut pour 11 des 107 paramètres utilisés et a été étendu pour inclure des mesures simulées pour les valeurs de spectroscopie de résonance magnétique qui incluaient la production de lactate et d'ATP dans les tissus cérébraux, dont les mesures sont disponibles dans les études sur les porcelets. Son extension, BrainPiglet v2, a incorporé les effets de la mort cellulaire lors d'une blessure afin d'étudier pourquoi deux porcelets ont montré des récupérations différentes après une hypoxie-ischémie, constatant que les différences pouvaient être expliquées en incluant la mort cellulaire dans le modèle [5].

Le modèle « BrainSignals Revisited » a été produit en effectuant diverses simplifications du modèle BrainSignals en identifiant diverses fonctions qui pourraient être remplacées par des approximations linéaires sans réduire l'applicabilité du modèle. Cela a réduit la complexité et le temps nécessaire pour exécuter une simulation, tout en étant capable de reproduire les mêmes résultats et le même comportement que le modèle d'origine. Ce modèle réduit du cerveau adulte a ensuite été étendu pour simuler l'hémodynamique extracérébrale afin d'étudier les facteurs de confusion avec des mesures de spectroscopie dans le proche infrarouge du cerveau, le modèle « BSX » [30].

Les modèles sont pilotés par des signaux d'entrée, tels que la pression artérielle et/ou la saturation en oxygène, et simulent les mesures du tissu cérébral de l'oxygénation, du volume sanguin et du métabolisme, ainsi que la vitesse de l'artère cérébrale moyenne (Vmca) et le taux métabolique cérébral de l'oxygène (CMRO2). Le modèle peut être divisé en environ 3 compartiments - débit sanguin, transport d'oxygène et métabolisme - avec des limites choisies pour minimiser l'interdépendance. La figure 2 décrit cela plus en détail.

Un modèle BrainSignals typique peut être divisé en quatre compartiments ou sous-modèles. Les débit sanguin le sous-modèle représente le flux sanguin des artères vers les veines via le lit capillaire et le transport d'oxygène le sous-modèle estime la diffusion de l'O dissous2 du sang capillaire au tissu cérébral. L'oxygène fourni est ensuite utilisé par le métabolisme sous-modèle. Finalement, le la mesure Le sous-modèle traduit les états internes des sous-modèles de flux sanguin et de métabolisme en sorties observables. Les entrées du modèle sont indiquées en rouge et se composent de la pression artérielle (PAA), de la saturation artérielle en oxygène (SaO2), de la pression partielle de CO2 (PaCO2) et un paramètre spécifiant la demande relative, tandis que les sorties mesurables sont affichées en bleu, y compris les signaux NIRS ainsi que la vitesse de l'artère cérébrale moyenne (Vmca) et le taux métabolique cérébral d'oxygène (CMRO2).

Tous ces modèles sont résolus à l'aide du framework BCMD et sont écrits dans un format texte simple qui peut être traduit en code C exécutable et résolu à l'aide du solveur RADAU5 [31]. Les modèles prennent une représentation d'équation différentielle-algébrique standard, de la forme : (1) où oui est un vecteur de variables d'intérêt, M est une matrice de masse constante, éventuellement singulière, spécifiant les relations entre les termes différentiels, et F est une fonction à valeur vectorielle, ayant éventuellement des paramètres supplémentaires ??. Si une rangée de M est zéro, l'équation correspondante dans F est algébrique plutôt que différentielle.

Dans ce travail, nous avons choisi d'utiliser le modèle refactorisé de BrainSignals [6], avec une modification mineure pour inclure la différence d'hémoglobine (ΔHbO2 − ΔHHb = ΔHbD) comme sortie du modèle à côté des sorties normales d'oxyhémoglobine (ΔHbO2), désoxyhémoglobine (ΔHHb), hémoglobine totale (ΔHbO2 + ΔHHb = ΔHbT), indice d'oxygénation tissulaire (TOI) et cytochrome-c-oxydase (ΔCCO). La ΔHbD et la ΔHbT sont toutes deux incluses dans l'ensemble de données expérimentales car elles sont respectivement de bons indicateurs des changements d'oxygénation du cerveau et des changements de volume sanguin cérébral, les deux étant facilement mesurés à l'aide du NIRS à large bande. Toutes les sorties NIRS, à l'exception de TOI, sont mesurées comme des changements par rapport à une valeur initiale et, par conséquent, les sorties de données et de modèle sont normalisées à une valeur initiale de 0.

Trois ensembles de données ont été utilisés pour tester le nouveau processus d'analyse du modèle bayésien. Premièrement, les données « saines » ont été simulées à l'aide du modèle BrainSignals avec les paramètres par défaut, conformément à [2, 3]. Ensuite, les mêmes entrées ont été utilisées mais avec le modèle modifié pour représenter un cerveau « altéré ». Pour ce faire, un seul paramètre a été modifié pour refléter une pathologie ou une blessure potentielle, afin de générer un ensemble de données simulé « altéré ». Enfin, nous avons utilisé les données expérimentales d'un adulte en bonne santé subissant un défi d'hypoxie.

Données simulées.

Pression partielle de CO2 (PaCO2) et la pression artérielle (PAA) ont été maintenues à leurs valeurs initiales de 40 mmHg et 100 mmHg respectivement, tandis que la saturation artérielle en oxygène (SaO2) a été modifiée pour simuler l'hypoxie par une diminution de la saturation artérielle en oxygène de 97 % à 65 %. Initialement, tous les paramètres du modèle ont été conservés à leurs valeurs par défaut afin de simuler la réponse d'un cerveau sain à ce défi. La figure 3 montre les données de saturation artérielle et la réponse du modèle sur toutes les sorties de modèle considérées.

Les figures a)-e) montrent des simulations de la réponse d'un cerveau sain à l'hypoxie, tandis que f)-j) montrent la réponse du cerveau altéré. La variable d'entrée de la saturation artérielle en oxygène est indiquée en bleu et est la même pour les deux simulations, tandis que les sorties de TOI, ΔHbO2, HHb et CCO diffèrent clairement entre les deux états cérébraux.

Après avoir simulé la réponse cérébrale saine et déterminé sa distribution des paramètres postérieurs, le modèle a été modifié pour inclure un état cérébral pathologique ou altéré. La figure 3f)–3j) montre la réponse du modèle à travers toutes les sorties de modèle considérées pour cet état cérébral altéré. La réponse des sorties du modèle au même changement de saturation artérielle est beaucoup plus faible que dans la simulation saine, le TOI ayant une valeur de base inférieure d'environ 45 % par rapport à environ 75 %. Cela a été fait en modifiant un seul paramètre pour qu'il soit en dehors de l'espace des paramètres sains. r_t , qui affecte la forme de la relation de tension musculaire, s'est avéré sensible à la fois dans le processus d'analyse de sensibilité (voir les données simulées dans les résultats de l'analyse de sensibilité) et dans l'analyse bayésienne. Ceci est clairement visible dans son postérieur marginal relativement étroit pour les données saines. Le raidissement des vaisseaux sanguins dans le cerveau a également été noté comme un facteur potentiellement important dans un certain nombre de pathologies différentes, y compris la maladie d'Alzheimer [32], et dans l'autorégulation, comme le montre la figure 4.

La figure 4a montre l'effet de différentes rt valeurs sur la forme de la courbe de tension musculaire pour une gamme de rayons de vaisseaux. On peut voir que la réduction rt élargit la courbe, entraînant une augmentation de la tension musculaire pour le même rayon de vaisseau. Les figures 4b, 4c et 4d montrent l'effet de l'augmentation et de la diminution des entrées du modèle sur le flux sanguin cérébral pour différentes valeurs de rt. Le débit sanguin cérébral (FCC) est donné en proportion du FSC normal (40 ml 100g -1 min -1 ). En changeant rt a un effet significatif sur la capacité du cerveau à s'autoréguler dans le modèle. La figure 4b montre que des pressions artérielles plus élevées entraînent une diminution du débit sanguin cérébral pour rt, par opposition à une augmentation à la valeur normale de rt = 0,018 cm. La figure 4c montre que pour les rt valeurs, CBF diminue plus rapidement que PaCO2 est diminué. La figure 4d montre que pour toutes les saturations en oxygène considérées, rt donne un CBF inférieur.

La relation de tension musculaire est définie comme (2) où Tm est la tension musculaire dans la paroi du vaisseau et a une dépendance en forme de cloche sur le rayon du vaisseau, prenant la valeur Tmax à un rayon optimal rm. rt et mm sont des paramètres déterminant la forme de la courbe. La figure 4a illustre l'effet du changement rt sur la forme de la courbe et montre que la diminution rt conduit à une augmentation de la tension musculaire pour le même rayon de vaisseau en raison d'un élargissement de la courbe en cloche. Cela peut être vu pour représenter un raidissement des vaisseaux dans le cerveau.

En changeant rt a un effet significatif sur la capacité du cerveau à s'autoréguler dans le modèle, comme le montrent les figures 4b, 4c et 4d. La figure 4b montre qu'une pression artérielle plus élevée entraîne une diminution du débit sanguin cérébral (CBF) pour rt valeurs, par opposition à une augmentation à la valeur normale de rt = 0,018 cm. La figure 4c montre que le CBF est plus faible et diminue plus rapidement pour rt valeurs en PaCO2 est diminuée et la figure 4d montre que pour toutes les saturations en oxygène considérées, rt donne un CBF inférieur.

Alors que nous nous attendions à ce que l'altération d'un système biologique réel provienne de multiples changements de paramètres, l'intention ici était de rendre la modification la plus simple possible tout en représentant un changement physiologique potentiellement réel afin de tester la méthode dans les conditions les plus simples. De plus, il convient de noter qu'un seul changement de paramètre aura des effets sur diverses variables physiologiques. Comme indiqué ci-dessous, nous appliquons également la méthode aux données expérimentales qui sont intrinsèquement plus complexes que ce simple exemple et où nous nous attendons à ce que plusieurs paramètres diffèrent de la ligne de base.

Données expérimentales.

Les données expérimentales contiendront intrinsèquement plus d'incertitude pour l'ajustement des paramètres que les données générées par le modèle lui-même. Il est donc important de tester le processus d'analyse bayésienne sur des données expérimentales ainsi que sur celles simulées à partir du modèle. Les données utilisées ont été initialement recueillies par Tisdall et al. [33] et est illustré à la figure 5. Les humains adultes en bonne santé ont vu leur saturation artérielle en oxygène réduite par rapport à la ligne de base à 80 %, tout en minimisant les changements dans la tension de dioxyde de carbone de fin d'expiration (EtCO2).

Données recueillies auprès d'un adulte en bonne santé lors d'un défi d'hypoxie. Les données systémiques utilisées comme données d'entrée du modèle sont illustrées dans les figures a), b) et c), avec des mesures NIRS à large bande illustrées dans les figures d), e), f) et g).

L'ensemble de données contient trois entrées de modèle : saturation en oxygène artériel, CO de fin d'expiration2 et la pression artérielle, avec EtCO2 convertie en pression partielle de CO2. Les données de pression artérielle ont été filtrées à l'aide d'un filtre Butterworth passe-bas de 5e ordre, avec une coupure de 0,05 Hz, pour éliminer le bruit. Le caractère fortement quantifié de la pression partielle de CO2 les données ne sont pas un problème ici car le modèle contient des filtres de premier ordre pour lisser les signaux d'entrée sur une période de temps donnée.

En termes de sorties du modèle, seuls les signaux NIRS ont été utilisés : ΔHbD, ΔHbT, ΔCCO et TOI. Toutes les données ont été rééchantillonnées à 1 Hz.

Analyse de sensibilité

Lors de l'ajustement d'un modèle aussi complexe que BrainSignals, il est important de réduire le nombre de paramètres à ajuster. Nous nous attendons à ce que tous les paramètres n'aient pas un impact significatif sur la sortie du modèle pour un ensemble donné de données d'entrée. Au lieu de cela, nous pouvons essayer de réduire le nombre de paramètres considérés par une analyse de sensibilité. Nous avons utilisé la méthode de Morris [34, 35], qui fonctionne bien avec un grand nombre de paramètres. La méthode nécessite que la série chronologique soit réduite à un seul nombre et identifie les paramètres qui ont produit le plus de variance dans cette valeur récapitulative. Auparavant, nous utilisions la distance euclidienne sur l'ensemble de la série temporelle comme valeur récapitulative, mais cela présente un certain nombre d'inconvénients importants.

Si la mesure récapitulative est la distance sur l'ensemble de la série chronologique, nous ne parvenons pas à capturer les changements spécifiques que nous savons être physiologiquement importants. Dans le cas de notre simulation d'hypoxie, par exemple, nous souhaitons sélectionner des paramètres importants pour contrôler le changement global par rapport à la ligne de base. Prendre la distance euclidienne sur l'ensemble de la série temporelle ne donne cependant pas la priorité à ce comportement. La figure 6a montre trois ensembles de données générés à partir de la même fonction de modèle de jouet (3) où une, b sont à la fois des paramètres de modèle et ?? est un bruit gaussien aléatoire.

La figure 6a montre les données générées à partir de la même fonction de test ouije = une X péché(X) + b + ??, où une, b sont à la fois des paramètres de modèle et ?? est un bruit gaussien aléatoire. X a varié de 0 à 2??, produire des données oui0, oui1 et oui2 pour les jeux de paramètres0: une = 0, b = 0,1: une = 1, b = 0 et2: une = 0, b = 2,5 respectivement. Malgré les deux oui1 et oui2 étant qualitativement très différents, ils sont très similaires lorsqu'ils sont résumés en utilisant uniquement la distance euclidienne, avec oui1 avoir une distance euclidienne ??euc,1 = 35,58 et oui2 avoir une distance euclidienne ??euc,2 = 35,44. Si nous regardons plutôt la distance ligne de base à crête (SBTP) mise à l'échelle, nous constatons que oui1 a une distance SBTP SBTP(oui1) = 240,5 et oui2 a une distance SBTP SBTP(oui2) = 0,27, ce qui donne ??SBTP,1 = 240,2 et ??SBTP,2 = 0,11. La figure 6b illustre comment la distance ligne de base à crête est définie à l'aide de X péché(X) + ?? comme exemple de signal. La distance ligne de base à crête est la distance absolue de la ligne de base à max (<|ouimax|, |ouimin|>). Ceci est ensuite divisé par la plage des données « par défaut », oui0, pour obtenir la distance en tant que proportion du changement total observé dans les données. Dans cet exemple, la distance ligne de base à crête est de 4,82 et la plage est de 0,02, ce qui donne la distance SBTP mentionnée précédemment de 240,5.

Supposons que sans modification, notre modèle produit des données oui0, avec les paramètres par défaut Θ0: une = 0, b = 0, et que le comportement que nous voulons reproduire est sinusoïdal mais, pour une raison quelconque, nous ne savons pas quel paramètre est le plus important pour produire ce comportement spécifique. Nous décidons d'entreprendre une analyse de sensibilité, en utilisant une mesure de distance quelconque comme statistique récapitulative afin d'identifier le paramètre le plus important dans la production d'un comportement sinusoïdal. Si, lors de la modification d'un paramètre, cette mesure de distance augmente, le comportement résumé par cette distance est sensible aux modifications de ce paramètre. Dans ce cas, pour produire un comportement sinusoïdal, nous voudrions le paramètre une être identifié comme important plutôt que comme paramètre b.

Pour générer nos données X a varié de 0 à 2??, produire des jeux de données oui1 et oui2 pour les jeux de paramètres1: une = 1, b = 0, où seulement une est modifié par rapport à la ligne de base, et Θ2: une = 0, b = 0,707, où seulement b est modifié par rapport à la ligne de base, respectivement. oui0 et jeu de paramètres0 fournir nos données de base. Ceci est visible sur la figure 6a. Il ressort clairement de la figure que les deux sorties oui1 et oui2 montrent un comportement très différent, le comportement que nous voulons optimiser est vu dans oui1.

Malgré les deux oui1 et oui2 étant qualitativement très différents, ils sont très similaires lorsqu'ils sont résumés en utilisant uniquement la distance euclidienne, avec oui1 avoir une distance euclidienne ??euc,1 = 10,01 et oui2 avoir une distance euclidienne ??euc,2 = 10.03. Cela signifie que nous ne parviendrions pas à identifier clairement le paramètre une comme étant important que le paramètre b en produisant un comportement sinusoïdal.

Au lieu de cela, nous pouvons définir une nouvelle mesure récapitulative, que nous appellerons la distance "échelle de base à crête" (SBTP). Nous savons que nous voulons trouver le paramètre qui détermine à quel point notre modèle est sinusoïdal. Une façon de souligner ce comportement est de trouver la distance entre notre ligne de base et le maximum ou le minimum (selon ce qui a la plus grande valeur absolue) de nos données, comme illustré sur la figure 6b. Nous mettons ensuite cela à l'échelle par la plage de notre signal "par défaut", oui0, pour le normaliser et éviter les problèmes de comparaison de données de différentes magnitudes. Cela nous donne (4) Nous trouvons ensuite la distance euclidienne entre la valeur SBTP pour nos données "par défaut", SBTP(oui0), et SBTP(oui1) et SBTP(oui2) (5) où ici je ∈ <1, 2>.

Si nous utilisons ??SBTP comme mesure sommaire, nous constatons que oui1 a une distance ??SBTP,1 = 240,2 et oui2 a une distance ??SBTP,2 = 0,11. Cela signifierait que le paramètre une pourrait être clairement identifié comme étant plus important dans la production d'un comportement sinusoïdal que le paramètre b.

Nous adaptons notre distance de la ligne de base au pic car un certain nombre de sorties du modèle varient considérablement sur différentes échelles. Par exemple, l'oxygénation cérébrale peut être mesurée par le TOI qui est un pourcentage et, comme le montre la figure 3, peut varier de plus de 10 à 20 %. Cytochrome-c-oxydase cependant, varie sur une gamme beaucoup plus petite, avec un changement de moins de 1 M étant typique. Si ces différentes échelles ne sont pas prises en compte, les paramètres qui affectent les sorties de plus grande amplitude seront identifiés comme plus sensibles que ceux qui affectent les sorties de plus petite amplitude, même si le changement relatif est significatif.

Par exemple, si vous modifiez un paramètre ??1 provoque le doublement du changement de CCO vu sur la figure 3e) jusqu'à un minimum de -2μ M , tandis qu'un changement dans un paramètre ??2 fait baisser le TOI à 55%, sans mise à l'échelle le modèle semble plus sensible à ??2 parce que l'ampleur du changement est beaucoup plus grande, même si le changement relatif est plus petit. Si nous considérons ce changement comme proportionnel à l'étendue de nos données, nous tenons compte de sa taille relative.

Il convient également de noter que ce choix de métrique est spécifique au comportement pour lequel l'optimisation est effectuée. Par exemple, dans le cas d'un signal non oscillatoire, une méthode de synthèse différente serait requise en fonction du comportement à reproduire dans ce signal particulier. Nous reconnaissons également qu'il existe une variété de méthodes différentes pour identifier un signal sinusoïdal à partir d'un signal linéaire et que notre choix de métrique ici est l'un des nombreux. Nous l'avons choisi car dans le cas de nos données d'hypercapnie, nous nous attendons à voir notre signal passer de la ligne de base à des maxima ou des minima, selon le signal, avant de revenir ensuite à la ligne de base. La distance SBTP souligne ce comportement en un seul nombre tout en étant également facilement comparable aux travaux antérieurs où la distance euclidienne a été utilisée.

Nous avons utilisé la variante de la méthode des effets élémentaires de Morris [34] conçue par Saltelli et al. [36]. Cela nous fournit deux statistiques notables : la moyenne des valeurs absolues des changements, ??*, et leur écart type, ??. Plus la valeur de ??*, plus le paramètre est influent sur la sortie, tandis que plus l'écart type est grand, plus l'influence du paramètre est non linéaire. Les dix paramètres les plus sensibles, selon ??* ont été choisis pour s'adapter au modèle. ?? n'a pas été utilisé pour déterminer les paramètres à ajuster car, tout en connaissant la non-linéarité d'un paramètre est utile, dans des travaux antérieurs [5, 6] nous avons choisi d'utiliser simplement ??* car cela donne un bon résumé de la sensibilité d'un seul paramètre et je pense qu'il est pertinent de continuer à le faire ici. La plage de paramètres considérée pour la sensibilité est la valeur par défaut ±50 %. Les sensibilités sont calculées pour chaque sortie ainsi que pour toutes les sorties conjointement. Cette sensibilité conjointe est calculée en additionnant la valeur SBTP pour chaque sortie, puis en déterminant la variabilité de ce total.

Calcul bayésien approximatif

  1. Échantillonner un vecteur de paramètre candidat ??* à partir de la diffusion de la proposition p(??).
  2. Simuler un jeu de données ouireprésentant du modèle décrit par une distribution de probabilité conditionnelle p(oui|??*).
  3. Comparer le jeu de données simulé, ouireprésentant , à l'ensemble de données expérimentales, oui, en utilisant une fonction de distance, , et la tolérance, ??. Si (oui, ouireprésentant ) ≤ ??, J'accepte ??*. La tolérance ?? ≥ 0 est le niveau d'accord souhaité entre oui et ouireprésentant .

La sortie de l'algorithme ABC utilisé sera un échantillon de la distribution p(??|(oui, oui représentant ) ≤ ??). Si ?? est suffisamment petit, alors p(??|(oui, oui représentant ) ≤ ??) sera une bonne approximation pour le postérieur p(??|oui).

Le choix de (⋅, ⋅) est important, tout comme pour l'analyse de sensibilité. Auparavant, la distance euclidienne était utilisée pour ajuster le modèle mais, comme dans le cas de l'analyse de sensibilité, cela ne tient pas compte des sorties qui varient sur différentes magnitudes. Au lieu de cela, nous avons choisi d'inclure un certain nombre d'autres mesures de distance, notamment l'erreur quadratique moyenne (RMSE) et l'erreur quadratique moyenne normalisée (NRMSE). Ceux-ci sont définis comme (6) (7) où X1 et X2 sont les deux séries chronologiques comparées, s'étendant sur t = 1 à t = T, avec T étant le nombre total de points dans le temps.

En divisant le RMSE par la plage des données, les erreurs pour les séries chronologiques qui varient sur différentes grandeurs sont comparables. Sans cela, les paramètres qui affectent principalement les sorties qui varient sur de plus grandes amplitudes sont préférentiellement optimisés. La normalisation empêche le surajustement d'une sortie au détriment des autres, offrant une distribution postérieure de l'articulation plus fiable après l'ajustement.

Après un premier ajustement exploratoire des différents ensembles de données, il a été constaté que la définition d'une valeur de tolérance absolue n'était pas un critère de sélection approprié. Cela était dû à des valeurs de distance très différentes entre les ensembles de données, toutes les combinaisons de paramètres dans l'ensemble de données sain simulé produisant des valeurs NRMSE inférieures à presque toutes les combinaisons de paramètres sur l'ensemble de données altéré.

En général, le nombre d'échantillons acceptés qui donne une approximation adéquate de la distribution a posteriori dépend du problème. Les distributions a posteriori dispersées nécessiteront finalement plus d'échantillons. Une mauvaise estimation de la postérieure peut dans la plupart des cas entraîner une large distribution prédictive postérieure qui semble donner un ajustement de mauvaise qualité car les échantillons postérieurs aberrants provoquent des biais. Pour aborder cette question de manière pragmatique, un taux d'acceptation fixe de 0,01 % a été fixé. Cela signifiait que les combinaisons de paramètres de 0,01 % avec les plus faibles (oui, oui représentant ) ont été utilisées comme postérieure. La partie postérieure a été visualisée par l'estimation de la densité du noyau sur un diagramme de paires à l'aide du logiciel de traçage Seaborn [39]. La densité prédictive a posteriori est ensuite générée par échantillonnage directement à partir des 25 fois a posteriori et le modèle simulé pour chaque échantillon. Les résultats sont agrégés et tracés, avec la médiane et l'intervalle de crédibilité à 95 % marqués sur le tracé.

Le modèle a été exécuté par lots de 10 000 000 et les combinaisons de paramètres au sein du taux d'acceptation ont été utilisées comme a posteriori. Cette taille de lot a été choisie comme compromis entre un échantillonnage suffisant de l'espace des paramètres et le temps de calcul requis pour exécuter le lot. La qualité de l'ajustement obtenu à partir de ce postérieur a déterminé si le modèle avait été exécuté un nombre suffisant de fois pour échantillonner le postérieur de manière adéquate. Si la distribution prédictive postérieure ne parvenait pas à capturer le comportement observé dans les données « vraies », alors le processus était répété jusqu'à ce qu'un ajustement plus adéquat soit obtenu.


6.5 Le test t

De nombreuses mesures expérimentales sont rapportées sous forme de nombres rationnels, et la comparaison la plus simple que nous puissions faire est entre deux groupes, disons, les cellules traitées avec une substance par rapport aux cellules qui ne le sont pas. Le test de base pour de telles situations est le test (t). La statistique de test est définie comme

où (m_1) et (m_2) sont la moyenne des valeurs des deux groupes, (s) est l'écart-type regroupé et (c) est une constante qui dépend de la taille des échantillons, c'est-à-dire , le nombre d'observations (n_1) et (n_2) dans les deux groupes. Dans les formules 97 97 Tout le monde devrait essayer de se souvenir de l'équation (6.2), alors que beaucoup de gens se débrouillent avec la recherche (6.3) quand ils en ont besoin. ,

où (x_) est le (i^< exte>) point de données dans le (g^< exte>) groupe. Essayons cela avec les données PlantGrowth de R ensembles de données emballer.

Figure 6.6 : Les données PlantGrowth.

Que retiens-tu de la comparaison avec trt1 ? Qu'en est-il pour trt1 par rapport à trt2 ?

Quelle est la signification de var.equal = TRUE dans l'appel ci-dessus à t.test ?

Nous y reviendrons dans la section 6.5.

Réécrivez l'appel ci-dessus à t.test en utilisant l'interface de formule, c'est-à-dire en utilisant le poids de notation (sim) group .

Pour calculer la valeur p, la fonction t.test utilise la théorie asymptotique pour la statistique (t) (6.2) cette théorie stipule que sous l'hypothèse nulle de moyennes égales dans les deux groupes, la statistique suit une distribution, la distribution dite (t) avec (n_1+n_2) degrés de liberté. La théorie utilise des hypothèses techniques supplémentaires, à savoir que les données sont indépendantes et proviennent d'une distribution normale avec le même écart type. Nous pourrions nous inquiéter de ces hypothèses. Il est clair qu'ils ne tiennent pas : les poids sont toujours positifs, alors que la distribution normale s'étend sur tout l'axe réel. La question est de savoir si cet écart par rapport à l'hypothèse théorique fait une réelle différence. Nous pouvons utiliser un test de permutation pour comprendre cela (nous discuterons de l'idée derrière les tests de permutation un peu plus en détail dans la section 6.5.1).

Figure 6.7 : La distribution nulle de la statistique (absolue) (t) déterminée par des simulations, c'est-à-dire par des permutations aléatoires des étiquettes de groupe.

Pourquoi avons-nous utilisé la fonction de valeur absolue ( abs ) dans le code ci-dessus ?

Tracez la distribution (paramétrique) (t) avec les degrés de liberté appropriés.

Le (t) -test se décline en plusieurs variantes, qui peuvent toutes être choisies via les paramètres de la fonction t.test. Ce que nous avons fait ci-dessus s'appelle un test non apparié à deux échantillons et à variance égale. Recto-verso fait référence au fait que nous étions ouverts à rejeter l'hypothèse nulle si le poids des plantes traitées était soit plus grand soit plus petit que celui des plantes non traitées.

Deux échantillons 98 98 Il peut être déroutant que le terme échantillon a un sens différent en statistique qu'en biologie. En biologie, un échantillon est un échantillon unique sur lequel un dosage est effectué en statistique, c'est un ensemble de mesures, par exemple, le (n_1) -tuple (left(x_<1,1>. x_<1 ,n_1> ight)) dans l'équation (6.3), qui peut comprendre plusieurs échantillons biologiques. Dans les contextes où ce double sens pourrait prêter à confusion, nous nous référons aux données d'un seul échantillon biologique comme observation. indique que nous avons comparé les moyennes de deux groupes entre eux. Une autre option consiste à comparer la moyenne d'un groupe à un nombre fixe donné.

Non apparié signifie qu'il n'y avait pas de correspondance directe 1:1 entre les mesures dans les deux groupes. Si, en revanche, les données avaient été mesurées sur les mêmes plantes avant et après traitement, alors un test apparié serait plus approprié, car il examine le changement de poids au sein de chaque plante, plutôt que leurs poids absolus.

Variance égale fait référence à la façon dont la statistique (6.2) est calculée. Cette expression est la plus appropriée si les écarts au sein de chaque groupe sont à peu près les mêmes. S'ils sont très différents, une forme alternative 99 99 Le test (t) de Welch et la théorie asymptotique associée existent.

L'hypothèse d'indépendance. Essayons maintenant quelque chose de particulier : dupliquer les données.

Notez que les estimations des moyennes de groupe (et donc de la différence) sont inchangées, mais que la valeur p est maintenant beaucoup plus petite ! On peut en conclure deux choses :

La puissance du test (t) dépend de la taille de l'échantillon.Même si les différences biologiques sous-jacentes sont les mêmes, un ensemble de données avec plus d'observations a tendance à donner des résultats plus significatifs 100 100 Vous pouvez également le voir à la façon dont les nombres (n_1) et (n_2) apparaissent dans l'équation (6.3) . .

L'hypothèse d'indépendance entre les mesures est vraiment importante. La duplication flagrante des mêmes données est une forme extrême de dépendance, mais dans une certaine mesure, la même chose se produit si vous mélangez différents niveaux de réplication. Par exemple, supposons que vous disposiez de données provenant de 8 plantes, mais que vous ayez mesuré la même chose deux fois sur chaque plante (répétitions techniques), puis prétendre qu'il s'agit maintenant de 16 mesures indépendantes est faux.

6.5.1 Essais de permutation

Que s'est-il passé ci-dessus lorsque nous avons comparé le résultat du test paramétrique (t) avec celui du test de permutation appliqué à la statistique (t) ? Il est important de réaliser qu'il s'agit de deux tests différents et que la similitude de leurs résultats est souhaitable, mais fortuite. Dans le test paramétrique, la distribution nulle de la statistique (t) découle de la distribution nulle supposée des données, une distribution normale multivariée avec covariance unitaire dans l'espace dimensionnel ((n_1+n_2)) ( mathbb^) , et est continue : la (t) -distribution. En revanche, la distribution de permutation de notre statistique de test est discrète, car elle est obtenue à partir de l'ensemble fini de ((n_1+n_2)!) permutations 101 101 Ou d'un sous-ensemble aléatoire, au cas où nous souhaitons gagner du temps de calcul. des étiquettes d'observation, à partir d'une seule instance des données (les (n_1+n_2) observations). Tout ce que nous supposons ici est que sous l'hypothèse nulle, les variables (X_<1,1>. X_<1,n_1>,X_<2,1>. X_<2,n_2>) sont échangeables. Logiquement, cette hypothèse est impliquée par celle du test paramétrique, mais est plus faible. Le test de permutation utilise la statistique (t), mais pas la distribution (t) (ni la distribution normale). Le fait que les deux tests nous aient donné un résultat très similaire est une conséquence du théorème central limite.


Matériaux et méthodes

Ici, je présente trois |$R^<2>$| s— |$R^<2>_$|⁠ , |$R^<2>_$|⁠ , et |$R^<2>_$| — qui peut être appliqué à une large classe de modèles dans lesquels la structure de variance des résidus contient des covariances. Comme stratégie d'attaque, je commencerai par une discussion détaillée de |$R^<2>_$|⁠ , dans le but d'expliquer les défis de la définition d'un |$R^<2>$| pour les données corrélées ainsi que les solutions possibles. |$R^<2>_$| est basé sur la variance des résidus d'un modèle ajusté et est lié à |$R^<2>_$| ( Nakagawa et Schielzeth, 2013), et contrastant |$R^<2>_$| avec |$R^<2>_$| génère une discussion sur ce que partiel |$R^<2>$| s révèlent sur un modèle ajusté. Je ferai ensuite des présentations plus brèves de |$R^<2>_$| et |$R^<2>_$|⁠ . Tout |$R^<2>$| s sont calculés dans le package R rr2 ( Ives et Li, 2018).

Il existe une littérature abondante sur |$R^<2>$| s pour les GLM et LMM, et une littérature croissante pour les GLMM ( Buse, 1973 Cameron et Windmeijer, 1996, 1997 Kenward et Roger, 1997 Menard, 2000 Xu, 2003 Kramer, 2005 Edwards et al., 2008 Liu et al., 2008 Orelien et Edwards, 2008 Nakagawa et Schielzeth, 2013 Jaeger et al., 2017), cette littérature constitue la base du |$R^<2>$| s qui peuvent être appliqués aux modèles phylogénétiques. Les trois |$R^<2>$| s adoptent trois approches différentes pour définir la « variance expliquée », les mêmes approches générales envisagées pour les LMM par Xu (2003). Le |$R^<2>$| discuté en premier, |$R^<2>_$| (pour la variance résiduelle), est similaire à |$R^<2>_$| présenté par Nakagawa et Schielzeth (2013) et travaux connexes ( Edwards et al., 2008 Jaeger et al., 2017 Nakagawa et al., 2017). Par conséquent, je présenterai |$R^<2>_$| d'abord en application aux GLMM puis en application aux modèles phylogénétiques.


2.S : Ajustement des modèles statistiques aux données (Résumé) - Biologie

| POURQUOI? | statistiques inférentielles | types de données | tendance centrale | mesures de variation |

| statistiques paramétriques | hypothèses de.. | test-t | ANOVA | corrélation et régression |

| non param. statistiques | hypothèses de. | test du chi carré sur un échantillon |test du chi carré sur 2 échantillons | autre non param. essais |

QUEL TEST UTILISER ? : Organigramme

introduction

En tant que biologistes en pleine maturité, vous passerez une grande partie de votre vie à collecter des données et à décider quoi en faire. Malheureusement, cette tâche a amené de nombreux membres de notre profession à osciller entre l'anxiété et l'apoplexie et cela n'a pas besoin d'être le cas. Ce guide est destiné à soulager votre douleur et à rendre les statistiques accessibles aux non-mathématiques.

Haut de page

Votre objectif en tant que scientifique est de trouver des réponses aux questions qui vous intéressent. Ceci est souvent accompli par des tests d'hypothèse. Par exemple, si vous êtes intéressé par l'effet d'un certain médicament sur la physiologie humaine, une question que vous pourriez poser est quel effet ce médicament a-t-il sur la fréquence cardiaque ? Sur la base de connaissances personnelles, de recherches en bibliothèque ou d'intuitions, vous pouvez penser que ce médicament provoquera une augmentation de la fréquence cardiaque. Cette meilleure réponse à notre question expérimentale est connue sous le nom d'hypothèse expérimentale ou de recherche et elle joue un rôle central dans la méthode scientifique. Les hypothèses expérimentales font référence à la causalité immédiate (mécaniste) ou ultime (évolutive) de phénomènes biologiques. D'autre part, les hypothèses statistiques sont des déclarations sur la généralité de nos phénomènes observés. Pour utiliser le langage des statisticiens, ce sont des déclarations sur des paramètres de population (une population dans ce cas est un ensemble complet d'individus, d'objets ou de mesures ayant une caractéristique observable commune). La chose importante à retenir à propos des hypothèses statistiques est qu'elles peuvent être évaluées par des tests statistiques.

Il existe deux types d'hypothèses statistiques dont vous devez vous préoccuper : une hypothèse nulle et une hypothèse alternative . Une hypothèse nulle est une hypothèse sans différence (d'où le mot nul). Dans l'exemple ci-dessus, notre hypothèse nulle pourrait être énoncée comme suit : « il n'y a pas de différence de fréquence cardiaque entre les individus recevant le médicament et notre groupe témoin ». étant donné le médicament et les contrôles. » Ce sont deux hypothèses qui s'excluent mutuellement et les deux doivent être énoncées avant d'analyser vos données. S'il y a un message à retenir de tout ce manuscrit, c'est bien celui-ci : toutes les statistiques ne font qu'attribuer un niveau de probabilité à votre hypothèse nulle. En d'autres termes, il vous indique la probabilité que votre hypothèse nulle soit vraie.

Haut de page

Les chercheurs font le pari des tests d'hypothèses. Il y a toujours un risque qu'ils fassent une erreur parce qu'ils ont affaire à des probabilités. Il y a deux types d'erreurs que nous pourrions commettre. Nous pourrions soit rejeter notre hypothèse nulle lorsqu'elle est vraiment vraie (une erreur de type I ou une erreur a), soit ne pas rejeter notre hypothèse nulle lorsqu'elle est vraiment fausse (une erreur de type II). Intuitivement, j'espère, vous devriez reconnaître qu'il est pire de faire une erreur de type I (dire qu'il y a une différence quand il n'y en a pas) qu'une erreur de type II (ne pas détecter une différence). Afin de minimiser le risque de commettre une erreur de type I, nous définissons généralement notre niveau de probabilité de coupure pour rejeter l'hypothèse nulle à une valeur faible. Cette valeur seuil est connue sous le nom de niveau a ou niveau de signification. Ce niveau est généralement fixé à 0,05 pour aucune autre raison qu'il est généralement reconnu comme un niveau de risque raisonnable. Un niveau a de 0,05 signifie qu'il y a 5 % de chances que notre hypothèse nulle soit correcte. A l'inverse, il y a 95% de chances que ce soit faux. Si notre analyse statistique donne un niveau de probabilité inférieur à 0,05, nous rejetterons notre hypothèse nulle et accepterons notre hypothèse alternative. S'il est supérieur à 0,05, nous n'avons pas rejeté notre hypothèse nulle (notez qu'il n'est jamais approprié d'"accepter" votre hypothèse nulle). Le premier cas (p<0.05) est généralement considéré comme une différence significative.

Haut de page

Les scientifiques collectent des données (pluriel de datum) afin de répondre aux questions. Le type de données collectées sera un déterminant important du test statistique que vous décidez d'utiliser. La biologie traite des choses que nous comptons ou mesurons. En tant que tel, nous devons nous préoccuper de deux types de données. Les choses que nous comptons, les nombres discrets, incluent tous les types de données catégorielles. Le nombre d'individus vus à un moment donné, le nombre d'individus d'une certaine couleur, le nombre de mâles et de femelles dans votre classe sont autant d'exemples de données discrètes. Avec ce type de données, un individu peut appartenir à une et une seule catégorie. Par exemple, aucun individu ne peut être à la fois un homme et une femme. Ces différentes catégories sont discrètes et la catégorie à laquelle appartient chaque individu est "connue sans erreur".

Les données que nous mesurons, les nombres continus, ne sont pas connues sans erreur. Par exemple, la distribution de la taille des pins dans une forêt dépend de la précision avec laquelle les arbres ont été mesurés. Les variables continues comprennent des paramètres couramment mesurés tels que les longueurs, les poids, les volumes, le temps, les taux, etc. Parce que les variables continues ont une distribution, elles ont l'avantage d'être analysées par des méthodes statistiques plus puissantes. Cependant, ils sont souvent plus difficiles à comprendre intuitivement.

Haut de page

Revenons à l'exemple donné dans la première section : l'effet d'un médicament sur la fréquence cardiaque. Notre expérience consiste en deux groupes de traitement, des individus recevant le médicament et des témoins recevant un placebo. Il y a 10 répétitions dans chaque groupe de traitement et les résultats (en battements par minute) sont présentés ci-dessous.

Rythme cardiaque

Traitement

1

2

3

4

5

6

7

8

9

10

Médicament

76

88

72

83

85

81

94

90

78

85

Placebo (contrôle)

76

78

76

74

83

71

79

81

68

88

Que peut-on conclure de cette expérience ? Le médicament fait-il battre le cœur plus vite ? Cela semble possible, mais nous devrions hésiter à conclure quoi que ce soit pour le moment. La difficulté vient du fait que nos données sont variables. Afin de comprendre les données continues, vous devez aborder leur interprétation en trois étapes : 1) tracer les données, 2) résumer les données et 3) analyser les données.

Les outils illustrés offrent un moyen pratique de visualiser des systèmes numériques complexes. Ainsi, notre première étape dans l'interprétation de ces données sera un graphique appelé histogramme ou distribution de fréquence. Considérons le groupe témoin. Commencez par trier les données, puis regroupez-les dans des classes de taille pratiques :

Contrôler:

68

71

74

76

76

78

79

81

83

88

La plage va de 68 à 88 et nous pouvons regrouper ces données en intervalles de cinq battements par minute, puis représenter graphiquement les résultats sous forme de graphique à barres :

Ce graphique a une belle forme symétrique. Si nous devions prendre un nombre infini d'échantillons et que le graphique présentait toujours cette symétrie, les données seraient dites "normalement distribuées". Normal , dans ce cas, ne signifie pas naturel ou attendu. C'est simplement un nom donné à ces types de distributions. Vous devriez examiner une image d'une distribution normale dans n'importe quel manuel de statistique pour noter sa structure. Cette répartition deviendra très importante par la suite.

Haut de page

La prochaine étape dans l'interprétation de vos données consiste à les résumer. Il existe deux approches pour résumer numériquement vos données. Tout d'abord, nous devons déterminer quel nombre unique représente le mieux ces données. Ce sera notre estimation de la tendance centrale. Ensuite, nous avons besoin d'un moyen d'estimer la propagation autour de notre tendance centrale.

Il existe trois mesures courantes de tendance centrale. La moyenne, la médiane et le mode. Le mode est la valeur de données qui se produit le plus fréquemment et la médiane est la valeur de données qui se produit au milieu précis de tous les points de données. Bien que ces deux mesures soient très importantes et puissent être plus appropriées que la moyenne dans de nombreux cas, la moyenne est la mesure la plus couramment utilisée en biologie. Comme la plupart d'entre vous le savent, la moyenne est la moyenne numérique de tous les points de données. Pour le calculer, vous additionnez toutes les valeurs et divisez par le nombre total de valeurs que vous avez ajoutées. Dans notre expérience, la moyenne du groupe témoin est de 77,4 tandis que la moyenne des individus ayant reçu le médicament expérimental est de 83,2.

Haut de page

La moyenne est peut-être la mesure unique la plus importante que vous puissiez utiliser pour représenter des données variables. Cependant, en utilisant uniquement la moyenne, vous n'avez aucune idée de la variation des données. Par conséquent, l'étape suivante pour résumer les données consiste à développer une mesure de l'étendue de l'écart autour de la moyenne. Commençons par simplifier notre jeu de données en ne prenant que les 5 premières observations du contrôle :

Rythme cardiaque

Traitement

1

2

3

4

5

Moyenne

Contrôler

76

78

76

74

83

77.4

Puisque nous nous intéressons à l'étalement des données autour de la moyenne, la chose la plus intuitive à faire est de faire la différence entre la moyenne et chaque observation :

76- 77.4 = -1.4
78- 77.4 = 0.6
76- 77.4 = -1.4
74- 77.4 = -3.4
83- 77.4 = 5.6

Ce que nous voulons faire, c'est estimer les écarts moyens par rapport à la moyenne (ouf !). Cependant, vous remarquerez que la somme des différences ci-dessus est égale à zéro (comme c'est toujours le cas). Un moyen simple de contourner cela est de prendre la moyenne des écarts au carré comme ceci :

Cette valeur est appelée la variance (s2) et est une mesure de variation parfaitement acceptable. Cependant, nos données d'origine étaient en battements par minute alors que celles-ci sont en (battements par minute)2. Pour obtenir quelque chose avec les mêmes unités que nos données d'origine, prenez la racine carrée :

Cette dernière valeur est appelée écart type et sa formule est donnée par :

L'écart type et la variance sont des estimations de variation très utiles. Cependant, ils sont tous deux très sensibles à la taille de l'échantillon. Les échantillons extrêmement petits gonflent ces mesures de variation et les grands échantillons les tronquent. Afin d'atténuer ce problème, vous devez toujours utiliser l'écart type et la variance non biaisés. Pour éliminer les biais de ces équations, changez le dénominateur de n à n-1 comme suit :

  • Premièrement, toutes les observations sont indépendantes des autres observations. Cette hypothèse est le produit d'une expérience soigneusement conçue et ne nécessite aucun test formel.
  • Deuxièmement, les données sont normalement distribuées, ce qui peut être facilement testé en examinant votre distribution de fréquence.
  • L'hypothèse finale est que les écarts dans les différents groupes de traitement sont les mêmes. Il existe plusieurs tests statistiques disponibles pour tester cette hypothèse (par exemple, le test F-Max, le test de Bartlett) et ils sont souvent effectués avec des analyses paramétriques sur de nombreux programmes statistiques. Cependant, si vous n'avez pas accès à un ordinateur, il est parfaitement acceptable d'examiner vos écarts-types et de rechercher des groupes de traitement avec des écarts-types beaucoup plus grands (par exemple un ordre de grandeur plus grand) que les autres.

Où x1 et x2 sont les moyennes, s21 et s22 sont les variances sans biais, et n1 et n2 sont les tailles d'échantillon des groupes de traitement un et deux respectivement. Si n1=n2 (le même nombre d'observations dans chaque groupe de traitement), cette équation se simplifie en :

Les moyennes et les variances de notre expérience de fréquence cardiaque sont résumées dans le tableau suivant :

Moyenne

Variance (impartiale)

m

Médicament

83.2

44.62

10

Contrôler

77.4

33.87

10

En substituant ces valeurs dans l'équation ci-dessus, nous trouvons que t = 2,07. Ensuite, nous recherchons la valeur critique de t dans le tableau à la fin de ce chapitre. La valeur critique est déterminée par le niveau de signification (généralement 0,05) et les degrés de liberté (df), qui sont calculés pour ce test comme df=n1+n2-2. Si la statistique t que nous avons calculée à partir de l'équation ci-dessus est égale ou supérieure à la valeur critique, nous rejetons notre hypothèse nulle et disons qu'"il existe des différences significatives entre ces groupes de traitement". df=18)=2.101. Ce nombre est plus grand que notre nombre calculé donc nous n'avons pas rejeté notre hypothèse nulle. Nous ne pouvons pas conclure avec certitude que le médicament a eu un effet sur la fréquence cardiaque.

Haut de page

B. Analyse de variance (ANOVA)

L'analyse de la variance est utilisée pour déterminer s'il existe des différences entre plus de deux groupes de traitement. Bien que les calculs impliqués dans l'ANOVA ne soient pas difficiles, ils dépassent le cadre de ce guide. Les personnes intéressées sont invitées à consulter tout texte d'introduction aux statistiques pour voir comment cela est fait.

Les hypothèses de l'ANOVA sont identiques au test t et la statistique calculée est appelée une valeur F à laquelle est associée une valeur de probabilité. Comme pour le test t, si notre valeur de probabilité est inférieure à 0,05, nous rejetons notre hypothèse nulle (dans ce cas, il n'y a pas de différence entre les groupes de traitement). Cette valeur p indique uniquement s'il existe des différences significatives entre nos groupes. Il ne nous dit pas où sont ces différences. En d'autres termes, dans une expérience avec cinq groupes de traitement et une valeur p significative, nous savons qu'il existe des différences entre ces groupes mais nous ne savons pas précisément quels groupes sont différents. Par conséquent, l'ANOVA est généralement effectuée en conjonction avec un test de comparaisons multiples post hoc (par exemple, le test de Bonferoni ou le test de Tukey) qui vous indiquera précisément où se situent les différences.

Haut de page

C. Corrélation et régression

Dans certains cas, nous ne voulons pas savoir s'il existe ou non une différence entre deux groupes, mais plutôt savoir si deux variables sont liées. Par exemple, supposons que vous disposiez des données suivantes sur la vitesse de sprint et la masse musculaire pour une variété de lézards :

Lézard

Masse musculaire (g)

Vitesse de sprint (m/s)

1

5

12

2

4

10

3

6

14

4

7

15

5

3

7

Une bonne question expérimentale pour ce type de données est : "la vitesse de sprint augmente-t-elle avec la masse musculaire ?" Afin de répondre à cette question, l'analyse appropriée est une méthode de corrélation appelée Pearson’s r . La statistique r a une plage de valeurs allant de -1,00 (corrélation négative parfaite) à 1,00 (corrélation positive parfaite). Une corrélation négative signifie que lorsqu'une variable augmente en taille, l'autre diminue. Une corrélation positive signifie que lorsqu'une variable augmente, l'autre augmente également. Lorsque r=0.00 il n'y a aucune relation entre les deux variables. L'hypothèse nulle concernant ces types d'expériences est qu'il n'y a pas de relation entre les deux variables. Autrement dit r=0.00. Ce test a les mêmes trois hypothèses que les autres analyses paramétriques, mais il a également l'hypothèse supplémentaire que la relation entre les deux variables est linéaire.

Haut de page

Les calculs pour Pearson’s r sont un processus plutôt laborieux et la plupart préféreront utiliser un ordinateur pour effectuer les calculs. Une chose importante à retenir est que corrélation n'implique pas causalité. Dans l'exemple ci-dessus, il existe une forte corrélation entre la masse musculaire et la vitesse de sprint (convainquez-vous sur un ordinateur). Cependant, il serait faux de conclure qu'une augmentation de la masse musculaire entraîne une augmentation de la vitesse de sprint. Peut-être que les sprinteurs rapides ont des muscles plus gros parce qu'ils sprintent plus (le sprint provoque une plus grande musculature) ou peut-être qu'une troisième variable, non mesurée, est à l'origine de la relation entre la vitesse de sprint et la masse musculaire.

Afin de déterminer la causalité, vous devez changer la façon dont vous menez votre expérience.Si nous souhaitons examiner si une augmentation de la masse musculaire entraîne une augmentation de la vitesse de sprint, nous devons manipuler la masse musculaire et examiner les effets sur la vitesse de sprint. Si nous sommes capables de concevoir une telle expérience, l'analyse appropriée serait alors une régression similaire au calcul de Pearson (et tout aussi laborieuse). Dans une analyse de régression, la statistique de test est appelée coefficient de variation ( R2). Le coefficient de variation a une plage de valeurs de 0% à 100%. Un R2 de 75 % signifie que « 75 % de la variation de la variable dépendante (la variable que vous mesurez) est due à la variation de la variable indépendante (la variable que vous manipulez). » Il est important de réaliser que juste parce que vous exécutez une régression n'en fait pas nécessairement une relation causale. Afin de démontrer la causalité (et d'utiliser une régression), vous devez effectuer une expérience contrôlée ou avoir une très bonne raison a priori de supposer la causalité.

Haut de page

II. Statistiques non paramétriques

La plupart des statistiques non paramétriques n'ont été développées que récemment. Ils sont très simples à utiliser, ne nécessitent pas de grands ensembles de données et ont peu d'hypothèses sous-jacentes. Bien qu'elles ne soient pas aussi puissantes que les statistiques paramétriques (c'est-à-dire qu'elles ne sont pas très efficaces pour détecter de petites différences entre les groupes), elles sont dans la plupart des cas parfaitement acceptables. Les tests non paramétriques supposent tous l'indépendance des observations. En d'autres termes, votre observation précédente n'influence pas les observations ultérieures. Si vous avez compté le nombre de pins dans une forêt en 1996 et encore en 1997, nous n'avons pas deux mesures indépendantes du nombre de pins car le nombre observé en 1996 influencera fortement le nombre observé en 1997. Cependant, compter le nombre de pins les pins de deux endroits différents seront indépendants les uns des autres.

Haut de page

A. Test du Khi deux à un échantillon

Le test du Chisquare sur un échantillon est utilisé avec des données discrètes pour déterminer si les comptes de fréquence observés diffèrent des comptes de fréquence attendus. Pour déterminer les valeurs c2, utilisez la formule suivante :

Où O est la fréquence observée, E est la fréquence attendue et K est le nombre de catégories. Par exemple, supposons que vous effectuiez le croisement monohybride suivant :

vg+vg X vg+vg

où vg+ est l'allèle de type sauvage et vg est l'allèle des ailes résiduelles. Notre hypothèse nulle est qu'il n'y a pas de différence entre le ratio observé et le ratio attendu d'un croisement monohybride (c'est-à-dire 3:1). Les descendants de ce croisement sont notés comme suit :

Type sauvage = 750 mouches
Vestige= 125 mouches

Ce sont nos fréquences observées. Le rapport attendu d'un croisement monohybride est de 3:1. Par conséquent, notre nombre attendu de mouches de type sauvage est (3/4)(875) = 656,25. Notre nombre attendu de mouches résiduelles est (1/4)(875) = 218,75. En remplaçant ces valeurs dans l'équation ci-dessus, c2=53,6. Les degrés de liberté (df) pour ce test sont le nombre de catégories moins un (k-1). En ce qui concerne le tableau des statistiques, la valeur critique de c2 pour 1 df et un niveau de signification de 0,05 est de 3,84. Puisque notre valeur calculée est tellement plus grande que la valeur critique, nous rejetons notre hypothèse nulle.

B. Test du khi carré à deux échantillons

Supposons que nous ayons un ensemble d'observations pouvant être classées selon deux types d'attributs différents. Par exemple, supposons que nous ayons capturé toutes les salamandres dans une forêt et que nous les classions selon les espèces et le type de substrat sur lequel elles ont été trouvées. Nous pouvons être intéressés de savoir s'il existe une association entre l'espèce et le substrat. Bien entendu, notre hypothèse nulle est qu'il n'y aura pas de différence entre les choix de substrats entre les différentes espèces. Vous collectez les données suivantes :


Discussion

Dans cette étude, nous proposons GxEsum, une nouvelle méthode GxE du génome entier, dont l'efficacité de calcul est mille fois supérieure aux méthodes existantes. L'estimation de GxE à l'aide des statistiques récapitulatives GWAS offre une grande flexibilité dans l'application de la méthode à de multiples traits et maladies complexes. La méthode et la théorie proposées ont été explicitement vérifiées à l'aide de simulations complètes réalisées à la fois pour le trait quantitatif et la maladie binaire. De plus, nous avons montré que le taux d'erreur de type I de la méthode proposée n'était pas gonflé par un biais de collision modéré à sévère [18] qui a entraîné une sous-estimation substantielle de l'héritabilité montrée dans notre simulation (Fichier supplémentaire 1 : Figures S10 et S11).

Dans l'analyse des données réelles, nous montrons que les effets génétiques de l'IMC ont été significativement modulés par le NEU, ce qui est en accord avec les études précédentes [9]. Il est à noter que la signification de GxE a été améliorée car nous avons utilisé une taille d'échantillon plus grande, par rapport aux études précédentes. Notre résultat est en accord avec Robinson et al. [8] qui n'ont trouvé aucune preuve GxE significative pour l'âge lors de l'analyse de l'IMC à l'aide de la UK Biobank dans laquelle les participants étaient âgés de 40 à 69 ans lors du recrutement. Cependant, un ensemble de données avec une gamme d'âges plus large est souhaitable, ce qui augmenterait la puissance de détection de GxE en fonction de l'âge. Par exemple, un GxE significatif a été trouvé dans une analyse BMI-âge utilisant un ensemble de données comprenant des échantillons âgés de 18 à 80 ans lors du recrutement [8].

Pour l'hypertension et le diabète de type 2, leur relation causale avec l'IMC a été rapportée par un certain nombre d'études utilisant la randomisation mendélienne [24, 28, 29]. Cependant, il n'était pas clair si la relation causale était due à GxE ou à autre chose, par exemple, des effets non génétiques inconnus de la maladie modulés par le statut de l'IMC. Ici, nous montrons que la relation causale entre l'hypertension et l'IMC, et celle entre le diabète de type 2 et l'IMC rapportée dans les études précédentes [24, 28, 29] peut être en partie due aux effets d'interaction GxE à l'échelle du génome. La variance de l'interaction GxE pour le diabète de type 2 est considérablement plus grande que celle de l'hypertension lorsque l'on utilise l'IMC comme exposition environnementale. Cette observation est en accord avec Hyppönen et al. [24] rapportant que le score de risque génétique de l'IMC est plus fortement associé au diabète de type 2 qu'à l'hypertension. En revanche, il n'y a aucune preuve significative d'une relation causale entre l'hypertension-WHR, l'hypertension-BFP, le diabète de type 2-DBP ou le diabète de type 2-SBP qui a été observée dans les études de randomisation mendéliennes [29,30,31] . Ce n'est pas totalement inattendu car le diabète de type 2 ou l'hypertension ont été rapportés comme étant plus significativement associés à l'IMC que d'autres variables [24, 28, 29].

L'interception estimée à partir de GxEsum doit être interprétée avec prudence. Nous montrons que les interceptions estimées n'étaient pas biaisées par rapport aux valeurs théoriquement prédites lors de l'utilisation de la simulation de traits quantitatifs, comme preuve de concept, c'est-à-dire la variance phénotypique expliquée par les effets RxE ( ( _< au_1>^2 ) ) peut être obtenu sous la forme ( _< au_1>^2 ) = (intercepter − 1 − 2 ( _^2 ) )/2 de l'éq. (4), ou plus généralement, ( _< au_1>^2 ) = (intercepter −1 − (kurtose − 1) ( _^2 ) )/(kurtose − 1) à partir de l'éq. (5). Cependant, dans les analyses de données réelles, il peut y avoir des effets de confusion supplémentaires tels que des effets d'échelle, une hétéroscédasticité résiduelle ou/et une hétérogénéité de l'échantillon qui sont souvent attribués à des facteurs inconnus. De plus, lors de l'utilisation de traits binaires, des effets d'échelle substantiels peuvent être générés (effets RxE statistiques) car seuls les statuts affectés et non affectés sont observés et les différences individuelles au sein du groupe affecté ou non affecté sont ignorées. Ces effets de confusion supplémentaires et les effets d'échelle statistique sont capturés et estimés comme une intersection dans GxEsum [10], ce qui entraîne des estimations RxE peu fiables. Il est à noter que l'estimation de RxE n'est pas le principal intérêt de GxEsum et peut être estimée de manière plus fiable dans RNM qui est conçu pour modéliser à la fois GxE et RxE.

Les méthodes GxE existantes nécessitent des données de génotype au niveau individuel qui ont souvent une restriction à partager, et leur charge de calcul est généralement élevée. De plus, on ne sait pas clairement comment ils se comportent lorsque la représentativité des échantillons est limitée, par exemple un biais de sélection dû à un collisionneur dans les échantillons de la biobanque britannique. Au contraire, l'approche proposée, GxEsum, est efficace sur le plan informatique et peut détecter correctement l'interaction GxE pour les traits de maladie quantitatifs et binaires, même en cas de biais modéré à serveur de collisionneur. Si les statistiques récapitulatives GWAS des principaux effets additifs et d'interaction estimés peuvent être rendues publiques, une méta-analyse sur plusieurs cohortes peut être possible pour une étude GxE toujours plus vaste (comme dans le contexte de la méta-analyse d'héritabilité LDSC SNP). Il existe certains problèmes selon lesquels la mesure de la variable environnementale peut ne pas être standardisée entre les cohortes d'étude, et la variable environnementale peut même ne pas être disponible dans certaines cohortes. Cependant, ces problèmes peuvent être résolus lorsque l'information sur l'exposome qui est la mesure standardisée de toutes les expositions pour les individus, complétée par le génome, est disponible.

Il existe une méthode GxE qui peut utiliser les statistiques récapitulatives GWAS, c'est-à-dire VarExp, qui a été récemment publiée. Bien que VarExp profite du calcul de l'utilisation des statistiques récapitulatives GWAS, il doit inverser la matrice de corrélation entre les SNP, ce qui empêche d'utiliser un grand nombre de SNP [32]. De plus, les cadres théoriques de GxEsum et VarExp sont fondamentalement différents en ce que ce dernier ne tient pas compte des effets de confusion tels que les effets d'échelle, l'hétérogénéité résiduelle ou RxE qui peuvent être capturés par l'interception estimée de GxEsum. Enfin, les performances de VarExp ont été vérifiées avec une magnitude limitée des effets d'interaction jusqu'à 1,5% et 0,25% de la variance phénotypique pour les traits quantitatifs et binaires, respectivement [32].

Comme RNM, GxEsum peut s'adapter aux expositions environnementales de telle sorte que les effets génétiques d'un trait peuvent être modélisés comme une fonction non linéaire d'un gradient environnemental continu. Le modificateur potentiel des effets génétiques ne se limite pas aux expositions environnementales, mais peut être étendu à de nouvelles variables à partir de données multi-omiques telles que l'expression des gènes, l'expression des protéines et les données de méthylation [33, 34]. Les scores de risque polygénique [35, 36] peuvent également être considérés comme une variable environnementale dans le modèle. Cette nouvelle approche peut permettre de disséquer une architecture biologique latente d'un trait complexe dans une future application de GxEsum.



Commentaires:

  1. Digore

    Je ne crois pas.

  2. Gladwin

    Désolé de vous interrompre, je voulais aussi exprimer mon opinion.

  3. Yor

    Thème incomparable, c'est intéressant pour moi :)

  4. Devlin

    Bravo, quels mots corrects ..., une excellente idée



Écrire un message