Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
r_atelier4 [2018/10/10 19:37] katherinehebert [7.5 Inflation de la variance] |
r_atelier4 [2021/10/13 23:51] (current) lsherin |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | <WRAP group> | ||
+ | <WRAP centeralign> | ||
+ | <WRAP important> | ||
+ | <wrap em> __AVIS IMPORTANT__ </wrap> | ||
+ | |||
+ | <wrap em> Depuis l'automne 2021, ce wiki a été discontinué et n'est plus activement développé. </wrap> | ||
+ | |||
+ | <wrap em> Tout le matériel mis à jour et les annonces pour la série d'ateliers R du CSBQ se trouvent maintenant sur le [[https://r.qcbs.ca/fr/workshops/r-workshop-04/|site web de la série d'ateliers R du CSBQ]]. Veuillez mettre à jour vos signets en conséquence afin d'éviter les documents périmés et/ou les liens brisés. </wrap> | ||
+ | |||
+ | <wrap em> Merci de votre compréhension, </wrap> | ||
+ | |||
+ | <wrap em> Vos coordonnateurs de la série d’ateliers R du CSBQ. </wrap> | ||
+ | |||
+ | </WRAP> | ||
+ | </WRAP> | ||
+ | <WRAP clear></WRAP> | ||
+ | |||
======= Ateliers R du CSBQ ======= | ======= Ateliers R du CSBQ ======= | ||
Line 12: | Line 29: | ||
**Résumé :** Dans cet atelier, vous apprendrez comment effectuer des modèles linéaires fréquemment utilisés en écologie tels que la régression simple, l’analyse de variance (ANOVA), l’analyse de covariance (ANCOVA) et la régression multiple avec le logiciel R. Après avoir vérifié les postulats de ces modèles (visuellement et statistiquement) et transformé vos données si nécessaire, l’interprétation des résultats et leur représentation graphique n’auront plus de secrets pour vous! | **Résumé :** Dans cet atelier, vous apprendrez comment effectuer des modèles linéaires fréquemment utilisés en écologie tels que la régression simple, l’analyse de variance (ANOVA), l’analyse de covariance (ANCOVA) et la régression multiple avec le logiciel R. Après avoir vérifié les postulats de ces modèles (visuellement et statistiquement) et transformé vos données si nécessaire, l’interprétation des résultats et leur représentation graphique n’auront plus de secrets pour vous! | ||
- | Lien vers la présentation Prezi associée : [[http://prezi.com/tbpa702q4uxr/|Prezi]] | + | **Lien vers la nouvelle [[https://qcbsrworkshops.github.io/workshop04/workshop04-fr/workshop04-fr.html|présentation Rmarkdown]]** |
+ | |||
+ | //S'il vous plaît essayez-la et dites aux coordonnateurs des ateliers R ce que vous en pensez!// | ||
+ | |||
+ | Lien vers l'ancienne [[http://prezi.com/tbpa702q4uxr/|présentation Prezi]] | ||
Téléchargez les scripts R et les données pour cet atelier : | Téléchargez les scripts R et les données pour cet atelier : | ||
Line 80: | Line 101: | ||
^ ANCOVA | ::: | Continue\\ ET catégorique| 2 ou plus| 2 ou plus| | ^ ANCOVA | ::: | Continue\\ ET catégorique| 2 ou plus| 2 ou plus| | ||
^ Régression multiple | ::: | Continue| 2 ou plus| | | ^ Régression multiple | ::: | Continue| 2 ou plus| | | ||
- | ==== 1.3 Hypothèses de base du modèle linéaire ==== | + | ==== 1.3 Conditions de base du modèle linéaire ==== |
- | Pour être valide, les modèles linéaires s'appuient sur 4 hypothèses de base. Si les 4 hypothèses ne sont pas respectées, les résultats du modèle ne peuvent pas être interprétés de façon valable. | + | Pour être valide, les modèles linéaires s'appuient sur 4 conditions de base. Si les 4 conditions ne sont pas respectées, les résultats du modèle ne peuvent pas être interprétés de façon valable. |
- Les résidus sont **indépendants** | - Les résidus sont **indépendants** | ||
Line 89: | Line 110: | ||
- Les résidus sont **homoscédastiques** (i.e. leur variance est constante) | - Les résidus sont **homoscédastiques** (i.e. leur variance est constante) | ||
- | Notez que ces 4 hypothèses concernent les résidus, et non les variables réponses ou explicatives. Les résidus doivent être indépendants, c'est-à-dire qu'il n'y a pas de structure manquante dans le modèle (comme une autocorrélation spatiale ou temporelle). Les résidus doivent aussi suivre une distribution normale avec une moyenne de 0, signifiant que la majorité des résidus ont une valeur proche de 0 (i.e. l'erreur est très petite) et que la distribution est symmétrique (i.e. la variable réponse est sous-estimée autant qu'elle est surestimée). Les residus doivent être homoscédastiques, c'est-à-dire que l'erreur ne change pas beaucoup quand les variables explicatives changent de valeur. | + | Notez que ces 4 conditions concernent les résidus, et non les variables réponses ou explicatives. Les résidus doivent être indépendants, c'est-à-dire qu'il n'y a pas de structure manquante dans le modèle (comme une autocorrélation spatiale ou temporelle). Les résidus doivent aussi suivre une distribution normale avec une moyenne de 0, signifiant que la majorité des résidus ont une valeur proche de 0 (i.e. l'erreur est très petite) et que la distribution est symmétrique (i.e. la variable réponse est sous-estimée autant qu'elle est surestimée). Les residus doivent être homoscédastiques, c'est-à-dire que l'erreur ne change pas beaucoup quand les variables explicatives changent de valeur. |
- | Dans les section suivantes, nous ne répétons pas les hypothèses ci-dessus pour chaque modèle. **Prenez conscience, par contre, que ces hypothèses de base s'appliquent à tous les modèles linéaires, incluant tous ceux qui seront abordés ci-dessous.** | + | Dans les section suivantes, nous ne répétons pas les conditions ci-dessus pour chaque modèle. **Prenez conscience, par contre, que ces conditions de base s'appliquent à tous les modèles linéaires, incluant tous ceux qui seront abordés ci-dessous.** |
====1.4 Statistiques de tests et p-values==== | ====1.4 Statistiques de tests et p-values==== | ||
Line 104: | Line 125: | ||
- Visualiser les données (ceci peut aussi se faire plus tard) | - Visualiser les données (ceci peut aussi se faire plus tard) | ||
- Créer un modèle | - Créer un modèle | ||
- | - Tester les 4 hypothèses de base du modèle | + | - Tester les 4 conditions de base du modèle |
- | - Ajuster le modèle si les hypothèses de base ne sont pas respectées | + | - Ajuster le modèle si les conditions de base ne sont pas respectées |
- Interpréter les résultats du modèle | - Interpréter les résultats du modèle | ||
===== 2. Régression linéaire simple ===== | ===== 2. Régression linéaire simple ===== | ||
- | La régression linéaire simple est un type de modèle linéaire qui contient seulement une variable explicative continue. La régression détermine si les deux variables (1 explicative, et 1 réponse) sont significativement corrélés. | + | La régression linéaire simple est un type de modèle linéaire qui contient **seulement une variable explicative continue**. La régression détermine si les deux variables (1 explicative, et 1 réponse) sont significativement corrélés. |
- | Une régression linéaire simple concerne deux paramètres qui doivent être estimés: l'ordonnée à l'origine (β<sub>0</sub>) et un coefficient de corrélation (β<sub>1</sub>). | + | Une régression linéaire simple concerne deux paramètres qui doivent être estimés: l'**ordonnée à l'origine** (β<sub>0</sub>) et un **coefficient de corrélation** (β<sub>1</sub>). |
La méthode des moindres carrés est la méthode la plus couramment utilisée, et est employée par défaut dans la fonction ''lm()'' dans R. La méthode des moindres carrés fait passer une droite de manière à minimiser la somme des distances verticales au carré entre la droite et les données observées : autrement dit, la méthode vise à minimiser les résidus. | La méthode des moindres carrés est la méthode la plus couramment utilisée, et est employée par défaut dans la fonction ''lm()'' dans R. La méthode des moindres carrés fait passer une droite de manière à minimiser la somme des distances verticales au carré entre la droite et les données observées : autrement dit, la méthode vise à minimiser les résidus. | ||
Line 171: | Line 192: | ||
lm1 <- lm(birdMaxAbund birdMass) # où Y ~ X signifie Y "en fonction de" X> | lm1 <- lm(birdMaxAbund birdMass) # où Y ~ X signifie Y "en fonction de" X> | ||
</code> | </code> | ||
- | ==== 2.2 Validation des hypothèses de base ==== | + | ==== 2.2 Validation des conditions de base ==== |
<code rsplus | Graphiques de diagnostic > | <code rsplus | Graphiques de diagnostic > | ||
Line 197: | Line 218: | ||
\\ | \\ | ||
- | //**Graphique "Scale-location"**// - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, l'hypothèse de base d'homoscédasticité n'est pas respectée. | + | //**Graphique "Scale-location"**// - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, la condition de base d'homoscédasticité n'est pas respectée. |
{{:workshop_3_lm1_scale-location.png?300|}} | {{:workshop_3_lm1_scale-location.png?300|}} | ||
Line 215: | Line 236: | ||
=== Influence des observations aberrantes=== | === Influence des observations aberrantes=== | ||
- | //**Diagramme de résidus vs. influence**// - En plus de valider les hypothèses de bases ci-dessus, on s'intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test d'hypothèse de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ | + | //**Diagramme de résidus vs. influence**// - En plus de valider les hypothèses de bases ci-dessus, on s'intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test de condition de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ |
{{:workshop_3_lm1_leverage.png?300|}} | {{:workshop_3_lm1_leverage.png?300|}} | ||
==== 2.3 Normalisation des données ==== | ==== 2.3 Normalisation des données ==== | ||
- | Dans l'exemple précédent, les résidus du modèle ne suivaient pas une distribution normale, alors l'hypothèse de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''hist()'', et en vérifiant visuellement que la variable suit une distribution normale. Par exemple : | + | Dans l'exemple précédent, les résidus du modèle ne suivaient pas une distribution normale, alors la condition de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''hist()'', et en vérifiant visuellement que la variable suit une distribution normale. Par exemple : |
<code rsplus | Vérifier la normalité des données: fonction hist()> | <code rsplus | Vérifier la normalité des données: fonction hist()> | ||
Line 1396: | Line 1417: | ||
</hidden> | </hidden> | ||
- | ===== 8. Partition de la variation (section optionnelle et avancée) ===== | + | ===== 8. Partition de la variation (section avancée/facultative) ===== |
<hidden> | <hidden> | ||
- | Afin d'évaluer la contribution relative de deux ou plusieurs variables explicatives à décrire la variabilité d'une variable réponse, on peut utiliser la fonction ''varpart()'' de la librairie "vegan". Cette fonction permet de subdiviser la variation expliquée de la réponse variable entre différents groupes de variables explicatives. Par exemple, dans le jeu de données Dickcissel, on peut évaluer les contributions relatives des données climatiques et du paysage de la manière suivante : | + | Afin d'évaluer la contribution relative de deux ou plusieurs variables explicatives à la variabilité d'une variable réponse, on peut utiliser la fonction ''varpart()'' de la librairie "vegan". Cette fonction permet de subdiviser la variation expliquée de la réponse variable entre différents groupes de variables explicatives. Par exemple, dans le jeu de données Dickcissel, on peut évaluer les contributions relatives des données climatiques et du paysage de la manière suivante : |
<code rsplus| Partition de la variation> | <code rsplus| Partition de la variation> | ||
Line 1478: | Line 1499: | ||
</hidden> | </hidden> | ||
- | \\ | + | |
+ | ---- | ||
===== Allez plus loin ! ===== | ===== Allez plus loin ! ===== | ||
- | **Super ! Vous êtes maintenant prêts à effectuer des régressions, des ANOVA et des ANCOVA sur vos propres données. Cependant, rappelez-vous de toujours spécifier vos modèles correctement et de vérifier leurs suppositions avant d'interpréter les résultats en fonction des caractéristiques écologiques de vos données. | + | **Super ! Vous êtes maintenant prêts à effectuer des régressions, des ANOVA et des ANCOVA sur vos propres données. Cependant, rappelez-vous de toujours spécifier vos modèles correctement et de vérifier leurs conditions de base avant d'interpréter les résultats en fonction des caractéristiques écologiques de vos données. |
** | ** | ||