Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
r_atelier4 [2018/10/10 19:39]
katherinehebert [Allez plus loin !]
r_atelier4 [2019/08/08 17:52] (current)
mariehbrice [Atelier 4 : Modèles linéaires]
Line 12: Line 12:
 **Résumé :** Dans cet atelier, vous apprendrez comment effectuer des modèles linéaires fréquemment utilisés en écologie tels que la régression simple, l’analyse de variance (ANOVA), l’analyse de covariance (ANCOVA) et la régression multiple avec le logiciel R. Après avoir vérifié les postulats de ces modèles (visuellement et statistiquement) et transformé vos données si nécessaire,​ l’interprétation des résultats et leur représentation graphique n’auront plus de secrets pour vous! **Résumé :** Dans cet atelier, vous apprendrez comment effectuer des modèles linéaires fréquemment utilisés en écologie tels que la régression simple, l’analyse de variance (ANOVA), l’analyse de covariance (ANCOVA) et la régression multiple avec le logiciel R. Après avoir vérifié les postulats de ces modèles (visuellement et statistiquement) et transformé vos données si nécessaire,​ l’interprétation des résultats et leur représentation graphique n’auront plus de secrets pour vous!
  
-Lien vers la présentation Prezi associée ​: [[http://​prezi.com/​tbpa702q4uxr/​|Prezi]]+**Lien vers la nouvelle [[https://​qcbsrworkshops.github.io/​workshop04/​workshop04-fr/​workshop04-fr.html|présentation Rmarkdown]]** 
 + 
 +//S'il vous plaît essayez-la et dites aux coordonnateurs des ateliers R ce que vous en pensez!// 
 + 
 +Lien vers l'​ancienne ​[[http://​prezi.com/​tbpa702q4uxr/​|présentation ​Prezi]]
  
 Téléchargez les scripts R et les données pour cet atelier : Téléchargez les scripts R et les données pour cet atelier :
Line 80: Line 84:
 ^ ANCOVA ​             | :::        | Continue\\ ET catégorique| 2 ou plus| 2 ou plus| ^ ANCOVA ​             | :::        | Continue\\ ET catégorique| 2 ou plus| 2 ou plus|
 ^ Régression multiple | :::        | Continue| 2 ou plus| | ^ Régression multiple | :::        | Continue| 2 ou plus| |
-==== 1.3 Hypothèses ​de base du modèle linéaire ====+==== 1.3 Conditions ​de base du modèle linéaire ====
  
-Pour être valide, les modèles linéaires s'​appuient sur 4 hypothèses ​de base. Si les 4 hypothèses ​ne sont pas respectées,​ les résultats du modèle ne peuvent pas être interprétés de façon valable. ​+Pour être valide, les modèles linéaires s'​appuient sur 4 conditions ​de base. Si les 4 conditions ​ne sont pas respectées,​ les résultats du modèle ne peuvent pas être interprétés de façon valable. ​
  
   - Les résidus sont **indépendants**   - Les résidus sont **indépendants**
Line 89: Line 93:
   - Les résidus sont **homoscédastiques** (i.e. leur variance est constante)   - Les résidus sont **homoscédastiques** (i.e. leur variance est constante)
  
-Notez que ces 4 hypothèses ​concernent les résidus, et non les variables réponses ou explicatives. Les résidus doivent être indépendants,​ c'​est-à-dire qu'il n'y a pas de structure manquante dans le modèle (comme une autocorrélation spatiale ou temporelle). Les résidus doivent aussi suivre une distribution normale avec une moyenne de 0, signifiant que la majorité des résidus ont une valeur proche de 0 (i.e. l'​erreur est très petite) et que la distribution est symmétrique (i.e. la variable réponse est sous-estimée autant qu'​elle est surestimée). Les residus doivent être homoscédastiques,​ c'​est-à-dire que l'​erreur ne change pas beaucoup quand les variables explicatives changent de valeur.+Notez que ces 4 conditions ​concernent les résidus, et non les variables réponses ou explicatives. Les résidus doivent être indépendants,​ c'​est-à-dire qu'il n'y a pas de structure manquante dans le modèle (comme une autocorrélation spatiale ou temporelle). Les résidus doivent aussi suivre une distribution normale avec une moyenne de 0, signifiant que la majorité des résidus ont une valeur proche de 0 (i.e. l'​erreur est très petite) et que la distribution est symmétrique (i.e. la variable réponse est sous-estimée autant qu'​elle est surestimée). Les residus doivent être homoscédastiques,​ c'​est-à-dire que l'​erreur ne change pas beaucoup quand les variables explicatives changent de valeur.
  
-Dans les section suivantes, nous ne répétons pas les hypothèses ​ci-dessus pour chaque modèle. **Prenez conscience, par contre, que ces hypothèses ​de base s'​appliquent à tous les modèles linéaires, incluant tous ceux qui seront abordés ci-dessous.**+Dans les section suivantes, nous ne répétons pas les conditions ​ci-dessus pour chaque modèle. **Prenez conscience, par contre, que ces conditions ​de base s'​appliquent à tous les modèles linéaires, incluant tous ceux qui seront abordés ci-dessous.**
  
 ====1.4 Statistiques de tests et p-values==== ====1.4 Statistiques de tests et p-values====
Line 104: Line 108:
   - Visualiser les données (ceci peut aussi se faire plus tard)   - Visualiser les données (ceci peut aussi se faire plus tard)
   - Créer un modèle   - Créer un modèle
-  - Tester les 4 hypothèses ​de base du modèle +  - Tester les 4 conditions ​de base du modèle 
-  - Ajuster le modèle si les hypothèses ​de base ne sont pas respectées+  - Ajuster le modèle si les conditions ​de base ne sont pas respectées
   - Interpréter les résultats du modèle   - Interpréter les résultats du modèle
  
 ===== 2. Régression linéaire simple ===== ===== 2. Régression linéaire simple =====
  
-La régression linéaire simple est un type de modèle linéaire qui contient seulement une variable explicative continue. La régression détermine si les deux variables (1 explicative,​ et 1 réponse) sont significativement corrélés.+La régression linéaire simple est un type de modèle linéaire qui contient ​**seulement une variable explicative continue**. La régression détermine si les deux variables (1 explicative,​ et 1 réponse) sont significativement corrélés.
  
-Une régression linéaire simple concerne deux paramètres qui doivent être estimés: l'​ordonnée à l'​origine (β<​sub>​0</​sub>​) et un coefficient de corrélation (β<​sub>​1</​sub>​).  ​+Une régression linéaire simple concerne deux paramètres qui doivent être estimés: l'**ordonnée à l'​origine** (β<​sub>​0</​sub>​) et un **coefficient de corrélation** (β<​sub>​1</​sub>​).  ​
  
 La méthode des moindres carrés est la méthode la plus couramment utilisée, et est employée par défaut dans la fonction ''​lm()''​ dans R. La méthode des moindres carrés fait passer une droite de manière à minimiser la somme des distances verticales au carré entre la droite et les données observées : autrement dit, la méthode vise à minimiser les résidus. ​ La méthode des moindres carrés est la méthode la plus couramment utilisée, et est employée par défaut dans la fonction ''​lm()''​ dans R. La méthode des moindres carrés fait passer une droite de manière à minimiser la somme des distances verticales au carré entre la droite et les données observées : autrement dit, la méthode vise à minimiser les résidus. ​
Line 171: Line 175:
 lm1 <- lm(bird$MaxAbund ~ bird$Mass) # où Y ~ X signifie Y "en fonction de" X> lm1 <- lm(bird$MaxAbund ~ bird$Mass) # où Y ~ X signifie Y "en fonction de" X>
 </​code>​ </​code>​
-==== 2.2 Validation des hypothèses ​de base ====+==== 2.2 Validation des conditions ​de base ====
  
 <code rsplus | Graphiques de diagnostic > <code rsplus | Graphiques de diagnostic >
Line 197: Line 201:
  
 \\  \\ 
-//​**Graphique "​Scale-location"​**//​ - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, ​l'​hypothèse ​de base d'​homoscédasticité n'est pas respectée.+//​**Graphique "​Scale-location"​**//​ - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, ​la condition ​de base d'​homoscédasticité n'est pas respectée.
  
 {{:​workshop_3_lm1_scale-location.png?​300|}} {{:​workshop_3_lm1_scale-location.png?​300|}}
Line 215: Line 219:
 === Influence des observations aberrantes=== === Influence des observations aberrantes===
  
-//​**Diagramme de résidus vs. influence**//​ - En plus de valider les hypothèses de bases ci-dessus, on s'​intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test d'​hypothèse ​de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ ​+//​**Diagramme de résidus vs. influence**//​ - En plus de valider les hypothèses de bases ci-dessus, on s'​intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test de condition ​de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ ​
  
 {{:​workshop_3_lm1_leverage.png?​300|}} {{:​workshop_3_lm1_leverage.png?​300|}}
 ==== 2.3 Normalisation des données ==== ==== 2.3 Normalisation des données ====
  
-Dans l'​exemple précédent,​ les résidus du modèle ne suivaient pas une distribution normale, alors l'​hypothèse ​de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'​étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''​hist()'',​ et en vérifiant visuellement que la variable suit une distribution normale. Par exemple :+Dans l'​exemple précédent,​ les résidus du modèle ne suivaient pas une distribution normale, alors la condition ​de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'​étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''​hist()'',​ et en vérifiant visuellement que la variable suit une distribution normale. Par exemple :
  
 <code rsplus | Vérifier la normalité des données: fonction hist()> <code rsplus | Vérifier la normalité des données: fonction hist()>