Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
r_atelier4 [2018/10/10 19:43]
katherinehebert [2. Régression linéaire simple]
r_atelier4 [2018/10/10 19:44]
katherinehebert [2.3 Normalisation des données]
Line 197: Line 197:
  
 \\  \\ 
-//​**Graphique "​Scale-location"​**//​ - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, ​l'​hypothèse ​de base d'​homoscédasticité n'est pas respectée.+//​**Graphique "​Scale-location"​**//​ - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, ​la condition ​de base d'​homoscédasticité n'est pas respectée.
  
 {{:​workshop_3_lm1_scale-location.png?​300|}} {{:​workshop_3_lm1_scale-location.png?​300|}}
Line 215: Line 215:
 === Influence des observations aberrantes=== === Influence des observations aberrantes===
  
-//​**Diagramme de résidus vs. influence**//​ - En plus de valider les hypothèses de bases ci-dessus, on s'​intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test d'​hypothèse ​de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ ​+//​**Diagramme de résidus vs. influence**//​ - En plus de valider les hypothèses de bases ci-dessus, on s'​intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test de condition ​de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ ​
  
 {{:​workshop_3_lm1_leverage.png?​300|}} {{:​workshop_3_lm1_leverage.png?​300|}}
 ==== 2.3 Normalisation des données ==== ==== 2.3 Normalisation des données ====
  
-Dans l'​exemple précédent,​ les résidus du modèle ne suivaient pas une distribution normale, alors l'​hypothèse ​de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'​étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''​hist()'',​ et en vérifiant visuellement que la variable suit une distribution normale. Par exemple :+Dans l'​exemple précédent,​ les résidus du modèle ne suivaient pas une distribution normale, alors la condition ​de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'​étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''​hist()'',​ et en vérifiant visuellement que la variable suit une distribution normale. Par exemple :
  
 <code rsplus | Vérifier la normalité des données: fonction hist()> <code rsplus | Vérifier la normalité des données: fonction hist()>