Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
r_atelier4 [2018/10/10 19:43] katherinehebert [2. Régression linéaire simple] |
r_atelier4 [2018/10/10 19:44] katherinehebert [2.3 Normalisation des données] |
||
---|---|---|---|
Line 197: | Line 197: | ||
\\ | \\ | ||
- | //**Graphique "Scale-location"**// - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, l'hypothèse de base d'homoscédasticité n'est pas respectée. | + | //**Graphique "Scale-location"**// - Le troisième graphique de diagnostique permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e. si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente, la condition de base d'homoscédasticité n'est pas respectée. |
{{:workshop_3_lm1_scale-location.png?300|}} | {{:workshop_3_lm1_scale-location.png?300|}} | ||
Line 215: | Line 215: | ||
=== Influence des observations aberrantes=== | === Influence des observations aberrantes=== | ||
- | //**Diagramme de résidus vs. influence**// - En plus de valider les hypothèses de bases ci-dessus, on s'intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test d'hypothèse de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ | + | //**Diagramme de résidus vs. influence**// - En plus de valider les hypothèses de bases ci-dessus, on s'intéresse aussi à déterminer si certaines observations ont une forte influence. Bien qu'on ne teste pas un test de condition de base, ceci peut influencer notre interprétation des données. Si une ou certaines observations sont aberrantes (dont, si elles ont des valeurs très différentes des autres), le modèle peut être mal ajusté en raison de leur influence exagérée sur la calculation du modèle. Si (et seulement si!) ces observations correspondent à des erreurs de mesure ou à des exceptions, elles peuvent être retirées du jeu de données.\\ |
{{:workshop_3_lm1_leverage.png?300|}} | {{:workshop_3_lm1_leverage.png?300|}} | ||
==== 2.3 Normalisation des données ==== | ==== 2.3 Normalisation des données ==== | ||
- | Dans l'exemple précédent, les résidus du modèle ne suivaient pas une distribution normale, alors l'hypothèse de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''hist()'', et en vérifiant visuellement que la variable suit une distribution normale. Par exemple : | + | Dans l'exemple précédent, les résidus du modèle ne suivaient pas une distribution normale, alors la condition de base de normalité est invalide. On peut quand même utiliser un modèle linéaire si on réussit à normaliser les données, afin de respecter la condition de normalité. L'étape suivante est donc de normaliser les données à l'aide de transformations mathématiques. Souvent, si on normalise les variables explicatives et/ou réponses, les résidus suivent une distribution normale. En plus des diagramme QQ, on peut évaluer la normalité d'une variable en traçant un histogramme avec la fonction ''hist()'', et en vérifiant visuellement que la variable suit une distribution normale. Par exemple : |
<code rsplus | Vérifier la normalité des données: fonction hist()> | <code rsplus | Vérifier la normalité des données: fonction hist()> |