Qu'est-ce que l'homoscédastique?
Homoskédastique (également orthographié "homoscédastique") fait référence à une condition dans laquelle la variance du terme résiduel, ou terme d'erreur, dans un modèle de régression est constante. C'est-à-dire que le terme d'erreur ne varie pas beaucoup lorsque la valeur de la variable prédictive change. Cependant, le manque d'homoscédasticité peut suggérer que le modèle de régression peut avoir besoin d'inclure des variables prédictives supplémentaires pour expliquer la performance de la variable dépendante.
Points clés à retenir
- L'homoscédasticité se produit lorsque la variance du terme d'erreur dans un modèle de régression est constante. Si la variance du terme d'erreur est homoscédastique, le modèle était bien défini. S'il y a trop de variance, le modèle peut ne pas être bien défini. L'ajout de variables prédictives supplémentaires peut aider à expliquer les performances de la variable dépendante. Il est évident qu'une hétéroscédasticité se produit lorsque la variance du terme d'erreur n'est pas constante.
Comment fonctionne Homoskedastic
L'homoscédasticité est une hypothèse de la modélisation de régression linéaire. Si la variance des erreurs autour de la droite de régression varie beaucoup, le modèle de régression peut être mal défini. L'opposé de l'homoscédasticité est l'hétéroscédasticité tout comme l'opposé de «homogène» est «hétérogène». L'hétéroscédasticité (également orthographiée «hétéroscédasticité») fait référence à une condition dans laquelle la variance du terme d'erreur dans une équation de régression n'est pas constante.
Lorsque l'on considère que la variance est la différence mesurée entre le résultat prévu et le résultat réel d'une situation donnée, la détermination de l'homoscédasticité peut aider à déterminer quels facteurs doivent être ajustés pour plus de précision.
Considérations particulières
Un modèle de régression simple, ou équation, se compose de quatre termes. À gauche se trouve la variable dépendante. Il représente le phénomène que le modèle cherche à «expliquer». Sur le côté droit se trouvent une constante, une variable prédictive et un terme résiduel ou d'erreur. Le terme d'erreur indique la quantité de variabilité dans la variable dépendante qui n'est pas expliquée par la variable prédictive.
Exemple d'homoscédastique
Par exemple, supposons que vous vouliez expliquer les résultats des tests des élèves en utilisant le temps que chaque élève a passé à étudier. Dans ce cas, les résultats des tests seraient la variable dépendante et le temps passé à étudier serait la variable prédictive.
Le terme d'erreur montrerait la quantité de variance dans les résultats des tests qui n'était pas expliquée par le temps d'étude. Si cette variance est uniforme ou homoscédastique, cela suggérerait que le modèle peut être une explication adéquate pour la performance du test - l'expliquant en termes de temps passé à étudier.
Mais la variance peut être hétéroscédastique. Un tracé des données sur les termes d'erreur peut montrer qu'une grande quantité de temps d'étude correspondait très étroitement à des scores de test élevés, mais que des scores de test de temps d'étude faibles variaient considérablement et incluaient même des scores très élevés. Ainsi, la variance des scores ne serait pas bien expliquée simplement par une variable prédictive - le temps d'étude. Dans ce cas, un autre facteur est probablement à l'œuvre et le modèle devra peut-être être amélioré afin de l'identifier ou de les identifier. Une enquête plus approfondie peut révéler que certains étudiants avaient vu les réponses au test à l'avance ou qu'ils avaient déjà passé un test similaire, et n'avaient donc pas besoin d'étudier pour ce test particulier.
Pour améliorer le modèle de régression, le chercheur ajouterait donc une autre variable explicative indiquant si un élève avait vu les réponses avant le test. Le modèle de régression aurait alors deux variables explicatives - le temps d'étude et si l'élève avait une connaissance préalable des réponses. Avec ces deux variables, une plus grande partie de la variance des résultats des tests serait expliquée et la variance du terme d'erreur pourrait alors être homoscédastique, suggérant que le modèle était bien défini.
