Quel est le coefficient de détermination?
Le coefficient de détermination est une mesure utilisée dans l'analyse statistique qui évalue dans quelle mesure un modèle explique et prédit les résultats futurs. Il indique le niveau de variabilité expliquée dans l'ensemble de données. Le coefficient de détermination, également connu sous le nom de «R au carré», est utilisé comme guide pour mesurer la précision du modèle.
Une façon d'interpréter ce chiffre est de dire que les variables incluses dans un modèle donné expliquent environ x% de la variation observée. Donc, si R 2 = 0, 50, alors environ la moitié de la variation observée peut être expliquée par le modèle.
R-Squared
Points clés à retenir
- Le coefficient de détermination est une idée complexe centrée sur l'analyse statistique d'un futur modèle de données. Le coefficient de détermination est utilisé pour expliquer dans quelle mesure la variabilité d'un facteur peut être causée par sa relation avec un autre facteur.
Comprendre le coefficient de détermination
Le coefficient de détermination est utilisé pour expliquer dans quelle mesure la variabilité d'un facteur peut être causée par sa relation avec un autre facteur. Il s'appuie fortement sur l'analyse des tendances et est représenté comme une valeur comprise entre 0 et 1.
Plus la valeur est proche de 1, meilleure est l'ajustement ou la relation entre les deux facteurs. Le coefficient de détermination est le carré du coefficient de corrélation, également appelé «R», qui lui permet d'afficher le degré de corrélation linéaire entre deux variables.
Cette corrélation est connue sous le nom de «qualité de l'ajustement». Une valeur de 1, 0 indique un ajustement parfait, et c'est donc un modèle très fiable pour les prévisions futures, indiquant que le modèle explique toutes les variations observées. Une valeur de 0, d'autre part, indiquerait que le modèle ne parvient pas du tout à modéliser avec précision les données. Pour un modèle à plusieurs variables, tel qu'un modèle de régression multiple, le R 2 ajusté est un meilleur coefficient de détermination. En économie, une valeur R 2 supérieure à 0, 60 est considérée comme valable.
Avantages de l'analyse du coefficient de détermination
Le coefficient de détermination est le carré de la corrélation entre les scores prévus dans un ensemble de données par rapport à l'ensemble réel de scores. Il peut également être exprimé comme le carré de la corrélation entre les scores X et Y, le X étant la variable indépendante et le Y étant la variable dépendante.
Quelle que soit la représentation, un R au carré égal à 0 signifie que la variable dépendante ne peut pas être prédite à l'aide de la variable indépendante. Inversement, s'il est égal à 1, cela signifie que la dépendance d'une variable est toujours prédite par la variable indépendante.
Un coefficient de détermination qui se situe dans cette plage mesure la mesure dans laquelle la variable dépendante est prédite par la variable indépendante. Un R au carré de 0, 20, par exemple, signifie que 20% de la variable dépendante est prédite par la variable indépendante.
La qualité de l'ajustement, ou le degré de corrélation linéaire, mesure la distance entre une ligne ajustée sur un graphique et tous les points de données qui sont dispersés autour du graphique. L'ensemble de données serré aura une ligne de régression très proche des points et un niveau d'ajustement élevé, ce qui signifie que la distance entre la ligne et les données est très petite. Un bon ajustement a un R au carré proche de 1.
Cependant, le R au carré est incapable de déterminer si les points de données ou les prédictions sont biaisés. Il ne dit pas non plus à l'analyste ou à l'utilisateur si la valeur du coefficient de détermination est bonne ou non. Un R au carré bas n'est pas mauvais, par exemple, et c'est à la personne de prendre une décision basée sur le nombre R au carré.
Le coefficient de détermination ne doit pas être interprété naïvement. Par exemple, si le R au carré d'un modèle est déclaré à 75%, la variance de ses erreurs est 75% inférieure à la variance de la variable dépendante et l'écart-type de ses erreurs est 50% inférieur à l'écart-type de la personne à charge variable. L'écart type des erreurs du modèle est environ un tiers de la taille de l'écart type des erreurs que vous obtiendriez avec un modèle à constante uniquement.
Enfin, même si une valeur R au carré est grande, il peut ne pas y avoir de signification statistique des variables explicatives dans un modèle, ou la taille effective de ces variables peut être très petite en termes pratiques.
