Qu'est-ce qu'un facteur d'inflation de la variance?
Inflation de la variance f Le facteur d'inflation de la variance (VIF) est une mesure de la quantité de multicolinéarité dans un ensemble de variables de régression multiples. Mathématiquement, le VIF pour une variable de modèle de régression est égal au rapport de la variance globale du modèle à la variance d'un modèle qui ne comprend que cette seule variable indépendante. Ce ratio est calculé pour chaque variable indépendante. Un VIF élevé indique que la variable indépendante associée est fortement colinéaire avec les autres variables du modèle.
Points clés à retenir
- Un facteur d'inflation de la variance (VIF) fournit une mesure de la multicolinéarité parmi les variables indépendantes dans un modèle de régression multiple. Un grand VIF sur une variable indépendante indique une relation hautement colinéaire avec les autres variables qui devraient être prises en compte ou ajustées dans la structure du modèle et la sélection des variables indépendantes.
Comprendre un facteur d'inflation de la variance
Une régression multiple est utilisée lorsqu'une personne souhaite tester l'effet de plusieurs variables sur un résultat particulier. La variable dépendante est le résultat sur lequel agissent les variables indépendantes, qui sont les entrées du modèle. La multicollinéarité existe lorsqu'il existe une relation linéaire, ou corrélation, entre une ou plusieurs des variables ou entrées indépendantes. La multicolinéarité crée un problème dans la régression multiple car, comme les entrées s'influencent toutes mutuellement, elles ne sont pas réellement indépendantes et il est difficile de tester dans quelle mesure la combinaison des variables indépendantes affecte la variable dépendante, ou le résultat, dans le modèle de régression. En termes statistiques, un modèle de régression multiple où il y a une multicolinéarité élevée rendra plus difficile l'estimation de la relation entre chacune des variables indépendantes et la variable dépendante. De petits changements dans les données utilisées ou dans la structure de l'équation du modèle peuvent produire des changements importants et erratiques dans les coefficients estimés sur les variables indépendantes.
Pour garantir que le modèle est correctement spécifié et fonctionne correctement, il existe des tests qui peuvent être exécutés pour la multicolinéarité. Le facteur d'inflation de la variance est l'un de ces outils de mesure. L'utilisation de facteurs d'inflation de la variance permet d'identifier la gravité de tout problème de multicolinéarité afin que le modèle puisse être ajusté. Le facteur d'inflation de la variance mesure dans quelle mesure le comportement (variance) d'une variable indépendante est influencé ou gonflé par son interaction / corrélation avec les autres variables indépendantes. Les facteurs d'inflation de la variance permettent de mesurer rapidement dans quelle mesure une variable contribue à l'erreur-type dans la régression. Lorsqu'il existe des problèmes de multicolinéarité importants, le facteur d'inflation de la variance sera très important pour les variables concernées. Une fois ces variables identifiées, plusieurs approches peuvent être utilisées pour éliminer ou combiner des variables colinéaires, résolvant ainsi le problème de multicolinéarité.
Bien que la multicolinéarité ne réduise pas le pouvoir prédictif global d'un modèle, elle peut produire des estimations des coefficients de régression qui ne sont pas statistiquement significatifs. Dans un sens, cela peut être considéré comme une sorte de double comptage dans le modèle. Lorsque deux ou plusieurs variables indépendantes sont étroitement liées ou mesurent presque la même chose, alors l'effet sous-jacent qu'elles mesurent est pris en compte deux fois (ou plus) dans les variables, et il devient difficile, voire impossible, de dire quelle variable influence réellement le variable indépendante. C'est un problème car le but de nombreux modèles économétriques est de tester exactement ce type de relation statistique entre les variables indépendantes et la variable dépendante.
Par exemple, si un économiste veut tester s'il existe une relation statistiquement significative entre le taux de chômage (en tant que variable indépendante) et le taux d'inflation (en tant que variable dépendante). L'inclusion de variables indépendantes supplémentaires liées au taux de chômage, comme une nouvelle demande initiale de chômage, serait susceptible d'introduire la multicolinéarité dans le modèle. Le modèle global pourrait montrer un fort pouvoir explicatif, statistiquement suffisant, mais être incapable d'identifier si l'effet est principalement dû au taux de chômage ou aux nouvelles demandes de chômage initiales. C'est ce que le VIF détecterait, et cela suggérerait de supprimer une des variables du modèle ou de trouver un moyen de les consolider pour capturer leur effet conjoint, selon l'hypothèse spécifique que le chercheur souhaite tester.
