Qu'est-ce que la régression linéaire?
La régression linéaire est un graphique de données qui représente la relation linéaire entre une variable indépendante et une variable dépendante. Il est généralement utilisé pour montrer visuellement la force de la relation et la dispersion des résultats - le tout dans le but d'expliquer le comportement de la variable dépendante.
Supposons que nous voulions tester la force de la relation entre la quantité de crème glacée consommée et l'obésité. Nous prendrions la variable indépendante, la quantité de crème glacée, et la relierions à la variable dépendante, l'obésité, pour voir s'il y avait une relation. Étant donné qu'une régression est un affichage graphique de cette relation, plus la variabilité des données est faible, plus la relation est forte et plus l'ajustement à la droite de régression est serré.
Points clés à retenir
- La régression linéaire modélise la relation entre une ou plusieurs variables dépendantes et indépendantes.Une analyse de régression peut être réalisée si les variables sont indépendantes, il n'y a pas d'hétéroscédasticité et les termes d'erreur des variables ne sont pas corrélés.La modélisation de la régression linéaire dans Excel est plus facile avec le Data Analysis ToolPak.
Considérations importantes
Il y a quelques hypothèses critiques sur votre ensemble de données qui doivent être vraies pour procéder à une analyse de régression:
- Les variables doivent être vraiment indépendantes (à l'aide d'un test du chi carré). Les données ne doivent pas avoir de variances d'erreur différentes (c'est ce qu'on appelle l'hétéroscédasticité (également orthographié hétéroscédasticité)). Les termes d'erreur de chaque variable doivent être non corrélés. Sinon, cela signifie que les variables sont corrélées en série.
Si ces trois choses semblent compliquées, elles le sont. Mais l'effet d'une de ces considérations qui n'est pas vraie est une estimation biaisée. Essentiellement, vous déformeriez la relation que vous mesurez.
Sortie d'une régression dans Excel
La première étape de l'exécution d'une analyse de régression dans Excel consiste à vérifier que le plug-in Excel gratuit Data Analysis ToolPak est installé. Ce plugin facilite le calcul d'une gamme de statistiques. Il n'est pas nécessaire de tracer une ligne de régression linéaire, mais cela rend la création de tableaux de statistiques plus simple. Pour vérifier s'il est installé, sélectionnez "Données" dans la barre d'outils. Si "Data Analysis" est une option, la fonction est installée et prête à l'emploi. S'il n'est pas installé, vous pouvez demander cette option en cliquant sur le bouton Office et en sélectionnant "Options Excel".
À l'aide du Data Analysis ToolPak, la création d'une sortie de régression ne prend que quelques clics.
La variable indépendante va dans la plage X.
Compte tenu des rendements du S&P 500, disons que nous voulons savoir si nous pouvons estimer la force et la relation des rendements des actions Visa (V). Les données de rendement des actions Visa (V) remplissent la colonne 1 comme variable dépendante. Le S&P 500 renvoie des données remplit la colonne 2 comme variable indépendante.
- Sélectionnez "Données" dans la barre d'outils. Le menu "Données" s'affiche. Sélectionnez "Analyse des données". La boîte de dialogue Analyse des données - Outils d'analyse s'affiche. Dans le menu, sélectionnez "Régression" et cliquez sur "OK". Dans la boîte de dialogue Régression, cliquez sur la case "Entrer la plage Y" et sélectionnez les données variables dépendantes (stock Visa (V) retours).Cliquez sur la case "Input X Range" et sélectionnez les données variables indépendantes (S&P 500 retours).Cliquez sur "OK" pour exécuter les résultats.
Interpréter les résultats
En utilisant ces données (les mêmes que celles de notre article R au carré), nous obtenons le tableau suivant:
La valeur R 2, également connue sous le nom de coefficient de détermination, mesure la proportion de variation de la variable dépendante expliquée par la variable indépendante ou l'adéquation du modèle de régression avec les données. La valeur R 2 va de 0 à 1, et une valeur plus élevée indique un meilleur ajustement. La valeur de p, ou valeur de probabilité, varie également de 0 à 1 et indique si le test est significatif. Contrairement à la valeur R 2, une valeur p plus petite est favorable car elle indique une corrélation entre les variables dépendantes et indépendantes.
Tracer une régression dans Excel
Nous pouvons tracer une régression dans Excel en mettant en évidence les données et en les représentant sous forme de nuage de points. Pour ajouter une ligne de régression, choisissez "Disposition" dans le menu "Outils de graphique". Dans la boîte de dialogue, sélectionnez "Trendline" puis "Linear Trendline". Pour ajouter la valeur R 2, sélectionnez "Plus d'options de ligne de tendance" dans le "menu Ligne de tendance. Enfin, sélectionnez" Afficher la valeur au carré R sur le graphique ". Le résultat visuel résume la force de la relation, mais au prix de ne pas fournir autant de détails que le tableau ci-dessus.
