Qu'est-ce qu'une fausse corrélation
En statistique, une fausse corrélation, ou fausse, fait référence à une connexion entre deux variables qui semble causale mais ne l'est pas. Les relations erronées ont souvent l'apparence d'une variable affectant une autre. Cette fausse corrélation est souvent causée par un troisième facteur qui n'est pas apparent au moment de l'examen, parfois appelé facteur de confusion.
Points clés à retenir
- La corrélation parasite, ou la falsification, est lorsque deux facteurs apparaissent nonchalamment liés mais ne le sont pas. L'apparition d'une relation causale est souvent due à un mouvement similaire sur un graphique qui se révèle être une coïncidence ou provoqué par un troisième facteur "confondant". peut souvent être causé par de petites tailles d’échantillons ou des paramètres arbitraires.
Fonctionnement de la corrélation parasite
Lorsque deux variables aléatoires se suivent étroitement sur un graphique, il est facile de soupçonner une corrélation ou une relation entre les deux facteurs, où un changement affecte l'autre. Mis à part la «causalité», autre sujet, cette observation peut amener le lecteur du graphique à croire que le mouvement de la variable A est lié au mouvement de la variable B ou vice versa. mais parfois, après un examen statistique plus approfondi, les mouvements alignés sont fortuits ou causés par un troisième facteur qui affecte les deux premiers. Il s'agit d'une fausse corrélation. Les recherches effectuées avec des échantillons de petite taille ou des paramètres arbitraires sont particulièrement susceptibles d'être fausses.
Exemple de corrélations parasites
Il n'est pas trop difficile de découvrir des corrélations intéressantes. Beaucoup s'avéreront cependant faux. Pour les espèces mâles de Wall Street, deux corrélations fausses populaires impliquent les femmes et les sports. La théorie de la longueur des jupes est née dans les années 1920, selon laquelle les longueurs de jupe et la direction du marché boursier sont corrélées. Si les longueurs de jupe sont longues, cela signifie que le marché boursier baisse; s'ils sont courts, le marché monte. Vers la fin du mois de janvier, on parle du soi-disant indicateur du Super Bowl, qui suggère qu'une victoire de l'équipe AFC signifie probablement que le marché boursier baissera au cours de l'année à venir, tandis qu'une victoire de l'équipe NFC présage une augmentation de la marché. Depuis 1966, l'indicateur a un taux de précision de 80%. Il s'agit d'une conversation amusante, mais ce n'est probablement pas quelque chose qu'un conseiller financier sérieux recommanderait comme stratégie d'investissement pour les clients.
Voici quelques autres exemples de corrélations parasites courantes:
- Les noyades augmentent lorsque les ventes de glaces augmentent. Il peut sembler que l'augmentation des ventes de glaces provoque plus de noyades, mais en réalité, la montée de la chaleur peut inciter plus de personnes à nager et à acheter plus de glaces. Les cadres qui disent s'il vous plaît et vous remercient plus souvent bénéficient de meilleures performances de partage.Les personnes qui portent l'équipement de l'équipe Oakland Raiders sont plus susceptibles de commettre des crimes.
Comment repérer les corrélations parasites
Les statisticiens et autres scientifiques qui analysent les données doivent être constamment à l'affût de fausses relations. Il existe de nombreuses méthodes qu'ils utilisent, notamment:
- Assurer un échantillon représentatif adéquat.Obtenir une taille d'échantillon adéquate.Méfier des points de terminaison arbitraires.Contrôler autant de variables externes que possible.Utiliser une hypothèse nulle et vérifier une forte valeur de p.
