Qu'est-ce qu'une statistique du chi carré?
Un chi carré ( χ 2) la statistique est un test qui mesure la façon dont les attentes se comparent aux données réelles observées (ou aux résultats du modèle). Les données utilisées dans le calcul d'une statistique du chi carré doivent être aléatoires, brutes, s'excluant mutuellement, tirées de variables indépendantes et tirées d'un échantillon suffisamment grand. Par exemple, les résultats de lancer une pièce 100 fois répondent à ces critères.
Les tests du chi carré sont souvent utilisés dans les tests d'hypothèse.
La formule du chi carré est
χc2 = ∑ (Oi − Ei) 2Eiwhere: c = degrés de libertéO = valeur (s) observée (s) E = valeur (s) attendue (s) begin {aligné} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {où:} \ & c = \ text {degrés de liberté} \ & O = \ text {valeur (s) observée (s)} \ & E = \ text {valeur (s) attendue (s) } \ \ end {aligné} χc2 = ∑Ei (Oi −Ei) 2 où: c = degrés de liberté O = valeur (s) observée (s) E = valeur (s) attendue (s)
Que vous dit une statistique du chi carré?
Il existe deux principaux types de tests du chi carré: le test d'indépendance, qui pose une question de relation, telle que: «Existe-t-il une relation entre le sexe et les scores SAT?»; et le test d'adéquation, qui demande quelque chose comme "Si une pièce est lancée 100 fois, est-ce qu'elle reviendra 50 fois face et 50 fois?"
Pour ces tests, des degrés de liberté sont utilisés pour déterminer si une certaine hypothèse nulle peut être rejetée sur la base du nombre total de variables et d'échantillons dans l'expérience.
Par exemple, lorsque l'on considère les étudiants et le choix des cours, un échantillon de 30 ou 40 étudiants n'est probablement pas assez grand pour générer des données significatives. Obtenir des résultats identiques ou similaires à partir d'une étude utilisant un échantillon de 400 ou 500 étudiants est plus valable.
Dans un autre exemple, pensez à lancer une pièce 100 fois. Le résultat attendu de lancer une pièce juste 100 fois est que les têtes se lèveront 50 fois et les queues se lèveront 50 fois. Le résultat réel pourrait être que les têtes se lèvent 45 fois et les queues se lèvent 55 fois. La statistique du chi carré montre tout écart entre les résultats attendus et les résultats réels.
Exemple de test du chi carré
Imaginez qu'un sondage aléatoire ait été effectué auprès de 2 000 électeurs différents, hommes et femmes. Les personnes qui ont répondu ont été classées selon leur sexe et selon qu'elles étaient républicaines, démocrates ou indépendantes. Imaginez une grille avec les colonnes étiquetées républicain, démocrate et indépendant, et deux rangées étiquetées mâle et femelle. Supposons que les données des 2000 répondants sont les suivantes:
La première étape pour calculer la statistique du chi carré est de trouver les fréquences attendues. Celles-ci sont calculées pour chaque "cellule" de la grille. Puisqu'il y a deux catégories de genre et trois catégories d'opinion politique, il y a six fréquences totales attendues. La formule pour la fréquence attendue est:
E (r, c) = n (r) × c (r) n où: r = ligne en questionc = colonne en questionn = total correspondant \ begin {aligné} & E (r, c) = \ frac {n (r) fois c (r)} {n} \ & \ textbf {où:} \ & r = \ text {ligne en question} \ & c = \ text {colonne en question} \ & n = \ text {total correspondant} \ \ end {aligné} E (r, c) = nn (r) × c (r) où: r = ligne en questionc = colonne en questionn = total correspondant
Dans cet exemple, les fréquences attendues sont:
- E (1, 1) = (900 x 800) / 2000 = 360E (1, 2) = (900 x 800) / 2000 = 360E (1, 3) = (200 x 800) / 2000 = 80E (2, 1) = (900 x 1200) / 2000 = 540E (2, 2) = (900 x 1200) / 2000 = 540E (2, 3) = (200 x 1200) / 2000 = 120
Ensuite, ce sont des valeurs utilisées pour calculer la statistique du chi carré en utilisant la formule suivante:
Chi carré = ∑2E (r, c) où: O (r, c) = données observées pour la ligne et la colonne données \ begin {aligné} & \ text {Chi carré} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {où:} \ & O (r, c) = \ text {données observées pour la ligne et la colonne données} \ \ end {aligné} Chi carré = ∑E (r, c) 2 où: O (r, c) = données observées pour la ligne et la colonne données
Dans cet exemple, l'expression pour chaque valeur observée est:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96O (2, 2) = (600 - 540) 2/540 = 6, 67O (2, 3) = (100 - 120) 2/120 = 3, 33
La statistique du chi carré est alors égale à la somme de ces valeurs, soit 32, 41. Nous pouvons ensuite regarder un tableau statistique khi carré pour voir, étant donné les degrés de liberté dans notre configuration, si le résultat est statistiquement significatif ou non.
