Table des matières
- Qu'est-ce qu'un test T?
- Expliquer le test T
- Résultats de tests ambigus
- Hypothèses du test T
- Calcul des tests T
- Test T corrélé (ou couplé)
- Test T à variance égale (groupé)
- Test T de variance inégale
- Déterminer le test T à utiliser
- Exemple de test T à variance inégale
Qu'est-ce qu'un test T?
Un test t est un type de statistique inférentielle utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes, qui peut être liée dans certaines caractéristiques. Il est principalement utilisé lorsque les ensembles de données, comme l'ensemble de données enregistré comme le résultat du retournement d'une pièce de monnaie 100 fois, suivraient une distribution normale et pourraient avoir des écarts inconnus. Un test t est utilisé comme outil de test d'hypothèse, ce qui permet de tester une hypothèse applicable à une population.
Un test t examine la statistique t, les valeurs de la distribution t et les degrés de liberté pour déterminer la probabilité de différence entre deux ensembles de données. Pour effectuer un test avec trois variables ou plus, il faut utiliser une analyse de variance.
T-Test
Expliquer le test T
Essentiellement, un test t nous permet de comparer les valeurs moyennes des deux ensembles de données et de déterminer si elles proviennent de la même population. Dans les exemples ci-dessus, si nous devions prendre un échantillon d'élèves de la classe A et un autre échantillon d'élèves de la classe B, nous ne nous attendrions pas à ce qu'ils aient exactement la même moyenne et l'écart-type. De même, les échantillons prélevés dans le groupe témoin nourri par placebo et ceux prélevés dans le groupe prescrit par le médicament doivent avoir une moyenne et un écart-type légèrement différents.
Mathématiquement, le test t prend un échantillon de chacun des deux ensembles et établit l'énoncé du problème en supposant une hypothèse nulle que les deux moyennes sont égales. Sur la base des formules applicables, certaines valeurs sont calculées et comparées aux valeurs standard, et l'hypothèse nulle supposée est acceptée ou rejetée en conséquence.
Si l'hypothèse nulle se qualifie pour être rejetée, cela indique que les lectures de données sont fortes et ne sont pas par hasard. Le test t n'est que l'un des nombreux tests utilisés à cette fin. Les statisticiens doivent en outre utiliser des tests autres que le test t pour examiner plus de variables et des tests avec des échantillons de plus grande taille. Pour un échantillon de grande taille, les statisticiens utilisent un test z. Les autres options de test incluent le test du chi carré et le test f.
Il existe trois types de tests t, et ils sont classés comme des tests t dépendants et indépendants.
Points clés à retenir
- Un test t est un type de statistique inférentielle utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes, qui peut être liée à certaines caractéristiques. Le test t est l'un des nombreux tests utilisés à des fins de test d'hypothèse. en statistiques.Le calcul d'un test t nécessite trois valeurs de données clés. Ils comprennent la différence entre les valeurs moyennes de chaque ensemble de données (appelée différence moyenne), l'écart-type de chaque groupe et le nombre de valeurs de données de chaque groupe. Il existe plusieurs types différents de test t qui peuvent être effectués selon sur les données et le type d'analyse requis.
Résultats de tests ambigus
Considérez qu'un fabricant de médicaments veut tester un médicament nouvellement inventé. Il suit la procédure standard consistant à essayer le médicament sur un groupe de patients et à donner un placebo à un autre groupe, appelé groupe témoin. Le placebo administré au groupe témoin est une substance sans valeur thérapeutique prévue et sert de référence pour mesurer la réponse de l'autre groupe, à qui le médicament est administré.
Après l'essai de drogue, les membres du groupe témoin nourri par placebo ont signalé une augmentation de l'espérance de vie moyenne de trois ans, tandis que les membres du groupe auxquels le nouveau médicament est prescrit signalent une augmentation de l'espérance de vie moyenne de quatre ans. Une observation instantanée peut indiquer que le médicament fonctionne effectivement, car les résultats sont meilleurs pour le groupe qui utilise le médicament. Cependant, il est également possible que l'observation soit due à une occurrence fortuite, en particulier à une chance surprenante. Un test t est utile pour conclure si les résultats sont réellement corrects et applicables à l'ensemble de la population.
Dans une école, 100 élèves de la classe A ont obtenu une moyenne de 85% avec un écart type de 3%. 100 autres élèves appartenant à la classe B ont obtenu une moyenne de 87% avec un écart type de 4%. Bien que la moyenne de la classe B soit meilleure que celle de la classe A, il n'est peut-être pas correct de sauter à la conclusion que la performance globale des élèves de la classe B est meilleure que celle des élèves de la classe A. En effet, avec le moyenne, l'écart-type de la classe B est également plus élevé que celui de la classe A. Il indique que leurs pourcentages extrêmes, sur les côtés inférieur et supérieur, étaient beaucoup plus étalés par rapport à celui de la classe A. Un test t peut aider à déterminer quelle classe s'en sortait mieux.
Hypothèses du test T
- La première hypothèse émise concernant les tests t concerne l'échelle de mesure. L'hypothèse d'un test t est que l'échelle de mesure appliquée aux données collectées suit une échelle continue ou ordinale, comme les scores d'un test de QI. La deuxième hypothèse est celle d'un échantillon aléatoire simple, que les données sont recueillies à partir d'une partie représentative de la population totale sélectionnée au hasard.La troisième hypothèse est que les données, lorsqu'elles sont tracées, donnent une distribution normale, une courbe de distribution en forme de cloche.La quatrième hypothèse est qu'un échantillon de taille raisonnablement grande est utilisé. Une taille d'échantillon plus grande signifie que la distribution des résultats devrait approcher une courbe en forme de cloche normale. L'hypothèse finale est l'homogénéité de la variance. Une variance homogène ou égale existe lorsque les écarts-types des échantillons sont approximativement égaux.
Calcul des tests T
Le calcul d'un test t nécessite trois valeurs de données clés. Ils comprennent la différence entre les valeurs moyennes de chaque ensemble de données (appelée différence moyenne), l'écart type de chaque groupe et le nombre de valeurs de données de chaque groupe.
Le résultat du test t produit la valeur t. Cette valeur t calculée est ensuite comparée à une valeur obtenue à partir d'une table de valeurs critiques (appelée la table de distribution T). Cette comparaison permet de déterminer la probabilité que la différence entre les moyennes se soit produite par hasard ou si les ensembles de données présentent réellement des différences intrinsèques. Le test t se demande si la différence entre les groupes représente une vraie différence dans l'étude ou s'il s'agit probablement d'une différence statistique dénuée de sens.
Tableaux de distribution en T
Le tableau de répartition en T est disponible en formats à une queue et à deux queues. Le premier est utilisé pour évaluer les cas qui ont une valeur fixe ou une plage avec une direction claire (positive ou négative). Par exemple, quelle est la probabilité que la valeur de sortie reste inférieure à -3, ou obtienne plus de sept lorsque vous lancez une paire de dés? Ce dernier est utilisé pour l'analyse liée à la plage, comme pour demander si les coordonnées se situent entre -2 et +2.
Les calculs peuvent être effectués avec des logiciels standard qui prennent en charge les fonctions statistiques nécessaires, comme celles trouvées dans MS Excel.
Valeurs T et degrés de liberté
Le test t produit deux valeurs en sortie: la valeur t et les degrés de liberté. La valeur t est un rapport de la différence entre la moyenne des deux ensembles d'échantillons et la différence qui existe au sein des ensembles d'échantillons. Alors que la valeur du numérateur (la différence entre la moyenne des deux ensembles d'échantillons) est simple à calculer, le dénominateur (la différence qui existe au sein des ensembles d'échantillons) peut devenir un peu compliqué selon le type de valeurs de données impliquées. Le dénominateur du rapport est une mesure de la dispersion ou de la variabilité. Des valeurs plus élevées de la valeur t, également appelée score t, indiquent qu'il existe une grande différence entre les deux ensembles d'échantillons. Plus la valeur t est petite, plus il y a de similitude entre les deux ensembles d'échantillons.
- Un grand score t indique que les groupes sont différents, tandis qu'un petit score t indique que les groupes sont similaires.
Les degrés de liberté se réfèrent aux valeurs d'une étude qui a la liberté de varier et sont essentielles pour évaluer l'importance et la validité de l'hypothèse nulle. Le calcul de ces valeurs dépend généralement du nombre d'enregistrements de données disponibles dans l'échantillon.
Test T corrélé (ou couplé)
Le test t corrélé est effectué lorsque les échantillons sont généralement constitués de paires appariées d'unités similaires, ou lorsqu'il existe des cas de mesures répétées. Par exemple, il peut y avoir des cas où les mêmes patients sont testés à plusieurs reprises - avant et après avoir reçu un traitement particulier. Dans de tels cas, chaque patient est utilisé comme échantillon témoin contre lui-même.
Cette méthode s'applique également aux cas où les échantillons sont liés d'une certaine manière ou ont des caractéristiques de correspondance, comme une analyse comparative impliquant des enfants, des parents ou des frères et sœurs. Les tests t corrélés ou appariés sont d'un type dépendant, car ils impliquent des cas où les deux ensembles d'échantillons sont liés.
La formule de calcul de la valeur t et des degrés de liberté pour un test t apparié est la suivante:
- Moyenne1 et moyenne2 sont les valeurs moyennes de chacun des ensembles d'échantillons, tandis que var1 et var2 représentent la variance de chacun des ensembles d'échantillons.
Les deux autres types appartiennent aux tests t indépendants. Les échantillons de ces types sont sélectionnés indépendamment l'un de l'autre, c'est-à-dire que les ensembles de données des deux groupes ne font pas référence aux mêmes valeurs. Ils comprennent des cas comme un groupe de 100 patients répartis en deux ensembles de 50 patients chacun. L'un des groupes devient le groupe témoin et reçoit un placebo, tandis que l'autre groupe reçoit le traitement prescrit. Cela constitue deux groupes d'échantillons indépendants qui ne sont pas appariés l'un avec l'autre.
Test T à variance égale (ou groupé)
Le test t de variance égale est utilisé lorsque le nombre d'échantillons dans chaque groupe est le même, ou lorsque la variance des deux ensembles de données est similaire. La formule suivante est utilisée pour calculer la valeur t et les degrés de liberté pour un test t de variance égale:
La Valeur T = n1 + n2−2 (n1−1) × var12 + (n2−1) × var22 × n11 + n21 moyenne1 − moyenne2 où: moyenne1 et moyenne2 = valeurs moyennes de chacune des séries d'échantillons var1 et var2 = variance de chacun des ensembles d'échantillons n1 et n2 = nombre d'enregistrements dans chaque ensemble d'échantillons
et, La Degrés de liberté = n1 + n2−2 où: n1 et n2 = nombre d'enregistrements dans chaque échantillon
Test T de variance inégale
Le test t de variance inégale est utilisé lorsque le nombre d'échantillons dans chaque groupe est différent, et la variance des deux ensembles de données est également différente. Ce test est également appelé test t de Welch. La formule suivante est utilisée pour calculer la valeur t et les degrés de liberté pour un test t de variance inégale:
La Valeur T = n1var12 + n2var22 moyenne1 − moyenne2 où: moyenne1 et moyenne2 = valeurs moyennes de chacun des ensembles d'échantillons var1 et var2 = variance de chacun des ensembles d'échantillons n1 et n2 = nombre d'enregistrements dans chaque échantillon
et, La Degrés de liberté = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2 où: var1 et var2 = Variance de chacun des ensembles d'échantillons n1 et n2 = Nombre d'enregistrements dans chaque échantillon
Détermination du test T correct à utiliser
L'organigramme suivant peut être utilisé pour déterminer le test t à utiliser en fonction des caractéristiques des ensembles d'échantillons. Les éléments clés à prendre en considération sont notamment de savoir si les enregistrements d'échantillon sont similaires, le nombre d'enregistrements de données dans chaque échantillon et la variance de chaque échantillon.
Image de Julie Bang © Investopedia 2019
Exemple de test T à variance inégale
Supposons que nous prenons une mesure diagonale des peintures reçues dans une galerie d'art. Un groupe d'échantillons comprend 10 peintures, tandis que l'autre comprend 20 peintures. Les ensembles de données, avec les valeurs moyennes et de variance correspondantes, sont les suivants:
Set 1 | Set 2 | |
19, 7 | 28, 3 | |
20, 4 | 26, 7 | |
19, 6 | 20, 1 | |
17, 8 | 23, 3 | |
18, 5 | 25, 2 | |
18, 9 | 22.1 | |
18, 3 | 17, 7 | |
18, 9 | 27, 6 | |
19, 5 | 20, 6 | |
21, 95 | 13, 7 | |
23, 2 | ||
17, 5 | ||
20, 6 | ||
18 | ||
23, 9 | ||
21, 6 | ||
24, 3 | ||
20, 4 | ||
23, 9 | ||
13, 3 | ||
Signifier | 19, 4 | 21, 6 |
Variance | 1.4 | 17, 1 |
Bien que la moyenne de l'ensemble 2 soit supérieure à celle de l'ensemble 1, nous ne pouvons pas conclure que toutes les peintures ont une longueur moyenne d'environ 21, 6 unités, car la variance de l'ensemble 2 est nettement supérieure à l'ensemble 1. Est-ce par hasard ou existe-t-il vraiment des différences dans la population globale de toutes les peintures reçues dans la galerie d'art? Nous établissons le problème en supposant l'hypothèse nulle que la moyenne est la même entre les deux ensembles d'échantillons et effectuons un test t pour confirmer si l'hypothèse est vraie.
Étant donné que le nombre d'enregistrements de données est différent (n1 = 10 et n2 = 20) et que la variance est également différente, la valeur t et les degrés de liberté sont calculés pour l'ensemble de données ci-dessus en utilisant la formule mentionnée dans le test T de variance inégale section.
La valeur t est de -2, 24787. Étant donné que le signe moins peut être ignoré lors de la comparaison des deux valeurs t, la valeur calculée est de 2, 24787.
La valeur des degrés de liberté est de 24, 38 et est réduite à 24, en raison de la définition de la formule exigeant l'arrondi de la valeur à la valeur entière la plus faible possible.
Chaque fois qu'une distribution normale est supposée, on peut spécifier un niveau de probabilité (niveau alpha, niveau de signification, p ) comme critère d'acceptation. Dans la plupart des cas, une valeur de 5% peut être supposée.
En utilisant la valeur du degré de liberté comme 24 et un niveau de signification de 5%, un examen du tableau de distribution de la valeur t donne une valeur de 2, 064. La comparaison de cette valeur avec la valeur calculée de 2, 247 indique que la valeur t calculée est supérieure à la valeur du tableau à un niveau de signification de 5%. Par conséquent, il est prudent de rejeter l'hypothèse nulle selon laquelle il n'y a pas de différence entre les moyennes. L'ensemble de la population a des différences intrinsèques, et ce n'est pas par hasard.
Comparer les comptes d'investissement × Les offres qui apparaissent dans ce tableau proviennent de partenariats dont Investopedia reçoit une rémunération. Nom du fournisseur DescriptionTermes connexes
Fonctionnement de l'analyse de variance (ANOVA) L'analyse de variance (ANOVA) est un outil d'analyse statistique qui sépare la variabilité totale trouvée dans un ensemble de données en deux composantes: les facteurs aléatoires et systématiques. plus Définition du test Z Un test Z est un test statistique utilisé pour déterminer si deux moyennes de population sont différentes lorsque les variances sont connues et que la taille de l'échantillon est importante. plus Définition des degrés de liberté Les degrés de liberté se réfèrent au nombre maximal de valeurs logiquement indépendantes, qui sont des valeurs qui ont la liberté de varier, dans l'échantillon de données. plus Comprendre la distribution T La distribution AT est un type de fonction de probabilité qui convient pour estimer les paramètres de population pour de petits échantillons ou des variances inconnues. plus Ce que la semi-déviation mesure La semi-déviation est une méthode d'évaluation des fluctuations inférieures à la moyenne des retours sur investissement. Il est utilisé comme alternative à l'écart-type. plus Test de Bonferroni Un test de Bonferroni est un type de test de comparaison multiple utilisé dans l'analyse statistique. plus de liens partenairesArticles Liés
Économie
Quelles hypothèses sont faites lors de la réalisation d'un test t?
Gestion des risques
Utiliser la volatilité historique pour évaluer le risque futur
Stratégie de négociation des actions et éducation
Comment utiliser Excel pour simuler les cours des actions
Ratios financiers
Comment calculez-vous l'IRR dans Excel?
Maths et statistiques
Qu'est-ce qu'une erreur standard relative
Ratios financiers
Quelle est la formule de calcul de la valeur actuelle nette (VAN) dans Excel?
