T-Test

les courtiers : T-Test
Qu'est-ce qu'un test t?

Un test t est un type de statistique inférentielle utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes, ce qui peut être lié à certaines caractéristiques. Il est principalement utilisé lorsque les ensembles de données, comme l'ensemble de données enregistré comme résultat du fait de tourner une pièce de monnaie 100 fois, suivent une distribution normale et peuvent présenter des variances inconnues. Un test t est utilisé comme outil de test d'hypothèse, ce qui permet de tester une hypothèse applicable à une population.

Un test t examine la statistique t, les valeurs de la distribution t et les degrés de liberté afin de déterminer la probabilité de différence entre deux ensembles de données. Pour effectuer un test avec trois variables ou plus, il faut utiliser une analyse de variance.

1:38

T-Test

Expliquer le test t

Essentiellement, un test t nous permet de comparer les valeurs moyennes des deux ensembles de données et de déterminer s'ils proviennent de la même population. Dans les exemples ci-dessus, si nous prenions un échantillon d'élèves de classe A et un autre échantillon d'élèves de classe B, nous ne nous attendrions pas à ce qu'ils aient exactement la même moyenne et le même écart-type. De même, les échantillons prélevés dans le groupe témoin nourri avec un placebo et ceux prélevés dans le groupe de médicaments prescrits devraient présenter une différence moyenne et un écart-type légèrement différents.

Mathématiquement, le test t prend un échantillon de chacun des deux ensembles et établit l'énoncé du problème en supposant une hypothèse nulle que les deux moyennes sont égales. Sur la base des formules applicables, certaines valeurs sont calculées et comparées aux valeurs standard, et l'hypothèse nulle supposée est acceptée ou rejetée en conséquence.

Si l'hypothèse nulle est qualifiée pour être rejetée, cela indique que les lectures de données sont solides et ne sont pas dues au hasard. Le test t n'est que l'un des nombreux tests utilisés à cette fin. Les statisticiens doivent en outre utiliser des tests autres que le test t pour examiner plus de variables et des tests avec des échantillons de taille supérieure. Pour les échantillons de grande taille, les statisticiens utilisent un test z. Les autres options de test incluent le test du Khi-deux et le test f.

Il existe trois types de tests t, et ils sont classés en tant que tests t dépendants et indépendants.

Points clés à retenir

  • Un test t est un type de statistique inférentielle utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes, ce qui peut être lié à certaines caractéristiques.
  • Le test t est l'un des nombreux tests utilisés aux fins du test d'hypothèse en statistique.
  • Le calcul d'un test t nécessite trois valeurs de données clés. Ils incluent la différence entre les valeurs moyennes de chaque ensemble de données (appelée différence moyenne), l'écart type de chaque groupe et le nombre de valeurs de données de chaque groupe.
  • Il existe plusieurs types de test t qui peuvent être effectués en fonction des données et du type d'analyse requis.

Résultats de test ambigus

Considérez qu'un fabricant de médicaments veut tester un médicament nouvellement inventé. Il suit la procédure standard d'essayer le médicament sur un groupe de patients et de donner un placebo à un autre groupe, appelé groupe contrôle. Le placebo administré au groupe témoin est une substance sans valeur thérapeutique prévue et sert de référence pour mesurer la réaction de l'autre groupe, auquel le médicament lui-même est attribué.

Après l’essai, les membres du groupe témoin nourri avec un placebo ont signalé une augmentation de l’espérance de vie moyenne de trois ans, tandis que les membres du groupe auxquels le nouveau médicament a été prescrit indiquent une augmentation de l’espérance de vie moyenne de quatre ans. Une observation instantanée peut indiquer que le médicament fonctionne, car les résultats sont meilleurs pour le groupe utilisant le médicament. Cependant, il est également possible que l'observation soit due à un événement fortuit, en particulier à un coup de chance surprenant. Un test t est utile pour déterminer si les résultats sont réellement corrects et applicables à l'ensemble de la population.

Dans une école, 100 élèves de la classe A ont obtenu une moyenne de 85% avec un écart type de 3%. Cent autres étudiants appartenant à la classe B ont obtenu une moyenne de 87% avec un écart type de 4%. Bien que la moyenne de la classe B soit meilleure que celle de la classe A, il n’est peut-être pas correct de sauter rapidement à la conclusion que la performance globale des élèves de la classe B est meilleure que celle des élèves de la classe A. En moyenne, l'écart type de la classe B est également supérieur à celui de la classe A. Il indique que leurs pourcentages extrêmes, des côtés inférieurs et supérieurs, étaient beaucoup plus dispersés que ceux de la classe A. Un test t peut aider à déterminer quelle classe s'en tirait mieux.

Hypothèses du test t

  1. La première hypothèse faite concernant les tests t concerne l’échelle de mesure. L'hypothèse d'un test t est que l'échelle de mesure appliquée aux données collectées suit une échelle continue ou ordinale, telle que les scores d'un test de QI.
  2. La deuxième hypothèse retenue est celle d'un échantillon aléatoire simple, à savoir que les données sont collectées à partir d'une partie représentative, choisie au hasard, de la population totale.
  3. La troisième hypothèse est que les données, lorsqu'elles sont tracées, donnent une courbe de distribution en forme de cloche à distribution normale.
  4. La quatrième hypothèse est qu'une taille d'échantillon raisonnablement grande est utilisée. Un échantillon de plus grande taille signifie que la distribution des résultats devrait s'approcher d'une courbe en forme de cloche normale.
  5. L'hypothèse finale est l'homogénéité de la variance. Une variance homogène ou égale existe lorsque les écarts-types des échantillons sont approximativement égaux.

Calcul des tests t

Le calcul d'un test t nécessite trois valeurs de données clés. Ils incluent la différence entre les valeurs moyennes de chaque ensemble de données (appelée différence moyenne), l'écart type de chaque groupe et le nombre de valeurs de données de chaque groupe.

Le résultat du test t produit la valeur t. Cette valeur t calculée est ensuite comparée à une valeur obtenue à partir d'une table de valeurs critiques (appelée table de distribution T). Cette comparaison permet de déterminer la probabilité que la différence entre les moyennes se produise par hasard ou si les ensembles de données présentent réellement des différences intrinsèques. Le test t demande si la différence entre les groupes représente une différence réelle dans l'étude ou s'il s'agit probablement d'une différence statistique dénuée de sens.

Tables de distribution en T

La table de distribution en T est disponible en formats à une queue et à deux queues. Le premier est utilisé pour évaluer les cas qui ont une valeur fixe ou une plage avec une direction claire (positive ou négative). Par exemple, quelle est la probabilité que la valeur de sortie reste inférieure à -3 ou dépasse sept si on lance une paire de dés? Ce dernier est utilisé pour l'analyse liée à la distance, par exemple pour demander si les coordonnées se situent entre -2 et +2.

Les calculs peuvent être effectués avec des logiciels standard qui prennent en charge les fonctions statistiques nécessaires, telles que celles trouvées dans MS Excel.

Valeurs T et degrés de liberté

Le test t produit deux valeurs en sortie: la valeur t et les degrés de liberté. La valeur t est un rapport de la différence entre la moyenne des deux ensembles d'échantillons et la différence existant dans les ensembles d'échantillons. Alors que la valeur du numérateur (la différence entre la moyenne des deux ensembles d'échantillons) est facile à calculer, le dénominateur (la différence existant dans les ensembles d'échantillons) peut devenir un peu compliqué en fonction du type de valeurs de données impliquées. Le dénominateur du ratio est une mesure de la dispersion ou de la variabilité. Des valeurs plus élevées de la valeur t, également appelée score t, indiquent qu'il existe une grande différence entre les deux ensembles d'échantillons. Plus la valeur t est petite, plus il y a de similitude entre les deux ensembles d'échantillons.

  • Un t-score élevé indique que les groupes sont différents.
  • Un petit t-score indique que les groupes sont similaires.

Les degrés de liberté font référence aux valeurs d'une étude qui a la liberté de varier et qui sont essentielles pour évaluer l'importance et la validité de l'hypothèse nulle. Le calcul de ces valeurs dépend généralement du nombre d'enregistrements de données disponibles dans l'ensemble d'échantillons.

Test t corrélé (ou apparié)

Le test t corrélé est effectué lorsque les échantillons sont généralement constitués de paires appariées d'unités similaires ou lorsqu'il existe des cas de mesures répétées. Par exemple, il peut arriver que les mêmes patients soient soumis à des tests répétés - avant et après un traitement particulier. Dans de tels cas, chaque patient est utilisé comme échantillon de contrôle contre lui-même.

Cette méthode s’applique également aux cas où les échantillons sont liés d’une manière ou d’une autre ou ont des caractéristiques identiques, comme une analyse comparative impliquant des enfants, des parents ou des frères et sœurs. Les tests t corrélés ou appariés sont d'un type dépendant, car ils impliquent des cas où les deux ensembles d'échantillons sont liés.

La formule de calcul de la valeur t et des degrés de liberté pour un test t apparié est la suivante:

  • Moyenne1 et moyenne2 sont les valeurs moyennes de chacun des ensembles d'échantillons, tandis que var1 et var2 représentent la variance de chacun des ensembles d'échantillons.

Les deux types restants appartiennent aux tests t indépendants. Les échantillons de ces types sont sélectionnés indépendamment les uns des autres, c'est-à-dire que les ensembles de données des deux groupes ne font pas référence aux mêmes valeurs. Ils incluent des cas comme un groupe de 100 patients divisés en deux groupes de 50 patients chacun. L'un des groupes devient le groupe témoin et reçoit un placebo, tandis que l'autre groupe reçoit le traitement prescrit. Cela constitue deux groupes d'échantillons indépendants et non jumelés.

Test t d'égale variance (ou groupé)

Le test t de variance égale est utilisé lorsque le nombre d'échantillons dans chaque groupe est identique ou que la variance des deux ensembles de données est similaire. La formule suivante est utilisée pour calculer la valeur t et les degrés de liberté pour un test t à variance égale:

Valeur T = moyenne1 - moyenne2 (n1−1) × var12 + (n2−1) × var22n1 + n2−2 × 1n1 + 1n2où: moyenne1 et moyenne2 = valeurs moyennes de chacun des ensembles d'échantillons var1 et var2 = variance de chacun des échantillons setsn1 et n2 = nombre d'enregistrements dans chaque échantillon échantillon \ begin {aligné} & \ text {valeur-T} = \ frac {mean1 - mean2} {\ sqrt {\ frac {(n1 - 1) \ times var1 ^ 2 + (n2 - 1) \ times var2 ^ 2} {n1 + n2 - 2}} \ times \ sqrt {\ frac {1} {n1} + \ frac {1} {n2}}} \\ & \ textbf { où:} \\ & mean1 \ text {and} mean2 = \ text {Valeurs moyennes de chaque} \\ & \ text {des ensembles d'échantillons} \\ & var1 \ text {et} var2 = \ text {Variance de chacun des ensembles d'échantillons} \\ & n1 \ text {et} n2 = \ text {Nombre d'enregistrements dans chaque ensemble d'échantillons} \\ \ end {alignés} Valeur T = n1 + n2−2 (n1−1) × var12 + (n2 −1) × var22 × n11 + n21 moyenne1 − moyenne2 où: moyenne1 et moyenne2 = valeurs moyennes de chacun des ensembles d'échantillons var1 et var2 = variance de chacun des ensembles d'échantillonsn1 et n2 = nombre d'enregistrements dans chaque échantillon ensemble

et,

Degrés de liberté = n1 + n2−2où: n1 et n2 = Nombre d'enregistrements dans chaque ensemble d'échantillons \ begin {aligné} & \ text {Degrés de liberté} = n1 + n2 - 2 \\ & \ textbf {où:} \\ & n1 \ text {and} n2 = \ text {Nombre d'enregistrements dans chaque jeu d'échantillons} \\ \ end {alignés} Degrés de liberté = n1 + n2-2. Où: n1 et n2 = Nombre d'enregistrements dans chaque jeu d'échantillons Un séjour sans faille

Test t de variance inégale

Le test t de variance inégale est utilisé lorsque le nombre d'échantillons dans chaque groupe est différent et que la variance des deux ensembles de données est également différente. Ce test est également appelé test t de Welch. La formule suivante est utilisée pour calculer la valeur t et les degrés de liberté pour un test t à variance inégale:

Valeur T = moyenne1 - moyenne2var12n1 + var22n2où: moyenne1 et moyenne2 = Valeurs moyennes de chacun des ensembles d'échantillonsvar1 et var2 = Variance de chacun des ensembles d'échantillonsn1 et n2 = Nombre d'enregistrements dans chaque ensemble d'échantillons \ begin {aligné} & \ text {T-valeur} = \ frac {mean1 - mean2} {\ sqrt {\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2}}} \\ & \ textbf {où:} \ \ & mean1 \ text {and} mean2 = \ text {Valeurs moyennes de chaque} \\ & \ text {des ensembles d'échantillons} \\ & var1 \ text {et} var2 = \ text {Variance de chacun des ensembles d'échantillons} \ \ & n1 \ text {and} n2 = \ text {Nombre d'enregistrements dans chaque jeu d'échantillons} \\ \ end {alignés} Valeur T = n1var12 + n2var22 mean1-mean2 où: mean1 et mean2 = Valeurs moyennes de chacune des séries d'échantillons var1 et var2 = Variance de chacune des séries d'échantillonsn1 et n2 = Nombre d'enregistrements dans chaque série d'échantillons

et,

Degrés de liberté = (var12n1 + var22n2) 2 (var12n1) 2n1−1 + (var22n2) 2n2−1où: var1 et var2 = Variance de chacun des ensembles d'échantillonsn1 et n2 = Nombre d'enregistrements dans chaque ensemble d'échantillons \ begin {aligné } & \ text {Degrés de liberté} = \ frac {\ left (\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2} \ right) ^ 2} {\ frac {\ left ( \ frac {var1 ^ 2} {n1} \ right) ^ 2} {n1 - 1} + \ frac {\ left (\ frac {var2 ^ 2} {n2} \ right) ^ 2} {n2 - 1}} \\ & \ textbf {où:} \\ & var1 \ text {et} var2 = \ text {Variance de chacun des ensembles d'échantillons} \\ & n1 \ text {et} n2 = \ text {Nombre d'enregistrements dans chaque ensemble d'échantillons } \\ \ end {alignés} Degrés de liberté = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2 où: var1 et var2 = Variance de chaque de l'échantillon setsn1 et n2 = Nombre d'enregistrements dans chaque échantillon

Détermination du test t correct à utiliser

L'organigramme suivant peut être utilisé pour déterminer quel test t doit être utilisé en fonction des caractéristiques des ensembles d'échantillons. Les éléments clés à prendre en compte sont notamment la similitude des enregistrements d'échantillons, le nombre d'enregistrements de données dans chaque ensemble d'échantillons et la variance de chaque ensemble d'échantillons.

Image de Julie Bang © Investopedia 2019

Exemple de test t de variance inégale

Supposons que nous prenions une mesure diagonale des peintures reçues dans une galerie d'art. Un groupe d'échantillons comprend 10 peintures, tandis que l'autre comprend 20 peintures. Les ensembles de données, avec les valeurs moyenne et de variance correspondantes, sont les suivants:

Set 1Set 2
19, 728.3
20.426, 7
19, 620.1
17, 823.3
18, 525.2
18, 922.1
18.317, 7
18, 927, 6
19, 520.6
21.9513.7
23.2
17, 5
20.6
18
23, 9
21, 6
24.3
20.4
23, 9
13.3
Signifier19.421, 6
Variance1.417.1

Bien que la moyenne de la série 2 soit supérieure à celle de la série 1, nous ne pouvons pas en conclure que toutes les peintures ont une longueur moyenne d'environ 21, 6 unités, car la variance de la série 2 est nettement supérieure à celle de la série 1. Est-ce par hasard ou existe-t-il des différences dans la population totale de toutes les peintures reçues dans la galerie d'art ">

Étant donné que le nombre d'enregistrements de données est différent (n1 = 10 et n2 = 20) et que la variance est également différente, la valeur t et les degrés de liberté sont calculés pour l'ensemble de données ci-dessus à l'aide de la formule mentionnée dans le test T Variance inégale. section.

La valeur t est -2.24787. Comme le signe moins peut être ignoré lors de la comparaison des deux valeurs t, la valeur calculée est 2.24787.

La valeur des degrés de liberté est 24, 38 et est réduite à 24 en raison de la définition de la formule qui impose d’arrondir la valeur au plus petit nombre possible.

Lorsqu'une distribution normale est supposée, on peut spécifier un niveau de probabilité (niveau alpha, niveau de signification, p ) comme critère d'acceptation. Dans la plupart des cas, une valeur de 5% peut être supposée.

En utilisant la valeur de degré de liberté de 24 et un niveau de signification de 5%, la table de distribution de la valeur t donne une valeur de 2, 064. La comparaison de cette valeur avec la valeur calculée de 2, 247 indique que la valeur t calculée est supérieure à la valeur de la table à un niveau de signification de 5%. Par conséquent, il est prudent de rejeter l'hypothèse nulle selon laquelle il n'y a pas de différence entre les moyennes. La population présente des différences intrinsèques et elles ne le sont pas par hasard.

Comparaison des comptes d'investissement Nom du fournisseur Description Divulgation par l'annonceur × Les offres figurant dans ce tableau proviennent de partenariats avec lesquels Investopedia reçoit une rémunération.

Termes connexes

Fonctionnement de l’analyse de variance (ANOVA) L’analyse de variance (ANOVA) est un outil d’analyse statistique qui distingue la variabilité totale trouvée dans un ensemble de données en deux composantes: des facteurs aléatoires et systématiques. plus Comprendre la distribution T La distribution AT est un type de fonction de probabilité qui convient pour estimer les paramètres de population pour des échantillons de petite taille ou des variances inconnues. more Degrés de liberté Définition Par degrés de liberté, on entend le nombre maximal de valeurs logiquement indépendantes, qui sont des valeurs pouvant être modifiées librement, dans l'échantillon de données. plus Fonctionnement de l'écart-type résiduel L'écart-type résiduel est un terme statistique utilisé pour décrire la différence entre les écarts-types des valeurs observées et des valeurs prédites, comme indiqué par les points d'une analyse de régression. plus Fonctionnement de la statistique du chi carré La statistique du chi carré (2) est un test qui permet de comparer les attentes aux données réelles observées (ou aux résultats du modèle). Les données utilisées pour calculer une statistique du chi carré doivent être aléatoires, brutes, s'exclure mutuellement, extraites de variables indépendantes et d'un échantillon suffisamment grand. plus Comment le test de Wilcoxon est utilisé Le test de Wilcoxon, qui fait référence au test Rank Sum ou au test Signed Rank, est un test non paramétrique qui compare deux groupes appariés. plus de liens partenaires
Recommandé
Laissez Vos Commentaires