Chi-carré (χ2) Statistique Définition
Qu'est-ce qu'une statistique du chi carré?Un carré chi ( 2 ) La statistique est un test qui mesure la manière dont les attentes se comparent aux données réelles observées (ou aux résultats du modèle). Les données utilisées pour calculer une statistique du chi carré doivent être aléatoires, brutes, s'exclure mutuellement, extraites de variables indépendantes et d'un échantillon suffisamment grand. Par exemple, les résultats de lancer une pièce 100 fois répondent à ces critères.
Les tests du chi carré sont souvent utilisés dans les tests d'hypothèses.
La formule pour le Chi Square est
χc2 = ∑ (Oi − Ei) 2Ailleurs: c = degrés de liberté O = valeur (s) observée (s) E = valeur (s) attendue (s) \ begin {aligné} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \\ & \ textbf {où:} \\ & c = \ text {degrés de liberté} \\ & O = \ text {valeur (s) observée (s)} \\ & E = \ text {valeur attendue (s )} \\ \ end {aligné} χc2 = Ei (Oi −Ei) 2 où: c = degrés de libertéO = valeur (s) observée (s) E = valeur (s) attendue (s)
Que vous dit une statistique du chi carré?
Il existe deux principaux types de tests du chi carré: le test d'indépendance, qui pose une question de relation, tel que "Y a-t-il une relation entre le genre et les scores au SAT?"; et le test de qualité de l'ajustement, qui demande quelque chose comme: "Si une pièce de monnaie est lancée 100 fois, sera-t-elle levée la tête 50 fois et la queue 50 fois?"
Pour ces tests, les degrés de liberté sont utilisés pour déterminer si une certaine hypothèse nulle peut être rejetée en fonction du nombre total de variables et d'échantillons compris dans l'expérience.
Par exemple, lorsque l’on considère les étudiants et le choix de cours, un échantillon de 30 ou 40 étudiants n’est probablement pas assez grand pour générer des données significatives. Obtenir des résultats identiques ou similaires d'une étude utilisant un échantillon de 400 ou 500 étudiants est plus valable.
Dans un autre exemple, envisagez de lancer une pièce de monnaie 100 fois. Le résultat attendu du tirage d'une pièce équitable 100 fois est que les têtes vont monter 50 fois et les queues 50 fois. Le résultat réel pourrait être que les têtes reviennent 45 fois et les queues 55 fois. La statistique du chi carré montre les écarts éventuels entre les résultats attendus et les résultats réels.
Points clés à retenir
- Un carré chi ( 2 ) La statistique est un test qui mesure la manière dont les attentes se comparent aux données réelles observées.
- Il existe deux principaux types de test du chi carré: le test d'indépendance pour les données et le test d'adéquation d'un modèle.
- Ces tests peuvent être utilisés pour déterminer si une certaine hypothèse nulle peut être rejetée lors du test d'hypothèse.
Exemple de test du chi carré
Imaginez un sondage aléatoire sur 2 000 électeurs différents, hommes et femmes. Les personnes qui ont répondu ont été classées selon leur sexe et selon qu’elles étaient républicaines, démocrates ou indépendantes. Imaginez une grille avec les colonnes étiquetées républicaine, démocrate et indépendante, et deux rangées étiquetées homme et femme. Supposons que les données des 2 000 répondants sont les suivantes:
Républicain | Démocrate | Indépendant | Total | |
Masculin | 400 | 300 | 100 | 800 |
Femelle | 500 | 600 | 100 | 1200 |
Total | 900 | 900 | 200 | 2000 |
La première étape pour calculer la statistique du chi carré consiste à trouver les fréquences attendues. Celles-ci sont calculées pour chaque "cellule" de la grille. Puisqu'il existe deux catégories de genre et trois catégories d'opinion politique, il y a six fréquences totales attendues. La formule pour la fréquence attendue est la suivante:
E (r, c) = n (r) × c (r) nwhere: r = ligne en questionc = colonne de la question = nombre total correspondant \ début {aligné} & E (r, c) = \ frac {n (r) \ times c (r)} {n} \\ & \ textbf {où:} \\ & r = \ text {ligne en question} \\ & c = \ text {colonne en question} \\ & n = \ text {total correspondant } \\ \ end {aligné} E (r, c) = nn (r) × c (r) où: r = ligne dans questionc = colonne dans questionn = total correspondant
Dans cet exemple, les fréquences attendues sont:
- E (1, 1) = (900 x 800) / 2 000 = 360
- E (1, 2) = (900 x 800) / 2 000 = 360
- E (1, 3) = (200 x 800) / 2 000 = 80
- E (2, 1) = (900 x 1 200) / 2 000 = 540
- E (2, 2) = (900 x 1 200) / 2 000 = 540
- E (2, 3) = (200 x 1 200) / 2 000 = 120
Ensuite, ces valeurs sont utilisées pour calculer la statistique du chi carré à l'aide de la formule suivante:
Khi carré = ∑ [O (r, c) −E (r, c)] 2E (r, c) où: O (r, c) = données observées pour la ligne et la colonne données \ begin {alignées} & \ text {Chi-carré} = \ sum \ frac {[O (r, c) - E (r, c)] ^ 2} {E (r, c)} \\ & \ textbf {où:} \\ & O (r, c) = \ text {données observées pour la ligne et la colonne données} \\ \ end {alignées} Chi-carré = ∑E (r, c) [O (r, c) −E (r, c)] 2 où: O (r, c) = données observées pour la ligne et la colonne données
Dans cet exemple, l'expression pour chaque valeur observée est:
- O (1, 1) = (400 - 360) 2/360 = 4, 44
- O (1, 2) = (300 - 360) 2/360 = 10
- O (1, 3) = (100 - 80) 2/80 = 5
- O (2, 1) = (500 - 540) 2/540 = 2, 96
- O (2, 2) = (600 - 540) 2/540 = 6, 67
- O (2, 3) = (100 - 120) 2/120 = 3, 33
La statistique du chi carré est alors égale à la somme de ces valeurs, soit 32, 41. Nous pouvons ensuite examiner un tableau statistique du chi carré afin de déterminer, compte tenu des degrés de liberté dont nous disposons, si le résultat est statistiquement significatif ou non.
Comparaison des comptes d'investissement Nom du fournisseur Description Divulgation par l'annonceur × Les offres figurant dans ce tableau proviennent de partenariats avec lesquels Investopedia reçoit une rémunération.