Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco
Cenni di statistica di base. Calcoli di regressioni e correlazioni. dicembre 2006
Corso di Laurea in
Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
previous slide, 53 next slide, 55

Chi-quadro test

  Ormai ci siamo abituati, su questi test statistici ci sono ambiguita' sia sui nomi, sia sulle procedure utilizzate, sia sulle formule. Questa volta ci siamo superati, alcuni mettono il chi-quadro nei test parametrici, altri nei non parametrici. Come vedete in queste slide e' finito qui.

  Il χ2 test e' dovuto ad uno dei padri della statistica, K. Pearson, mi sembra nel 1901, e sulla sua logica si sono poi basati tanti altri test parametrici.

Qualche ipotesi preliminare

  Dato che il test e' basato sulle frequenze attese ed osservate possiamo definire come precondizioni:

hippo-1
Chi-square test, goodness of fit

  The χ2 goodness of fit test check whether or not an observed frequency distribution differs from a theoretical distribution. Il χ2 test ci permette di studiare se la probabilita' attesa e quella osservata differiscono fra loro per una serie di misure. Questa volta un data set nuovo che e' stato ottenuto con tanta fatica.

501 rolls of a six-sided die, the resulting figures, three replicates
upper side -->  1   2   3   4   5   6 
expected value  83.50   83.50   83.50   83.50   83.50   83.50 
I replicate  90   91   77   83   89   71 
II replicate  89   87   80   73   85   87 
III replicate  97   82   76   85   86   75 

  Questo e' uno dei due chi-quadro test cosi' detto goodness of fit e' usato per stimare se le frequenze di una distribuzione osservata differiscono dalle frequenze teoriche (attese) per quell'esperimento. Il test e' normalmente definito con la sigla χ2, da non confondere con la distribuzione chi-quadro. Il test e' utile perche' una volta dimostrata la H0 ci permette di utilizzare i valori ottenuti con quel campionamento per ulteriori studi.

Definizioni:

light_linea

Calcoli:

  Prendiamo la prima serie di lanci, 501, e chiediamoci se il dado e' truccato oppure no. Avendo da 77 a 91 uscite per ogni classe, ed un totale di 501, possiamo utilizzare il chi-quadro. Se ne avessimo fra 30 e 100 misure dovremmo utilizzare un fattore correttivo (F. Yates).

  Come al solito, graficare le due distribuzioni, quella attesa in blu e quella misurata in verde. Avendo ormai imparato ad utilizzare i grafici puntiamo ad evidenziare le differenze!

501 lanci di un dado
le due distribuzioni attesa e rilevata per studiare χ2

  Chi-quadrato e' complesso da capire e da applicare. Qui sopra vediamo un tipico problema, le osservazioni di una qualsiasi classe sono numero interi (quante volte e' uscito il 4) quando le probabilita' sono frazioni e spesso numeri irrazionali. Per piccoli campioni serviranno delle correzioni e per piccolissimi campioni non si puo' piu' utilizzare.

  Almeno questa volta la formula e' chiara:

chi-quadro
chi-quadro test formula

  Che nel caso delle due distribuzioni di 6 classi:

  Le tavole dei valori critici costruite da Pearson e riportate in forma ridotta da Fisher sono di solito costruite per tutti i valori di probabilita' da 0.005, 0.01, 0.025, 0.05 fino a valori di 0.995. Queste tabelle sono tutte one-side, questo per la particolare forma della distribuzione χ2.

  Percio' in questo caso accettiamo un errore di tipo I pari al 5% (cioe' una α=0.05), cioe' una probabilita' per H0 pari al 95%. Copiamo le opportune tabelle α da un un buon libro.

One Sided chi-quadro critical values for α=.....
d.o.f. 0.25 0.10 0.05 0.025 0.01
4 5.385 7.779 9.488 11.143 13.277
5 6.626 9.236 11.071 12.833 15.086
6 7.841 10.645 12.592 14.449 16.812

  Se abbiamo scelto una α pari a 0.05 il valore tabulato 11.071 e' maggiore di quello ottenuto 3.922 percio' l'ipotesi nulla e' accettata. Percio' con una probabilita' del 95% le variazioni osservate sono solo da attribuire al caso.

hippo-2
Correzione per piccoli campioni

  Se il numero totale di misure (n) e' compreso fra 30 e 100, ma ogni libro di statistica da valori diversi, e comunque ogni occorrenza di classe (m) e' almeno superiore a 5 o 7, il calcolo di chi-quadro ha bisogno di una delle correzioni di F. Yates.

  Ci sono due correzioni di Yates che cerchiamo di riportare qui:

  1. per valori di n molto superiori a 30 e prossimi a 100: si calcolano i valori assoluti delle differenze fiexp-fiobs; poi alla differenza maggiore si sottrae 0.5 prima di calcolare il quadrato (la faccia 6 nel nostro caso); si cerca poi la differenza minore ed a questa si somma 0.5 prima di calcolare il quadrato (la faccia 4 nel nostro caso). Si calcola chi-quadro come gia' visto;
  2. invece per valori di n poco superiori a 30, con i soliti limiti su m, si sottrae 0.5 per ogni valore assoluto delle differenze fiexp-fiobs e poi si calcola il quadrato, il quoziente, la sommatoria, chi-quadro.

  Sbagliando, visto che non c'e' ne' bisogno, applichiamo le due correzioni all'esempio precedente:

  1. ((83.5-90)2/83.5)+((83.5-91)2/83.5)+((83.5-77)2/83.5)+((|83.5-83|+0.5)2/83.5)+((83.5-89)2/83.5)+((|83.5-71|-0.5)2/83.5)=3.78443
  2. ((|83.5-90|-0.5)2/83.5)+((|83.5-91|-0.5)2/83.5)+((|83.5-77|-0.5)2/83.5)+((|83.5-83|-0.5)2/83.5)+((|83.5-89|-0.5)2/83.5)+((|83.5-71|-0.5)2/83.5)=3.47305

  Cioe' la correzione di Yates fornisce valori piu' conservativi, e' cioe' piu' difficile rifiutare la H0 (la correzione si basa sul fatto che diminuendo n e' piu difficile descrivere una popolazione, cioe' con 12 lanci di un dado non bisogna aspettarci di veder uscire due volte ogni faccia!)

hippo-3
on-line resource

  On-line calculator?? Ma non avete un foglio elettronico che almeno non sbagli a fare le differenze ed i quadrati?. Attenzione al calcolo del modulo e delle somme. Buon lavoro.

previous slide next slide