Rome University, La Sapienza Chemistry Department Rome, Italy, Europe |
Dr. Giovanni Visco Cenni di statistica di base. Calcoli di regressioni e correlazioni. dicembre 2006 |
Corso di Laurea in Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione |
previous slide, 53 | next slide, 55 |
Ormai ci siamo abituati, su questi test statistici ci sono ambiguita' sia sui nomi, sia sulle procedure utilizzate, sia sulle formule. Questa volta ci siamo superati, alcuni mettono il chi-quadro nei test parametrici, altri nei non parametrici. Come vedete in queste slide e' finito qui.
Il χ2 test e' dovuto ad uno dei padri della statistica, K. Pearson, mi sembra nel 1901, e sulla sua logica si sono poi basati tanti altri test parametrici.
Qualche ipotesi preliminareDato che il test e' basato sulle frequenze attese ed osservate possiamo definire come precondizioni:
The χ2 goodness of fit test check whether or not an observed frequency distribution differs from a theoretical distribution. Il χ2 test ci permette di studiare se la probabilita' attesa e quella osservata differiscono fra loro per una serie di misure. Questa volta un data set nuovo che e' stato ottenuto con tanta fatica.
upper side --> | 1 | 2 | 3 | 4 | 5 | 6 |
expected value | 83.50 | 83.50 | 83.50 | 83.50 | 83.50 | 83.50 |
I replicate | 90 | 91 | 77 | 83 | 89 | 71 |
II replicate | 89 | 87 | 80 | 73 | 85 | 87 |
III replicate | 97 | 82 | 76 | 85 | 86 | 75 |
Questo e' uno dei due chi-quadro test cosi' detto goodness of fit e' usato per stimare se le frequenze di una distribuzione osservata differiscono dalle frequenze teoriche (attese) per quell'esperimento. Il test e' normalmente definito con la sigla χ2, da non confondere con la distribuzione chi-quadro. Il test e' utile perche' una volta dimostrata la H0 ci permette di utilizzare i valori ottenuti con quel campionamento per ulteriori studi.
Definizioni:
Calcoli:
Prendiamo la prima serie di lanci, 501, e chiediamoci se il dado e' truccato oppure no. Avendo da 77 a 91 uscite per ogni classe, ed un totale di 501, possiamo utilizzare il chi-quadro. Se ne avessimo fra 30 e 100 misure dovremmo utilizzare un fattore correttivo (F. Yates).
Come al solito, graficare le due distribuzioni, quella attesa in blu e quella misurata in verde. Avendo ormai imparato ad utilizzare i grafici puntiamo ad evidenziare le differenze!
le due distribuzioni attesa e rilevata per studiare χ2 |
Chi-quadrato e' complesso da capire e da applicare. Qui sopra vediamo un tipico problema, le osservazioni di una qualsiasi classe sono numero interi (quante volte e' uscito il 4) quando le probabilita' sono frazioni e spesso numeri irrazionali. Per piccoli campioni serviranno delle correzioni e per piccolissimi campioni non si puo' piu' utilizzare.
Almeno questa volta la formula e' chiara:
chi-quadro test formula |
Che nel caso delle due distribuzioni di 6 classi:
Le tavole dei valori critici costruite da Pearson e riportate in forma ridotta da Fisher sono di solito costruite per tutti i valori di probabilita' da 0.005, 0.01, 0.025, 0.05 fino a valori di 0.995. Queste tabelle sono tutte one-side, questo per la particolare forma della distribuzione χ2.
Percio' in questo caso accettiamo un errore di tipo I pari al 5% (cioe' una α=0.05), cioe' una probabilita' per H0 pari al 95%. Copiamo le opportune tabelle α da un un buon libro.
One Sided chi-quadro critical values for α=..... | ||||||
---|---|---|---|---|---|---|
d.o.f. | 0.25 | 0.10 | 0.05 | 0.025 | 0.01 | |
4 | 5.385 | 7.779 | 9.488 | 11.143 | 13.277 | |
5 | 6.626 | 9.236 | 11.071 | 12.833 | 15.086 | |
6 | 7.841 | 10.645 | 12.592 | 14.449 | 16.812 |
Se abbiamo scelto una α pari a 0.05 il valore tabulato 11.071 e' maggiore di quello ottenuto 3.922 percio' l'ipotesi nulla e' accettata. Percio' con una probabilita' del 95% le variazioni osservate sono solo da attribuire al caso.
Se il numero totale di misure (n) e' compreso fra 30 e 100, ma ogni libro di statistica da valori diversi, e comunque ogni occorrenza di classe (m) e' almeno superiore a 5 o 7, il calcolo di chi-quadro ha bisogno di una delle correzioni di F. Yates.
Ci sono due correzioni di Yates che cerchiamo di riportare qui:
Sbagliando, visto che non c'e' ne' bisogno, applichiamo le due correzioni all'esempio precedente:
Cioe' la correzione di Yates fornisce valori piu' conservativi, e' cioe' piu' difficile rifiutare la H0 (la correzione si basa sul fatto che diminuendo n e' piu difficile descrivere una popolazione, cioe' con 12 lanci di un dado non bisogna aspettarci di veder uscire due volte ogni faccia!)
On-line calculator?? Ma non avete un foglio elettronico che almeno non sbagli a fare le differenze ed i quadrati?. Attenzione al calcolo del modulo e delle somme. Buon lavoro.
previous slide | next slide |