Rome University, La Sapienza Chemistry Department Rome, Italy, Europe |
Dr. Giovanni Visco Cenni di statistica di base. Calcoli di regressioni e correlazioni dicembre 2006 |
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione Corso di laurea in: Chimica Ambientale |
previous slide, 28 | all lessons, these slides index | next slide, 30 |
Come al solito una citazione di nomi e date per inquadrare il periodo storico di nascita del test. Andrey Nikolaevich Kolmogorov (1903-1987) ha sviluppato il test applicato e modificato nel 1939 da Vladimir Ivanovich Smirnov (1887-1974) per testare statisticamente la eguaglianza di due distribuzioni (provenienti o meno da due popolazioni). Questo e' uno dei piu' importanti test statistici detti "distribution-free" ed e' appunto definito come Kolmogorov-Smirnov test.
Per un singolo set di dati il test di Kolmogorov-Smirnov One-Sample Test e' usato per testare se la distribuzione e' consistente con una data distribuzione standard (e' uguale ad una normale, and una di Fisher, ecc.). Per due set di dati e' usato per testare se questi due campionamenti possono ragionevolmente essere assunti come provenire dalla stessa popolazione (dalla stessa distribuzione che governa la popolazione).
K-S test, una distribuzione
Abbiamo una serie di dati provenienti da un qualche campionamento o da un set di misure su di un solo oggetto, o da ... . Ci chiediamo se questi dati corrispondono ad una qualche forma di distribuzione nota. Potremmo fare un doppio grafico della distribuzione nota e dei nostri dati e vedere che succede. Anche se disegnamo una distribuzione per classi di certo la "forma" sara' abbastanza diversa di quella attesa visto il piccolo numero di oggetti-campioni-misure (ricordate il lancio di un dado a confronto con la distribuzione uniforme?).
Quando parlavamo di distribuzioni molti avevano chiesto come si fa a capire a quale "assomigliano" i nosti data-set, questo test puo' essere una risposta. Prendiamo una delle ultime esercitazioni, fra tutti i dati scegliamo il Campionamento Sistematico Semplice (random start=3, sampling frame=10), sotto il tappo. Ecco i dati ottenuti.
Provetta n. | 103 | 53 | 73 | 123 | 93 | 23 | 43 | 13 | 113 | 63 | 83 | 33 | 3 |
Xi, campionamento sistematico semplice | 15.09 | 15.10 | 15.10 | 15.11 | 15.11 | 15.12 | 15.12 | 15.12 | 15.13 | 15.13 | 15.13 | 15.14 | 15.16 |
parametri statistici del campionamento* | min. | 15.09 | max. | 15.16 | aver. | 15.120000 | median | 15.12 | GeoMean | 15.119989 | StdDev | 0.018708 | |
Xd, distrib. di K.F. Gauss, stessi parametri | 15.09 | 15.09 | 15.10 | 15.10 | 15.11 | 15.11 | 15.12 | 15.12 | 15.13 | 15.13 | 15.14 | 15.14 | 15.15 |
Definizioni:
Il test K-S inizia con la scelta della distribuzione ipotetica con cui si vuol confrontare. Poi, ormai con l'aiuto di un software, si devono calcolare i valori di X che avrebbe l'ipotetica distribuzione (fra i due estremi noti) partendo dai parametri noti della popolazione.
Per ottenere i valori da inserire in tabella (verde qui sopra) potete usare un qualsiasi programma di statistica e/o un foglio elettronico, magari possono esservi utili i file gauss7.123 e gauss7.xls che graficano automaticamente la distribuzione inserendo nelle opportune celle il valore della media e della varianza desiderata.
|
Calcoli: Come al solito la chiarezza dei libri su questi test e' estrema. Effettivamente ci sono due possibilita' di calcolo. La prima sarebbe di "trasformare" attraverso la funzione Z la nostra distibuzione, detta empirica, in una con media=0 e varianza=1, cioe' qualcosa di simile ad una studentizzazione della funzione. Conoscendo la "vera" media e deviazione standard della nostra funzione empirica potremmo, per ogni misura:
Poi possiamo confrontare questi valori di Z con i valori della vera gaussiana. Attenzione perche' cosi' facendo abbiamo gia' ipotizzato che la distribuzione sia simile a quella di Gauss vista che usiamo i "suoi" descrittori. Vi immaginate la media e la varianza prodotta da una distribuzione ottenuta con il lancio di un dado! La seconda possibilita' di calcolo (qui sopra in verde) dei valori per una distribuzione di Gauss che avrebbe stessa media e varianza della popolazione da cui deriva la nostra distribuzione empirica. Poi si calcola la Empirical Cumulative Distribution Function (ECDF) per la nostra distribuzione (detta anche Cumulative Fraction Function oppure Empirical Distribution Function), ed anche la Cumulative Distribution Function (CDF) per la gaussiana. Calcolare ECDF e' facile: prima si mettono in ordine crescente i valori misurati, poi per ogni valore si applica la formula qui sotto. Praticamente si contano quanti valori sono minori o uguali di quello a cui si riferisce la Fi. Nel calcolo a lato fate attenzione al computo dei Tied Rank.
Nella tabella notate sia il valore in n/13 calcolato per le due distribuzioni, sia in valore numerico, a fianco la differenza ed infine il valore di D che non che e' altro che "il valore assoluto della differenza". In rosso e' evidenziato il massimo valore di D che si riferisce al punto n. 6. Questo valore 0.15385 e' il valore D del test Kolmogorov-Smirnov One-Sample Test. |
Molti programmi di statistica ora mostrerebbero un grafico per visualizzare il risultato del test. Vogliamo sottrarci a questa buona abitudine noi che continuiamo a dire che bisogna graficare tutto?
il calcolo della ECDF per i 13 punti nelle due distribuzioni |
Una della solite citazioni da un libro: For Kolmogov-Smirnov test the D value is the largest absolute difference between the cumulative observed proportion and the cumulative proportion expected on the basis of the hypothesized distribution. The computed D is compared to a table of critical values of D in the Kolmogorov-Smirnov One-Sample Test, for a given sample size (cf. Massey, 1951). For samples > 35, the critical value at the 0.05 level is approximately 1.36 / SQRT(n) , where n = sample size. If the computed D is less than the critical value, the researcher fails to reject the null hypothesis that the distribution of the criterion variable is not different from the hypothesized (ex., normal) distribution.
Dato il valore della tabella qui sotto, 0.361 per 13 misure allo 0.05 e dato il nostro 0.15385, ben minore, l'ipotesi H0 e' accettata, la distibuzione sembra simile a quella di Gauss.
Una tabella per i valori critici di D e' disponibile sul sito di un Istituto di Ricerca Economica. Una bella descrizione di tutto il test di Kolmogorov - Smirnov e' disponibile sul sito di Everything2. Un'altra corretta descrizione con anche tutta la parte grafica del test e leggibile sull'Universita' di . Ecco il programma di calcolo OnLine che potete trovare su Ubalt University che pero' calcola a partire dai valori di Z.
* si il numero delle cifre significative e' sbagliato ma dovendo usare questi valori in un foglio per calcolare dei valori di x in previsione ci portiamo dietro qualche cifra in piu'.
previous slide, 28 | all lessons, these slides index | next slide, 30 |