Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco
Cenni di statistica di base. Calcoli di regressioni e correlazioni
dicembre 2006
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
Corso di laurea in: Chimica Ambientale
previous slide, 28 all lessons, these slides index next slide, 30

Kolmogorov-Smirnow test

  Come al solito una citazione di nomi e date per inquadrare il periodo storico di nascita del test. Andrey Nikolaevich Kolmogorov (1903-1987) ha sviluppato il test applicato e modificato nel 1939 da Vladimir Ivanovich Smirnov (1887-1974) per testare statisticamente la eguaglianza di due distribuzioni (provenienti o meno da due popolazioni). Questo e' uno dei piu' importanti test statistici detti "distribution-free" ed e' appunto definito come Kolmogorov-Smirnov test.

  Per un singolo set di dati il test di Kolmogorov-Smirnov One-Sample Test e' usato per testare se la distribuzione e' consistente con una data distribuzione standard (e' uguale ad una normale, and una di Fisher, ecc.). Per due set di dati e' usato per testare se questi due campionamenti possono ragionevolmente essere assunti come provenire dalla stessa popolazione (dalla stessa distribuzione che governa la popolazione).

hippo-r

K-S test, una distribuzione

  Abbiamo una serie di dati provenienti da un qualche campionamento o da un set di misure su di un solo oggetto, o da ... . Ci chiediamo se questi dati corrispondono ad una qualche forma di distribuzione nota. Potremmo fare un doppio grafico della distribuzione nota e dei nostri dati e vedere che succede. Anche se disegnamo una distribuzione per classi di certo la "forma" sara' abbastanza diversa di quella attesa visto il piccolo numero di oggetti-campioni-misure (ricordate il lancio di un dado a confronto con la distribuzione uniforme?).

  Quando parlavamo di distribuzioni molti avevano chiesto come si fa a capire a quale "assomigliano" i nosti data-set, questo test puo' essere una risposta. Prendiamo una delle ultime esercitazioni, fra tutti i dati scegliamo il Campionamento Sistematico Semplice (random start=3, sampling frame=10), sotto il tappo. Ecco i dati ottenuti.

Il data set: studenti del 2005, IV anno, misure sotto il tappo, risol. 0.01 mm
Provetta n. 103 53 73 123 93 23 43 13 113 63 83 33 3
Xi, campionamento sistematico semplice 15.09 15.10 15.10 15.11 15.11 15.12 15.12 15.12 15.13 15.13 15.13 15.14 15.16
parametri statistici del campionamento* min. 15.09 max. 15.16 aver. 15.120000 median 15.12 GeoMean 15.119989 StdDev 0.018708  
Xd, distrib. di K.F. Gauss, stessi parametri 15.09 15.09 15.10 15.10 15.11 15.11 15.12 15.12 15.13 15.13 15.14 15.14 15.15

Definizioni:

  Il test K-S inizia con la scelta della distribuzione ipotetica con cui si vuol confrontare. Poi, ormai con l'aiuto di un software, si devono calcolare i valori di X che avrebbe l'ipotetica distribuzione (fra i due estremi noti) partendo dai parametri noti della popolazione.

  Per ottenere i valori da inserire in tabella (verde qui sopra) potete usare un qualsiasi programma di statistica e/o un foglio elettronico, magari possono esservi utili i file gauss7.123 e gauss7.xls che graficano automaticamente la distribuzione inserendo nelle opportune celle il valore della media e della varianza desiderata.

hippo-l
sample sample ECDF values difference
Gauss gauss ECDF values D function
15.09 1/13 0.07692 -0.07692
15.09 2/13 0.15385 0.07692
15.10 3/13 0.23077 0.07692
15.09 2/13 0.15385 0.07692
15.10 3/13 0.23077 -0.07692
15.10 4/13 0.30769 0.07692
15.11 5/13 0.38461 0.07692
15.10 4/13 0.30769 0.07692
15.11 5/13 0.38461 -0.07692
15.11 6/13 0.46154 0.07692
15.12 8/13 0.61538 0.15385
15.11 6/13 0.46154 0.15385
15.12 8/13 0.61538 0.00000
15.12 8/13 0.61538 0.00000
15.12 8/13 0.61538 0.00000
15.12 8/13 0.61538 0.00000
15.13 11/13 0.84615 0.07692
15.13 10/13 0.76923 0.07692
15.13 11/13 0.84615 0.07692
15.13 10/13 0.76923 0.07692
15.13 11/13 0.84615 -0.07692
15.14 12/13 0.92308 0.07692
15.14 12/13 0.92308 0.00000
15.14 12/13 0.92308 0.00000
15.16 13/13 1.00000 0.00000
15.15 13/13 1.00000 0.00000

Calcoli:

  Come al solito la chiarezza dei libri su questi test e' estrema. Effettivamente ci sono due possibilita' di calcolo. La prima sarebbe di "trasformare" attraverso la funzione Z la nostra distibuzione, detta empirica, in una con media=0 e varianza=1, cioe' qualcosa di simile ad una studentizzazione della funzione. Conoscendo la "vera" media e deviazione standard della nostra funzione empirica potremmo, per ogni misura:

Z function
la funzione Z per "normalizzare" una distribuzione

  Poi possiamo confrontare questi valori di Z con i valori della vera gaussiana. Attenzione perche' cosi' facendo abbiamo gia' ipotizzato che la distribuzione sia simile a quella di Gauss vista che usiamo i "suoi" descrittori. Vi immaginate la media e la varianza prodotta da una distribuzione ottenuta con il lancio di un dado!


  La seconda possibilita' di calcolo (qui sopra in verde) dei valori per una distribuzione di Gauss che avrebbe stessa media e varianza della popolazione da cui deriva la nostra distribuzione empirica.

  Poi si calcola la Empirical Cumulative Distribution Function (ECDF) per la nostra distribuzione (detta anche Cumulative Fraction Function oppure Empirical Distribution Function), ed anche la Cumulative Distribution Function (CDF) per la gaussiana.

  Calcolare ECDF e' facile: prima si mettono in ordine crescente i valori misurati, poi per ogni valore si applica la formula qui sotto. Praticamente si contano quanti valori sono minori o uguali di quello a cui si riferisce la Fi. Nel calcolo a lato fate attenzione al computo dei Tied Rank.

Z function
il calcolo della ECDF partendo da valori ordinati, crescenti

  Nella tabella notate sia il valore in n/13 calcolato per le due distribuzioni, sia in valore numerico, a fianco la differenza ed infine il valore di D che non che e' altro che "il valore assoluto della differenza". In rosso e' evidenziato il massimo valore di D che si riferisce al punto n. 6. Questo valore 0.15385 e' il valore D del test Kolmogorov-Smirnov One-Sample Test.


  Molti programmi di statistica ora mostrerebbero un grafico per visualizzare il risultato del test. Vogliamo sottrarci a questa buona abitudine noi che continuiamo a dire che bisogna graficare tutto?

ECDF 13 punti
il calcolo della ECDF per i 13 punti nelle due distribuzioni

  Una della solite citazioni da un libro: For Kolmogov-Smirnov test the D value is the largest absolute difference between the cumulative observed proportion and the cumulative proportion expected on the basis of the hypothesized distribution. The computed D is compared to a table of critical values of D in the Kolmogorov-Smirnov One-Sample Test, for a given sample size (cf. Massey, 1951). For samples > 35, the critical value at the 0.05 level is approximately 1.36 / SQRT(n) , where n = sample size. If the computed D is less than the critical value, the researcher fails to reject the null hypothesis that the distribution of the criterion variable is not different from the hypothesized (ex., normal) distribution.

  Dato il valore della tabella qui sotto, 0.361 per 13 misure allo 0.05 e dato il nostro 0.15385, ben minore, l'ipotesi H0 e' accettata, la distibuzione sembra simile a quella di Gauss.

hippo-r

  Una tabella per i valori critici di D e' disponibile sul sito di un Istituto di Ricerca Economica. Una bella descrizione di tutto il test di Kolmogorov - Smirnov e' disponibile sul sito di Everything2. Un'altra corretta descrizione con anche tutta la parte grafica del test e leggibile sull'Universita' di . Ecco il programma di calcolo OnLine che potete trovare su Ubalt University che pero' calcola a partire dai valori di Z.

* si il numero delle cifre significative e' sbagliato ma dovendo usare questi valori in un foglio per calcolare dei valori di x in previsione ci portiamo dietro qualche cifra in piu'.

previous slide, 28 all lessons, these slides index next slide, 30