Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco
Cenni di statistica di base. Calcoli di regressioni e correlazioni. dicembre 2006
Corso di Laurea in
Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
previous slide, 51 next slide, 53

Gosset's t-test, four of five tests

  ... Little experience is sufficient to show that the traditional machinery of statistical processes is wholly unsuited to the needs of practical research. Not only does it take a cannon to shoot a sparrow, but it misses the sparrow! The elaborate mechanism built on the theory of infinitely large samples is not accurate enough for simple laboratory data. Only by systematically tackling small sample problems on their merits does it seem possible to apply accurate tests to practical data. Such at least has been the aim of this book. (Sir Ronald Aylmer Fisher, 1925/34, preface of "Statistical Methods for Research Workers", 978-0198522294)

  Ma scopo del corso NON e' spiegare il testo di W.S. Gosset (non essendo noi R.A.Fisher puo' essere tanto difficile spiegare quanto facile sbagliare!) ma descrivere qualche applicazione del test di Student che tanto si trova citato e qualche volta a sproposito. Ma per far questo e' nata una delle silde piu' lunghe!

  Abbiamo invece capito che i test non-parametrici gia' visti, il campionamento statistico, qualche misura in meno ma con piu' qualita', ci permettono/impongono nei settori dei Beni Culturali e nell'Ambiente "samples", cioe' piccoli numeri da trattare con attenzione per essere Pertinenti e Rappresentativi.

hippo-c
Qualche ipotesi preliminare

  Dato che di t-test ce ne sono almeno 4 (anzi forse 5) e per capire come usarli si possono leggere 9 libri senza risolvere nulla (ma forse basta leggere 978-0942154917 et 978-0942154993). Meglio iniziare con una descrizione delle condizioni necessarie affinche' questo ed altri test parametrici abbiano validita':

hippo-r
Analisi semantica del t-test

  Tutti i t-test hanno la struttura di un rapporto [ratio structure], cioe' sono una misura del rapporto segnale/rumore [signal/noise ratio]. Il numeratore e' la differenza fra due medie, fra una misura e la media o similare, cioe' la differenza fra due segnali reali e misurabili; il denominatore misura la variabilita', cioe' la dispersione, cioe' il rumore che la casualita' inserisce nella/nelle misure. Una immagine di esempio, stessa differenza fra i segnali ma ben diverso e' il rumore.

t-test example
from: http://www.socialresearchmethods.net/kb/stat_t.php

  Visti nell'ottica S/N ratio tutti i test si semplificano, bisogna solo trovare cosa mettere sopra e sotto la linea di frazione e decidere quanto "rumore" accettare. Nel secondo caso delle figura qui sopra non saremo mai sicuri della reale differenza fra le due distribuzioni; nel terzo caso invece il t-test dovrebbe mostrarci la loro diversita'.

hippo-1
One-sample t-test

  Test whether the mean of one variable differs from a constant. Dato un campionamento con n oggetti di una popolazione, con le solite limitazioni viste prima, possiamo calcolare la varianza del campione, il suo S, la sua media X soprasegnato (X bar).

  Della popolazione potremmo aver misurato con qualche altro metodo la media μ, ed invece cerchiamo la media attesa che dovremmo prevedere dal campionamento detta μ0. Come al solito possiamo usare uno dei campionamenti delle provette.

Il data set: sistematic sampling with step 10, values under the stopper
Count n. 4 14 24 34 44 54 64 74 84/td> 94 104 114 124
values, mm 15.03 15.07 15.13 15.03 15.05 15.08 15.05 15.13 15.10 15.12 15.09 15.06 15.06

  A quanto sembra il random start era' 4.

  Questo t-test di Gosset e' quello per confrontare una media osservata con una media attesa. Il test e' normalmente definito con la sigla t(n-1). Il vero t-test confronterebbe la media campionaria con la media della popolazione ma spesso quest'ultima e' incognita.

Definizioni:

light_linea

Calcoli:

  Riaffermando che i test parametrici sono "delicati" e basta una svista per inficare un risultato, come al solito prima grafichiamo la distribuzione, visto che abbiamo un numero sufficiente di valori per formare delle classi. Usiamo un ampiezza di classe pari a due volte la risoluzione, 0.02 mm.

campionaria sequenziale
distribuzione per classi, 13 dati

  Per mezzo di 4 campionamenti otteniamo una μ0=15.09 (dovuta a disegni differenti, ma con qualche ripetizione).

  Di formule se ne trovano tante, complesse, semplici, palesemente sbagliate, questa speriamo sia quella giusta.

one sample t test Sx formula
la media campionaria verso l'attesa formula di Sx

  In cui, nel caso dei 13 diametri delle provette sotto il tappo:

  Come al solito facciamo due test con probabilita' al 80% ed al 95% (cioe' α=0.2 et α=0.05). Copiamo una tabella da un buon libro.

One Sided 80% 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%
Two Sided 60% 80% 90% 95% 98% 99% 99.5% 99.8% 99.9%
11 0.876 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 0.873 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 0.870 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221

  Se abbiamo scelto una probabilita' del 80% il valore tabulato 1.356 e' maggiore di quello ottenuto 1.326 (preso come modulo) percio' l'ipotesi nulla e' accettata.

  Se abbiamo scelto una probabilita' del 95% il valore tabulato 2.179 e' maggiore di quello ottenuto 1.326 percio' l'ipotesi nulla e' accettata. Cioe' possiamo scrivere: -2.179 < t < 2.179 visto che usiamo un test a due code.

  Ricordiamo che: a) della nostra esercitazione usiamo i diametri misurati sotto il tappo che sappiamo essere quasi una gaussiana, b) sulla definizione di media attesa ci sono cento definizioni!

hippo-2
Independent two samples t-test

  Often are used to compare the means of two independently sampled groups. Utile per compare le medie di due distribuzioni ottenute dal campionamento di una sola popolazione. Questo sarebbe uno dei veri t-test, qualche volta e' anche utilizzato per comparare: due gruppi di pazienti con due diversi trattamenti; due misure di durata di una serie di lampadine, ma distorcendo il test.

  Veramente di questi ce ne sarebbero tre, questi di seguito, ma se scriviamo la formula dell'ultimo, il c), questa dovrebbe andar bene anche per i primi due, magari semplificandola.

  1. equal sample sizes, equal variance;
  2. unequal sample sizes, equal variance;
  3. unequal sample sizes, unequal variance.
Il data set: two random sampling with replacement, values under the stopper
Extr. n. I II III IV V VI VII VIII IX X XI XII XIII
A values, mm 15.10 15.09 15.10 15.09 15.06 15.12 15.03 15.10 15.08 15.10 15.05 15.04 15.11
B values, mm 15.08 15.02 15.05 15.10 15.07 15.07 15.05 15.10 15.11 15.09 15.11 15.10 15.08

  Questa volta e' ancora piu' importante definire il t-test di Gosset, quello per confermare che due medie campionarie provengono dalla stessa popolazione. Il test e' normalmente definito con la sigla t(n1-n2). Oppure definito come t(n1+n2-2). Ma quella del punto c) e' anche definito come t i.

Definizioni:

light_linea

Calcoli:

  Date due distribuzioni una rappresentazione grafica gia' da sola puo' aiutare a comprendere la similarita', anche se non puo' misurarla. Usiamo anche questa volta una ampiezza di classe pari a 0.20 mm.

two independent samples
le due distribuzioni campionarie, na=13, nb=13

  Il solito problema di trovare le formule giuste, forse queste. Avevamo detto che iniziavamo con unequal sample sizes, unequal variance.

t-test for two independent samples formula for S2 d.of.f, formula by F. E. Satterthwaite, 1946
t-test, 2 campionam. indip., diff. varianze solita formula di S2, per SA et SB degrees of freedom, by F. E. Satterthwaite, 1946

  La formula per il calcolo dei gradi di liberta' non e' la solita n-1 ma una formula di approssimazione di F.E. Satterthwaite (An Approximate Distribution of Estimates of Variance Components, Biometrics Bulletin, 2(6), 1946, 110-114).

  Nella formula del calcolo di ti l'espressione (μAB) e' uguale a zero vista l'ipotesi H0. Questo e' un ragionamento sottile, se confermeremo H0 abbiamo fatto bene ad annullarla, se non la confermeremo non potevamo cancellare questa differenza.

  Da cui, nel caso delle 13+13 misure dei diametri delle provette:

  Vista la piccola differenza fra le varianze avremmo potuto anche usare una formula riodotta per unequal sample sizes, equal variance.

t-test for two independent samples formula for S2p
t-test, 2 campionam. indip., uguali varianze formula di S2, pooled

  Queste due formule danno un risultato molto simile per il test, ma i gradi di liberta' questa volta sarebbero df=(nA-1)+(nB-1)=24, uno in piu' di quelli calcolati con la formula precedente. Come al solito facciamo due test con probabilita' al 80% ed al 95% (cioe' α=0.2 et α=0.05). Copiamo una tabella da un buon libro.

One Sided 80% 90% 95% 97.5% 99% 99.5%
Two Sided 60% 80% 90% 95% 98% 99%
22 0.858 1.321 1.717 2.074 2.508 2.819
23 0.856 1.319 1.714 2.069 2.500 2.807
24 0.857 1.318 1.711 2.064 2.492 2.797
25 0.856 1.316 1.708 2.060 2.485 2.787

  Se abbiamo scelto una probabilita' del 80% il valore tabulato 1.319 e' maggiore di quello ottenuto 0.284 percio' l'ipotesi nulla e' accettata.

  Con una probabilita' del 95% il valore tabulato 2.069 e' maggiore di quello ottenuto 0.284 percio' l'ipotesi nulla e' accettata. Cioe' possiamo scrivere: -2.069 < ti < 2.069 visto che usiamo un test a due code.

  Anche usando la formula approssimata e 24 df si avrebbe lo stesso risultato stando cosi' lontani dai valori di soglia.

hippo-3
Dependent paired samples t-test

  Used to compare means where the two groups are correlated, as in before-after, repeated measures, matched-pairs, or case-control studies. Usato quando le due distribuzioni sono correlate. In questo esempio prima del campionamento 11 provette sono state misurate dai 3 gruppi di lavoro proprio per vedere se c'e' qualche differenza significativa fra i gruppi. Cioe' studiamo cosa si ottiene usando lo stesso strumento/oggetti ma un diverso operatore inserito in un diverso contesto lavorativo.

  Anche di questo t-test ce ne sarebbero due, questi: a) compariamo la ripetizione delle misure su n oggetti e NON ci aspettiamo una differenza b) ci aspettiamo che una qualche modifica sugli oggetti ABBIA prodotto una differenza pari a δ.

  Sembrano la stessa cosa ma dietro questa sottile differenza ci sono miliardi di euro di eventuali profitti da parte di qualche casa produttrice di XYZ, migliore di YXZ.

Two preliminary trial with same objects/instrument, different users, mm under the stopper
tube n.. 44 54 96 120 119 124 9 83 98 10 30
A values, mm 15.13 15.13 15.12 15.11 15.10 15.11 15.07 15.08 15.10 15.10 15.09
B values, mm 15.07 15.12 15.11 15.13 15.16 15.08 15.10 15.09 15.11 15.13 15.15
differences D=A-B +0.06 +0.01 +0.01 -0.02 -0.06 +0.03 -0.03 -0.01 -0.01 -0.03 -0.06

  Come al solito a questo punto la definizione del t-test di Gosset, questo e' per confrontare le differenze fra le misure appaiate ripetute sugli STESSI oggetti. Il test e' normalmente definito con la sigla td. Oppure definito come tδ.

Definizioni:

light_linea

Calcoli:

  Questa volta i grafici possibili sono due, quello classico con la distribuzione per classi (dopo una attenta scelta dell'ampiezza di classe), l'altro e' il Ladder Graph che puo' essere usato anche nel Wilcoxon Matched-Pairs Test che abbiamo gia' visto.

due campioni appaiati
11 dati appaiati, due diversi operatori

  Uno dei grafici poco usati ma molto potenti per conforntare dei dati appaiati e' il Ladder Graph che con qualche trucco si puo' ottenere anche da uno spreadsheet. L'asse Y mostra i valori misurati. L'asse X mostra il tempo anche se con soli due punti, quello iniziale e quello finale. Ogni punto ha una retta che collega i due valori iniziale e finale. Quello qui sotto evidenzia con due colori i tratti ascendenti e discendenti.

  Ladder Graph e' utile quando ci sono pochi oggetti da mostrare, una decina o poco piu'. Si nota anche l'ampiezza e il raggruppamento delle due distribuzioni sull'asse Y, delle misure.

Ladder Graph
Ladder Graph per 11 dati appaiati

  Questa volta sulle formule non c'e confusione. Anzi ripetiamo il calcolo di S2 che va calcolato sulle differenze.

t-test for two dependent samples formula for S2d
t-test, 2 camp. dipend. formula di Sd (sulle differenze)

  Lo scarto quadratico e' calcolato sulle differenze. Qualche parola bisogna spenderla sul valore di δ che puo' essere:

  Visto che trattasi di una esercitazione di laboratorio non siamo troppo stringenti con le probabilita', testiamo al 80% ed al 95% (cioe' α=0.2 et α=0.05). Copiamo una tabella da un buon libro.

One Sided 80% 90% 95% 97.5% 99% 99.5% 99.75%
Two Sided 60% 80% 90% 95% 98% 99% 99.5%
10 0.879 1.372 1.812 2.228 2.764 3.169 3.581
11 0.876 1.363 1.796 2.201 2.718 3.106 3.497
12 0.873 1.356 1.782 2.179 2.681 3.055 3.428

  Se abbiamo scelto una probabilita' del 80% il valore tabulato 1.363 e' maggiore di quello ottenuto 0.913 (preso come modulo) percio' l'ipotesi nulla e' accettata.

  Se abbiamo scelto una probabilita' del 95% il valore tabulato 2.201 e' maggiore di quello ottenuto 0.913 percio' l'ipotesi nulla e' accettata. Cioe' possiamo scrivere: -2.201 < td < 2.201 visto che usiamo un test a due code. Cioe' non si rilevano differenze fra i due operatori che hanno svolto le misure.

hippo-3
t-test, is this single measure part of a distribution?

  Nelle misure spesso ci si trova di fronte ad un valore che non sembra far parte della distribuzione. La domanda che ci si pone e' se trattare questo dato come un outlier. Quando si sta eseguendo un campionamento, con un piccolo numero (<30 ?) di "oggetti" estratti da una popolazione finita e misurabile si puo' usare uno dei test di Gosset.

  Questo non sostituisce uno dei vari test per la ricerca di outlier(s) ma si affianca ad essi. Questo test ci conferma se il valore fa parte della popolazione (oppure al contrario se fa parte di un altra popolazione).

Il data set: random sampling with replacement, values under the stopper
Extr. n. I II III IV V VI VII VIII IX X XI XII XIII
values, mm 15.09 15.08 15.13 15.11 15.07 15.09 15.13 15.09 15.12 15.14 15.11 15.16 15.12

  Il "with replacement" NON e' avvenuto, per cui non ci sono replicati (una prima condizione del test!).

  Uno dei t-test di Gosset e' quello per verificare se l'oggetto, la sua misura, fa parte della popolazione rispetto agli oggetti, le loro misure, gia' campionati. Il test e' normalmente definito con la sigla t(na-1).

Definizioni:

light_linea

Calcoli:

  Riaffermando che i test parametrici sono "delicati" e basta una svista per inficare un risultato, come al solito prima grafichiamo la distribuzione, visto che abbiamo un numero sufficiente di valori per formare delle classi. Usiamo un ampiezza di classe pari a due volte la risoluzione, 0.02 mm.

distribuzione campionaria
distribuzione per classi, 13 dati

  La null-hypothesis e' che il valore 15.07 non faccia parte della distribuzione. Usiamo il t-test di Student/Gosset per confronto fra una osservazione e la media di un campionamento.

  Di formule se ne trovano tante, complesse, semplici, palesemente sbagliate, questa e' quella giusta (speriamo).

is this single measure part of a distribution? formula, is this single measure part of a distribution?
una misura e' parte della distribuzione? formula completa per uno spreadsheet

  In cui, nel caso dei 13 diametri delle provette:

  Come al solito facciamo due test con probabilita' al 80% ed al 95% (cioe' α=0.2 et α=0.05). Copiamo una tabella da un buon libro.

One Sided 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%
Two Sided 80% 90% 95% 98% 99% 99.5% 99.8% 99.9%
11 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221

  Se abbiamo scelto una probabilita' del 80% il valore tabulato 1.356 e' minore di quello ottenuto 1.513 percio' l'ipotesi nulla e' rigettata.

  Se abbiamo scelto una probabilita' del 95% il valore tabulato 2.179 e' maggiore di quello ottenuto 1.513 percio' l'ipotesi nulla e' accettata. Cioe' possiamo scrivere: -2.179 < t < 2.179 visto che usiamo un test a due code.

  Forse sarebbe piu' corretto usare una qualche tecnica di cross-validation in cui l'oggetto sotto esame non prende parte alla costruzione del modello, ne riparleremo a lezione.

hippo-4
Significance of Pearson's r

  Just measured Pearson's r really measure a correlation or a chance? Appena dopo aver calcolato un coefficiente di correlazione fra due variabili ci si deve chiedere se questo e' significativo o e' solo dovuto al caso.

  Prendiamo il data set cosidetto "scarpeshoes", nella sua prima versione che conteneva solo 14 misure e vediamo se la correlazione ottenibile e' significativa (r=0.88056484952946).

part of ScarpeShoes data set, height of the person vs his shoe size
height, m 1.79 1.58 1.65 1.65 1.60 1.86 1.76 1.63 1.55 1.80 1.81 1.54 1.75 1.65
shoes num. 39 37 38 37 38 43 43 37 37 44.5 43 36 41.5 37

  Questa volta il t-test di Gosset serve per verificare che il cofficiente di correlazione r non sia dovuto al caso ma sia significativo tenendo conto del numero di misure, senza replicati. Il test e' normalmente definito con la sigla t(r).

Definizioni:

  Rileggendo quanto qui sopra scritto noi imponiamo che NON ci sia correlazione nella popolazione ed attraverso il t-test ci facciamo smentire. Ma un altra null-hypothesis potrebbe essere che ρ=m, cioe' uguale ad un valore noto per la popolazione. Questo e' molto poco usato e la sua formulazione e realizzazione esula dallo scopo di queste slide.

light_linea

Calcoli:

  Come sempre prima qualche grafico e poi le formule da applicare. Questa volta necessita che dal bel libro on-line del Prof. L. Soliani di Parma rubiamo due disegni.

uncorrelated correlated
doppia distribuzione gaussiana su X e su Y ma in questo caso c'e' anche una correlazione

  Quella mostrata e' la popolazione delle X e delle Y che a sinistra mostra solo un picco di probabilita'. A destra invece la struttura e' diversa, la "montagna" si pone sulla diagonale del piano XY, si nota una correlazione. Ora come al solito grafichiamo i nostri dati.

altezza vs num. scarpe
con soli 14 valori sembra presente un correlazione lineare

  La formula e' gia' stata presentata precedentemente. E' appena il caso di ricordare che n-2 e' dovuto a due vincoli la variabile indipendente e la pendenza.

t-test per r
significance of r

  In cui, nel caso delle 14 persone campionate:

  Come al solito facciamo due test con probabilita' al 80% ed al 95% (cioe' α=0.2 et α=0.05). Copiamo una tabella da un buon libro.

One Sided 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%
Two Sided 80% 90% 95% 98% 99% 99.5% 99.8% 99.9%
11 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221

  Avendo scelto una probabilita' del 80% il valore tabulato 1.356 e' minore di quello ottenuto 6.436 percio' l'ipotesi nulla e' rigettata.

  Se abbiamo scelto una probabilita' del 95% il valore tabulato 2.179 e' anchesso minore di quello ottenuto 6.436 percio' l'ipotesi nulla e' rigettata. Cioe' non possiamo affermare che ρ=0, il coefficiente r e' significativo.

hippo-c
on-line resource

  Prima una precisazione: sono state lasciate tutte le cifre decimali prodotte dai calcoli per permettere il confronto con altri software, chiaramente se questi numeri comparissero in una pubblicazione e/o relazione sarebbero sbagliati.

  Di calcolatori on-line e di testi se ne trovano tanti, spesso sbagliati, una breve selezione pero' porta a consigliare il libro on-line del Prof. Lamberto Soliani, Universita' di Parma. Inoltre possiamo citare:

  1. i seguenti calcolatori on-line NON sono stati provati uno ad uno per la loro correttezza, come neache tutti i testi sono stati letti, attenzione, attenzione,
  2. www.statsdirect.com, questo e' l'help generale in cui nell'index dovete cercare i tre t-test,
  3. Ying Zhang, una comparazione fra i vari t-test con le formule,
  4. graphpad.com/index, l'indice da cui partono una serie di calcolatori on-line, e di spiegazioni,
  5. SISA, un altro indice con tanti tanti test on-line e descrizioni dei metodi,
  6. Kenneth Janda, alla Northwestern University, la descrizione dei vari t-test sta nelle Testing Hypotheses.
previous slide next slide