Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco, April 2003
Cenni di statistica. Distribuzioni, Gauss, Student, Beta, ... Parametri: media, mediana, moda, percentili, kurtosi, outlier, ...
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
Corso di laurea in: Chimica Ambientale
previous slide, 17 all lessons, these slides index next slide, 19

Teoria dei piccoli campioni, un esempio sulla distribuzione di Student

  Sfogliando queste slide avrete gia' incontrato il numero 127 ed il numero 13, si riferiscono ad una popolazione di oggetti, ormai storici, e alla numerosita' campionaria che abbiamo utilizzato per provare a misurare gli stessi. Una misura che si presuppone facile, il diametro degli stessi con uno strumento con risoluzione 0.01 mm.

  Negli anni abbiamo svolto un gran numero di campionamenti, con vari disegni, per cui con questi dati possiamo studiare quasi tutti gli aspetti della statistica di Gosset (confronto fra: un disegno e la popolazione, due disegni fra loro, lo stesso disegno fra due anni diversi, le due popolazioni negli anni, i due strumenti, lo stesso strumento negli anni, un dato anomalo nei 13 misurati, numerosita' del campione per ottenere un dato livello di confidenza, etc.)

  Pero' tutto questo starebbe meglio nelle slide della correlazione che vedremo poi. Ora solo uno dei possibili t-test, incompresibile qui senza lo studio seguente.

light_linea
t-test, is this single measure part of a distribution?

  Nelle misure spesso ci si trova di fronte ad un valore che non sembra far parte della distribuzione. La domanda che ci si pone e' se trattare questo dato come un outlier. Quando si sta eseguendo un campionamento, con un piccolo numero (<30 ?) di "oggetti" estratti da una popolazione finita e misurabile si puo' usare uno dei test di Gosset.

  Questo non sostituisce uno dei vari test per la ricerca di outlier(s) ma si affianca ad essi. Questo test ci conferma se il valore fa parte della popolazione (oppure al contrario se fa parte di un altra popolazione).

Il data set: random sampling with replacement, values under the stopper
Extr. n. I II III IV V VI VII VIII IX X XI XII XIII
values, mm 15.09 15.08 15.13 15.11 15.07 15.09 15.13 15.09 15.12 15.14 15.11 15.16 15.12

  Il "with replacement" NON e' avvenuto, per cui non ci sono replicati (una prima condizione del test!).

  Uno dei t-test di Gosset e' quello per verificare se l'oggetto, la sua misura, fa parte della popolazione rispetto agli oggetti, le loro misure, gia' campionati. Il test e' normalmente definito con la sigla t(na-1).

Definizioni:

light_linea

Calcoli:

  Riaffermando che i test parametrici sono "delicati" e basta una svista per inficiare un risultato, come al solito prima grafichiamo la distribuzione, visto che abbiamo un numero sufficiente di valori per formare delle classi. Usiamo un ampiezza di classe pari a due volte la risoluzione, 0.02 mm.

distribuzione campionaria
distribuzione per classi, 13 dati

  La null-hypothesis e' che il valore 15.07 non faccia parte della distribuzione. Usiamo il t-test di Student/Gosset per confronto fra una osservazione e la media di un campionamento.

  Di formule se ne trovano tante, complesse, semplici, palesemente sbagliate, questa e' quella giusta (speriamo).

is this single measure part of a distribution? formula, is this single measure part of a distribution?
una misura e' parte della distribuzione? formula completa per uno spreadsheet

  In cui, nel caso dei 13 diametri delle provette:

  Come al solito facciamo due test con probabilita' al 80% ed al 95% (cioe' α=0.2 et α=0.05). Copiamo una tabella da un buon libro.

One Sided 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%
Two Sided 80% 90% 95% 98% 99% 99.5% 99.8% 99.9%
11 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221

  Se abbiamo scelto una probabilita' del 80% il valore tabulato 1.356 e' minore di quello ottenuto 1.513 percio' l'ipotesi nulla e' rigettata.

  Se abbiamo scelto una probabilita' del 95% il valore tabulato 2.179 e' maggiore di quello ottenuto 1.513 percio' l'ipotesi nulla e' accettata. Cioe' possiamo scrivere: -2.179 < t < 2.179 visto che usiamo un test a due code.

  Forse sarebbe piu' corretto usare una qualche tecnica di cross-validation in cui l'oggetto sotto esame non prende parte alla costruzione del modello, ne riparleremo a lezione.

light_linea

  Ci avete capito poco? Naturale, tanti di questi concetti vanno spiegati a lezione nella parte che riguarda la correlazione/regressione. Tanto questa pagina verra' copiata nella parte dei test parametrici.

previous slide, 17 all lessons, these slides index next slide, 19