Rome University, La Sapienza Chemistry Department Rome, Italy, Europe |
Dr. Giovanni Visco, April 2003 Cenni di statistica. Distribuzioni, Gauss, Student, Beta, ... Parametri: media, mediana, moda, percentili, kurtosi, outlier, ... |
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione Corso di laurea in: Chimica Ambientale |
previous slide, 28 |
all lessons, these slides index |
next slide, 30 |
Esempio2, il campionamento delle provette di laboratorio, quattro distribuzioni a confronto
Analizziamo ora in dettaglio i risultati dell'esperimento sul campionamento di 127 provette sterili in policarbonato da circa 10 mL usate spesso nei laboratori chimici.
Fare un campionamento e' un'operazione difficile e piena di insidie. Il caso sembra semplice ma come vedremo i risultati sono negativi. Se qui si potesse dare un consiglio, questo sarebbe di:
- fare centinaia di prove con lo stesso gruppo di campioni per "addestrare" l'operatore e acquisire la manualita' necessaria;
- meccanizzare la misura, nel nostro caso con una morsa apposita che tenga ferma la provetta, misurando sempre alla stessa altezza, ecc.;
- dopo ogni serie di misure controllare i risultati statistici;
- usare le tecniche della Chemiometria (Training set, Evaluation set, Test set, Cross Validation, ecc).
Iniziamo a calcolare e mostrare i parametri statistici piu' comuni, quelli spiegati nelle slide precedenti.
Andiamo ad analizzare i dati prodotti dal primo gruppo di studenti del 2003. Troviamo i valori massimo e minimo per questo gruppo, calcoliamo la loro differenza, individuiamo una classe larga 0.02 mm che ci permette di mostrare un giusto numero di punti, facciamo i calcoli necessari, mostriamo i grafici delle distribuzioni e quelli H.L.O.C.
Cominciamo ad analizzare i grafici:
- nel grafico 1 vediamo la curva verde del campionamento esaustivo che presenta sia una strana distribuzione binomiale sia alcuni valori con diametro di 15 mm;
- nel grafico 2 vediamo la scala delle Y espansa, escludendo un campionamento, per mostrare le serie di 13 misure. I tre campionamenti mostrano distribuzioni diverse ma per fortuna con massimo fra 14.80 e 14.90 mm;
- sempre nel grafico 2 vediamo come tutti i campionamenti abbiano letto anche i valori intorno a 15 mm;
- il grafico 3 invece rappresenta con piu' facilita' il problema di questo gruppo di studenti. Il campionamento esaustivo misura TUTTE le provette, gli altri tre debbono ricadere all'interno dei limiti minimo e massimo (nel nostro caso 14.72 et 15.22 mm) e se ben eseguiti presentare un andamento media-mediana simile. Cosi' non e': il campionamento alla rinfusa e quello sistematico sono ben piu' larghi di quello esaustivo, per il campionamento casuale media-mediana sono dissimili.
Ed ora tocca al secondo gruppo di studenti del 2003. Usiamo la stessa trattazione matematica per costruire le distibuzioni per classi, ecco i grafici.
Anche in questo caso qualche problema, ma molto piccolo:
- il grafico 4 e' molto piu' raggruppato la distribuzione raggiunge numerosita' di oltre 30 per tutte e due i picchi (ancora una volta bimodale!) contro i neanche venti dei primi studenti;
- per visualizzare meglio la distribuzione pero' non si puo' usare la stessa scala di prima (da 14.7 a 15.3) ma la espandiamo da 14.7 a 15 anche se questo valore e' eccessivo. Il risultato in grafico 5;
- il grafico 6 mostra i campionamenti, qui e' il problema, le distribuzioni sono piu' raggruppate (numerosita' fra 4 e 5 contro i 2, 3 del precedente) ma ci si aspetterebbe che almeno una ricopiasse quella che pensiamo sia la vera misura delle provette (in verde);
- il grafico 7 e' invece ben fatto, come ci si aspetta la misura di TUTTE le provette comprende i tre campionamenti, il rapporto media-mediana e' simile per tutte le misure;
- riguardando sia il grafico 6 che il 7 sembra che il campionamento qualitativamente meno valido sia quello alla rinfusa, come dice la teoria, un altro risultato positivo.
Ed ora analizziamo il terzo gruppo di studenti sempre del 2003. Usiamo sempre la stessa trattazione matematica per costruire le distibuzioni per classi, ecco i grafici.
Qui di problemi ce ne sono, sembra quasi la somma dei precedenti, pero' lasciamo allo studente di individuarli.
- nel grafico 8 si vede ..... ;
- nel grafico 9 invece ...... ;
- ancora nel grafico 9 notiamo ...... ;
- pure nel grafico 10 e' evidente ........ .
Per il 2003 il quarto gruppo di studenti e' quello che ha dato risultati migliori, forse perche' gia' in possesso della Laurea triennale?. Usiamo sempre la solita trattazione matematica per costruire le distibuzioni per classi, ecco i grafici.
Dicevamo che questo sembra davvero un buon piano di campionamento, i tre disegni rispettano quanto da loro atteso, la distribuzione bimodale e' ben evidente. Comunque possiamo fare qualche considerazione.
- nel grafico 11 guardiamo prima il campionamento esaustivo, in verde, si nota una distribuzione binomiale che inficia tutti i calcoli di media, mediana visti in precedenza;
- il grafico 12 invece riporta il solo campionamento. Sia il campionamento casuale che quello alla rinfusa descrivono una distribuzione bionomiale, simile a quella gia' vista. Il campionamento sistematico, in giallo invece non riesce a leggere la forma della distribuzione, per il prossimo gruppo si provera' un sistematico-ripetuto opppure sistematico+jitter;
- ancora nel grafico 13 notiamo che tutti i campionamenti rientrano bene nei valori di quello esaustivo. Inoltre quello piu' statisticamente significativo (il casuale) presenta praticamente gli stessi valori di media e mediana. Si ripresenta il problema del campionamento sistematico e quello alla rinfusa va anche troppo bene per essere non probabilistico (pero' vedi discussione a lezione).
Ora proviamo a sommare tutti i valori prodotti dai sette gruppi, praticamente e' un campionamento complesso (ripetuto) che dovrebbe minimizzare gli effetti dovuti all'operatore seppur al costo di sondare per quattro volte la popolazione.
Notiamo che e' ripetuto con lo stesso strumento, ma potrebbe esserlo con uno strumento analitico diverso ma con la stessa risoluzione, 0.01 mm nel nostro caso. E' inoltre da sottolineare l'inesperienza dell'operatore per tutti e sette i gruppi questo porta a vari outliers che danneggiano molto il grafico H.L.O.C..
Ove fossero 13 misure ripetute per sette giorni diversi per i calcoli si puo' usare anche la Pooled Media e la Pooled Standard Deviation.
Ed ora a voi le conclusioni.
Back Page
Home Page
C© Copyright
We Did It