Rome University, La Sapienza Chemistry Department Rome, Italy, Europe |
Dr. Giovanni Visco, April 2003 Cenni di statistica. Distribuzioni, Gauss, Student, Beta, ... Parametri: media, mediana, moda, percentili, kurtosi, outlier, ... |
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione Corso di laurea in: Chimica Ambientale |
previous slide, 27 | all lessons, these slides index | next slide, 29 |
Il centro di una distribuzione e' facile da calcolare, ora ne conoscete tanti di "centri" la moda e la mediana per esempio. Ma se devo calcolare il centro di una distribuzione nelle due dimensioni quante sono le possibilita'. Solo iniziando da due dimensioni possiamo calcolare la media artimentica per la X e la mediana per la Y, trovando un punto che e' "un centro" dei nostri punti sul piano.
Riprendiamo la gara dei balestrieri e cerchiamo il "centro" di una serie di lanci. Per prima cosa calcoliamo, come gia' visto in una slide del precedente capitolo, la distanza dal centro. Otteniamo la tabella qui sotto mostrata. Ricordiamo che il centro e' il nostro valore vero, la distanza percio' misura l'accuratezza.
In verdino e' evidenziata la riga della distanza media per quelle distribuzione ed in rosa lo scarto quadratico medio.
Studiando l'accuratezza la miglior serie e' la seconda di Giudobaldo, la peggiore e' la prima di Dionisio. Invece studiando la ripetibilita' a breve Guidobaldo e' il migliore con la seconda serie ma anche il peggiore con la prima.
Guardiamo anche i valori minimo e massimo. Sono evidenti il valore 8.25 come il dardo piu' vicino ad un centro e 97.0 come il peggior lancio.
Proviamo a calcolare il baricentro (si ricorda che le coordinate del baricentro sono la media aritmetica delle coordinate dei punti dati). Il baricentro e' detto anche centroide di massa, in un oggetto solido puo' essere anche esterno.
Con un piccolo programma appositamente scritto possiamo anche calcolare il punto virtuale che minimizza la distanza da tutti i punti (minimum distance centroid).
Il semplice calcolo del baricentro con la media artimetica e' un buon stimatore del centro reale della distribuzione sul piano X-Y. Il calcolo del centroide a distanza minima valuta meglio l'accuratezza. In azzurro i due valori di cui si possono notare le piccole differenze.
In giallo vediamo il set di misure che ha il valore di accuratezza migliore. Notiamo che lo scarto quadratico medio e' maggiore di questo valore. Cioe' abbiamo "la confidenza" di trovare il 68.27% dei dardi intorno al centro.
In verde studiamo un valore di accuratezza intermedio in cui pero' lo scarto quadratico medio e' buono in valore assoluto ma il centroide e' lontano piu' di 2 ơ dal bersaglio.
In viola e' evidenziata la riga del "minimum distance centroid" che ci sara' utile in chemiometria per calcolare la vera distanza fra le categorie. Comunque ne parliamo a lezione.
Forse ancora meglio un esempio grafico puo' mostrare la differenza fra i due parametri visti qui sopra. Prendiamo come prima il secondo set di lanci di Dionisio, grafichiamo X-Y utilizzando la stessa scala.
In verde sono riportati i punti della distribuzione. In blu il centroide matematico, average. In giallo il punto che presenta la distanza minima da tutti gli altri (distanza calcolata qui mediante la formula di Euclide gia' vista in precedenza). In viola il centro delle mediane.
Provate a contare quanti "centri" potete calcolare ...... forse ne dimentico uno o due ma io ne conto 37! E siamo in due dimensioni! E per il calcolo della distanza abbiamo usato solo quella Euclidea!
Ora vediamo un possibile metodo per calcolare questo nuovo punto? Basterebbe un programma che esegue un semplice algoritmo:
Se volete provare con un vostro set di dati potete utilizzare un programma in Basic scritto allo scopo (Baricentro091.zip v 0.91). Il programma e' una beta ancora da sviluppare, per provarlo potete usare dionis2.csv oppure uccion3.csv
Utilizzando l'algoritmo visto in precedenza (uno stupido brute force) pero' diminuendo il valore dell'incremento il tempo di calcolo aumenta enormemente. Con uccion3.csv per incremento 0.1 bastano 7 secondi, per 0.01 ci vogliono 7 minuti.
Per il calcolo e' stato usato un passo di 0.01 cioe' un decimo della risoluzione. Questo ha allungato i tempi di calcolo, dato il metodo "brute force", ma aggirando in questo modo eventuali errori di calcolo e di arrotondamento tipici dei computer e dei software fornisce un risultato piu' accurato. Chiaramente poi il valore ottenuto e' stato arrotondato a 0.1.
Nei metodi utilizzati nell'Analisi Multivariata e nella Chemiometria esistono una decina o piu' di metodi per il calcolo della distanza che possono percio' produrre una posizione del punto giallo diversa da quella qui calcolata.
Se pero' andiamo a riguardare le foto della slide (Slide 32, usare Back per tornare qui) del torneo dobbiamo ancora trovare uno stimatore che ci mostri con facilita' che solo Guidobaldo e' andato sempre "intorno" al centro, come hanno poi fatto anche gli altri due nell'ultimo set di lanci.
Per fare qualche prova puo' esservi utile il file nei soliti formati, Lotus 9.8 (balestrieri-st.123) e Lotus 3.x (balestrieri-st.wk3).
previous slide, 27 | all lessons, these slides index | next slide, 29 |