Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco, April 2003
Cenni di statistica. Distribuzioni, Gauss, Student, Beta, ... Parametri: media, mediana, moda, percentili, kurtosi, outlier, ...
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
Corso di laurea in: Chimica Ambientale
previous slide, 27 all lessons, these slides index next slide, 29

Baricentro, Centroide, dall'esempio 1 la distribuzione dei lanci nella gara dei balestrieri
[centre of mass, centroid, minimun distance point]

  Il centro di una distribuzione e' facile da calcolare, ora ne conoscete tanti di "centri" la moda e la mediana per esempio. Ma se devo calcolare il centro di una distribuzione nelle due dimensioni quante sono le possibilita'. Solo iniziando da due dimensioni possiamo calcolare la media artimentica per la X e la mediana per la Y, trovando un punto che e' "un centro" dei nostri punti sul piano.

  Riprendiamo la gara dei balestrieri e cerchiamo il "centro" di una serie di lanci. Per prima cosa calcoliamo, come gia' visto in una slide del precedente capitolo, la distanza dal centro. Otteniamo la tabella qui sotto mostrata. Ricordiamo che il centro e' il nostro valore vero, la distanza percio' misura l'accuratezza.

Distanza dal centro, grafico

  In verdino e' evidenziata la riga della distanza media per quelle distribuzione ed in rosa lo scarto quadratico medio.

  Studiando l'accuratezza la miglior serie e' la seconda di Giudobaldo, la peggiore e' la prima di Dionisio. Invece studiando la ripetibilita' a breve Guidobaldo e' il migliore con la seconda serie ma anche il peggiore con la prima.

  Guardiamo anche i valori minimo e massimo. Sono evidenti il valore 8.25 come il dardo piu' vicino ad un centro e 97.0 come il peggior lancio.

light_linea

  Proviamo a calcolare il baricentro (si ricorda che le coordinate del baricentro sono la media aritmetica delle coordinate dei punti dati). Il baricentro e' detto anche centroide di massa, in un oggetto solido puo' essere anche esterno.

  Con un piccolo programma appositamente scritto possiamo anche calcolare il punto virtuale che minimizza la distanza da tutti i punti (minimum distance centroid).

centroide e baricentro, tabella

  Il semplice calcolo del baricentro con la media artimetica e' un buon stimatore del centro reale della distribuzione sul piano X-Y. Il calcolo del centroide a distanza minima valuta meglio l'accuratezza. In azzurro i due valori di cui si possono notare le piccole differenze.

  In giallo vediamo il set di misure che ha il valore di accuratezza migliore. Notiamo che lo scarto quadratico medio e' maggiore di questo valore. Cioe' abbiamo "la confidenza" di trovare il 68.27% dei dardi intorno al centro.

  In verde studiamo un valore di accuratezza intermedio in cui pero' lo scarto quadratico medio e' buono in valore assoluto ma il centroide e' lontano piu' di 2 ơ dal bersaglio.

  In viola e' evidenziata la riga del "minimum distance centroid" che ci sara' utile in chemiometria per calcolare la vera distanza fra le categorie. Comunque ne parliamo a lezione.

light_linea

  Forse ancora meglio un esempio grafico puo' mostrare la differenza fra i due parametri visti qui sopra. Prendiamo come prima il secondo set di lanci di Dionisio, grafichiamo X-Y utilizzando la stessa scala.

centroide e baricentro, grafico

  In verde sono riportati i punti della distribuzione. In blu il centroide matematico, average. In giallo il punto che presenta la distanza minima da tutti gli altri (distanza calcolata qui mediante la formula di Euclide gia' vista in precedenza). In viola il centro delle mediane.

  Provate a contare quanti "centri" potete calcolare ...... forse ne dimentico uno o due ma io ne conto 37! E siamo in due dimensioni! E per il calcolo della distanza abbiamo usato solo quella Euclidea!

  Ora vediamo un possibile metodo per calcolare questo nuovo punto? Basterebbe un programma che esegue un semplice algoritmo:

  Se volete provare con un vostro set di dati potete utilizzare un programma in Basic scritto allo scopo (Baricentro091.zip v 0.91). Il programma e' una beta ancora da sviluppare, per provarlo potete usare dionis2.csv oppure uccion3.csv

  Utilizzando l'algoritmo visto in precedenza (uno stupido brute force) pero' diminuendo il valore dell'incremento il tempo di calcolo aumenta enormemente. Con uccion3.csv per incremento 0.1 bastano 7 secondi, per 0.01 ci vogliono 7 minuti.

  Per il calcolo e' stato usato un passo di 0.01 cioe' un decimo della risoluzione. Questo ha allungato i tempi di calcolo, dato il metodo "brute force", ma aggirando in questo modo eventuali errori di calcolo e di arrotondamento tipici dei computer e dei software fornisce un risultato piu' accurato. Chiaramente poi il valore ottenuto e' stato arrotondato a 0.1.

  Nei metodi utilizzati nell'Analisi Multivariata e nella Chemiometria esistono una decina o piu' di metodi per il calcolo della distanza che possono percio' produrre una posizione del punto giallo diversa da quella qui calcolata.

light_linea

  Se pero' andiamo a riguardare le foto della slide (Slide 32, usare Back per tornare qui) del torneo dobbiamo ancora trovare uno stimatore che ci mostri con facilita' che solo Guidobaldo e' andato sempre "intorno" al centro, come hanno poi fatto anche gli altri due nell'ultimo set di lanci.

  Per fare qualche prova puo' esservi utile il file nei soliti formati, Lotus 9.8 (balestrieri-st.123) e Lotus 3.x (balestrieri-st.wk3).

previous slide, 27 all lessons, these slides index next slide, 29