Rome University, La Sapienza Chemistry Department Rome, Italy, Europe |
Dr. Giovanni Visco, April 2003 Cenni di statistica. Distribuzioni, Gauss, Student, Beta, ... Parametri: media, mediana, moda, percentili, kurtosi, outlier, ... |
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione Corso di laurea in: Chimica Ambientale |
previous slide, 25 | all lessons, these slides index | next slide, 28 |
Purtroppo tutti questi calcoli matematici che abbiamo fatto per descrivere una distribuzione (e che poi faremo per trovare una regressione e per studiare l'esistenza di una correlazione) non sono sufficienti per dire con sicurezza di che distribuzione si tratta.
Nel prosieguo delle slide vedremo vari esempi di distribuzioni, regressioni, correlazioni che sembrano matematicamente definite ma disegnando un grafico non lo sono piu'. Il primo esempio sara' il campionamento che tutti gli anni eseguiamo come esercitazione.
Bisogna comunque citare i dati di F.J. Anscombe utili per dimostrare l'importanza di graficare i dati, citati anche nell'articolo del famoso A.M.C. Davies, The Value Of Pictures, leggetelo per favore!.
F.J. Anscombe, four datasets that have identical simple statistical properties |
Qualsiasi misura seppur accurata puo' essere affetta da anomalie casuali per quanto ci si sforzi di porre attenzione. Questi dati anomali sono detti Outlier. Comunque un dato anomalo non e' per forza indice di errore, si possono verificare due casi:
Notiamo che gli Outliers possono essere dannosi se dovendo sottrarli ci pregiudicano la numerosita' campionaria, oppure possono essere utili se ci portano ulteriore informazione. Non e' ancora certo ma ci sembra di aver trovato delle monete false in mezzo a delle monete antiche visto che si comportano da Outliers in una analisi dei metalli costituenti.
Altri dati anomali da non confondere con gli Outliers sono gli Spikes. Gli spikes sono dei valori elevati ma facenti parte della distribuzione, possono provenire da disturbi sullo strumento di misura (una sbalzo di tensione elettrica), da anomalie nella omogeneita' della lega delle monete di cui si parlava prima, da un campione prelevato in una zona particolare, ecc. Gli spikes si ripresentano nel tempo, anzi qualche volta sono periodici e possono essere studiati come composizione e provenienza.
Per evidenziare la struttura di una distribuzione monovariata, cioe' in cui si misura un solo valore come quelle che abbiamo visto fino ad ora, oppure che considera solo i valori sull'asse X (oppure Y) dei centri nella gara dei balestrieri (che se volete rivederla potete cliccare qui e poi da quella pagina tornare a questa con il pulsante back, che si trova in fondo a quelle pagine) si usa questo particolare tipo di grafico.
Pur presentandosi in maniera diversa a seconda dei software che li disegnano (e bisogna specificare nella didascalia del grafico cosa si sta disegnando) di solito sono costituiti da 7 punti:
I baffi possono anche individuare il range della variabile (il minimo e il massimo), l'intervallo di confidenza, o qualche altra misura di variabilita', segnalandolo nella didascalia.
Questa "forma" di box and whisker potete citarla come: D.L. Massart, J. Smeyers-Verbeke, X. Capron, K. Schlesier, Visual presentation of data by means of box plots, LC-GC Europe, 18(4), 2005, 2-5.
Dalla gara dei balestrieri prendiamo la distanza dal centro dei 13 lanci, delle tre prove di Uccione, stiamo cioe' misurando l'accuratezza visto che questa volta il valore vero e' noto.
Come al solito dalla tabella sulla sinistra si vede poco, risalta pero' il valore dell'ultimo lancio, certamente anomalo. Notiamo che la moda in due casi non esiste, cioe' non esistono almeno due valori uguali.
Il grafico invece visualizza bene la situazione, possiamo vedere che Uccione produce una distribuzione sempre molto simile, non influenzata dalla fatica del lancio e che migliora con la padronanza della balestra in quanto la mediana si avvicina a zero (distanza fra il centro del bersaglio e il centroide [centre of location] dei lanci uguale a zero). La cancellazione dell'Outlier migliorerebbe di molto l'ultima serie.
Un altro tipo di grafico utilizzato per mostrare a prima vista la struttura di un distribuzione e' quello High Low Open Close, molto usato nell'analisi di un titolo alla fine della giornata borsistica.
Se riprendiamo la stessa tabella qui presentata per Uccione e grafichiamo con High Low Open Close otteniamo la figura qui sotto mostrata.
Sull'asse Y e' rappresentata la distanza con il centro del bersagio (cioe' l'accuratezza che in questo unico caso e' misurabile).
Il grafico ci aiuta a studiare le tre serie di lanci, ottenendo i seguenti risultati:
previous slide, 26 | all lessons, these slides index | next slide, 28 |