Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco, April 2003
Cenni di statistica. Distribuzioni, Gauss, Student, Beta, ... Parametri: media, mediana, moda, percentili, kurtosi, outlier, ...
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
Corso di laurea in: Chimica Ambientale
previous slide, 25 all lessons, these slides index next slide, 28

Anomalie di una distribuzione, diagrammi di Box-Whisker, grafici H.L.O.C., (outlier, spikes)

  Purtroppo tutti questi calcoli matematici che abbiamo fatto per descrivere una distribuzione (e che poi faremo per trovare una regressione e per studiare l'esistenza di una correlazione) non sono sufficienti per dire con sicurezza di che distribuzione si tratta.

  Nel prosieguo delle slide vedremo vari esempi di distribuzioni, regressioni, correlazioni che sembrano matematicamente definite ma disegnando un grafico non lo sono piu'. Il primo esempio sara' il campionamento che tutti gli anni eseguiamo come esercitazione.

  Bisogna comunque citare i dati di F.J. Anscombe utili per dimostrare l'importanza di graficare i dati, citati anche nell'articolo del famoso A.M.C. Davies, The Value Of Pictures, leggetelo per favore!.

F.J.Anscombe, the quartet
F.J. Anscombe, four datasets that have identical simple statistical properties
light_linea

  Qualsiasi misura seppur accurata puo' essere affetta da anomalie casuali per quanto ci si sforzi di porre attenzione. Questi dati anomali sono detti Outlier. Comunque un dato anomalo non e' per forza indice di errore, si possono verificare due casi:

  1. il dato che non rientra all'interno della distribuzione e' effettivamente un dato che proviene da uno svarione, da un accidente o simili. Il dato deve essere eliminato.
  2. effettivamente il dato non rientra nella distribuzione, ma spesso non e' solo, se la numerosita' e' elevata e/o se il campionamento e' ripetuto si ottengono vari valori (magari provenienti da oggetti diversi) che sembrano anomali. Forse siamo in presenza di un'altra distibuzione, magari composta da un numero ridotto di valori i cui oggetti si sono mischiati alla principale. Per esempio misurando la circonferenza di tutte le 145 anfore gia' viste se ne trovano 4 con circonferenza molto inferiore, potrebbero provenire da un'altra fabbrica, magari erano vuote e dovevano essere riempite qui a Roma, oppure ..... .

  Notiamo che gli Outliers possono essere dannosi se dovendo sottrarli ci pregiudicano la numerosita' campionaria, oppure possono essere utili se ci portano ulteriore informazione. Non e' ancora certo ma ci sembra di aver trovato delle monete false in mezzo a delle monete antiche visto che si comportano da Outliers in una analisi dei metalli costituenti.

  Altri dati anomali da non confondere con gli Outliers sono gli Spikes. Gli spikes sono dei valori elevati ma facenti parte della distribuzione, possono provenire da disturbi sullo strumento di misura (una sbalzo di tensione elettrica), da anomalie nella omogeneita' della lega delle monete di cui si parlava prima, da un campione prelevato in una zona particolare, ecc. Gli spikes si ripresentano nel tempo, anzi qualche volta sono periodici e possono essere studiati come composizione e provenienza.

light_linea
Diagrammi di Box-Whisker

  Per evidenziare la struttura di una distribuzione monovariata, cioe' in cui si misura un solo valore come quelle che abbiamo visto fino ad ora, oppure che considera solo i valori sull'asse X (oppure Y) dei centri nella gara dei balestrieri (che se volete rivederla potete cliccare qui e poi da quella pagina tornare a questa con il pulsante back, che si trova in fondo a quelle pagine) si usa questo particolare tipo di grafico.

Box Whisker graph

  Pur presentandosi in maniera diversa a seconda dei software che li disegnano (e bisogna specificare nella didascalia del grafico cosa si sta disegnando) di solito sono costituiti da 7 punti:

  1. una riga centrale che rappresenta la mediana
  2. una scatola (box) che si estende dal 10% al 90%, i famosi percentili
  3. i baffi (whisker) sopra e sotto la scatola che disegnano il 5% ed il 95%, oppure che disegnano il Minimo ed il Massimo
  4. un cono che ha la base nel 25% e vertice nella mediana
  5. un cono rovesciato verso il basso che ha la base nel 75% e vertice nella mediana
  6. una attenta scala su Y che riporti ben definiti i valori di questi sette punti, oppure che siano facilmente calcolabili con un righello
  7. una legenda sull'asse X che ci dica a quale distribuzione si riferisce quel box

  I baffi possono anche individuare il range della variabile (il minimo e il massimo), l'intervallo di confidenza, o qualche altra misura di variabilita', segnalandolo nella didascalia.

  Questa "forma" di box and whisker potete citarla come: D.L. Massart, J. Smeyers-Verbeke, X. Capron, K. Schlesier, Visual presentation of data by means of box plots, LC-GC Europe, 18(4), 2005, 2-5.

light_linea

  Dalla gara dei balestrieri prendiamo la distanza dal centro dei 13 lanci, delle tre prove di Uccione, stiamo cioe' misurando l'accuratezza visto che questa volta il valore vero e' noto.

BoxWhisker, i dati BoxWhisker, il grafico

  Come al solito dalla tabella sulla sinistra si vede poco, risalta pero' il valore dell'ultimo lancio, certamente anomalo. Notiamo che la moda in due casi non esiste, cioe' non esistono almeno due valori uguali.

  Il grafico invece visualizza bene la situazione, possiamo vedere che Uccione produce una distribuzione sempre molto simile, non influenzata dalla fatica del lancio e che migliora con la padronanza della balestra in quanto la mediana si avvicina a zero (distanza fra il centro del bersaglio e il centroide [centre of location] dei lanci uguale a zero). La cancellazione dell'Outlier migliorerebbe di molto l'ultima serie.

light_linea
Diagrammi H.L.O.C.

  Un altro tipo di grafico utilizzato per mostrare a prima vista la struttura di un distribuzione e' quello High Low Open Close, molto usato nell'analisi di un titolo alla fine della giornata borsistica.

  Se riprendiamo la stessa tabella qui presentata per Uccione e grafichiamo con High Low Open Close otteniamo la figura qui sotto mostrata.

HghiLowOpenClose, grafico

  Sull'asse Y e' rappresentata la distanza con il centro del bersagio (cioe' l'accuratezza che in questo unico caso e' misurabile).

  Il grafico ci aiuta a studiare le tre serie di lanci, ottenendo i seguenti risultati:

  1. la media e la mediana molto vicine, cioe' una distribuzione simmetrica;
  2. la prima e la seconda serie molto "compatte", nella terza la fatica dei lanci "sparpaglia" di piu' i dardi sul bersaglio;
  3. di contro la distanza fra la media ed il centro diminuisce man mano. La terza serie e' piu' dispersa ma piu' accurata.
previous slide, 26 all lessons, these slides index next slide, 28