Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco
Cenni di statistica di base. Calcoli di regressioni e correlazioni
dicembre 2006
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
Corso di laurea in: Chimica Ambientale
previous slide, 26 all lessons, these slides index next slide, 28

Non Parametrici, iniziamo dal Mann-Whitney test

Liability waiver and accuracy

  Nella pagina We Did It c'e' una dichiarazione di "scarico di responsabilita'". Doveroso per chi deve utilizzare tutte queste conoscenze per il suo lavoro. Ma qui e' anche il momento di affermare che in queste slide (ed ancor piu' in quelle sulla regressione/correlazione) tutto e' stato fatto per ottenere "ACCURATEZZA"; nelle formule, nei concetti, nei riferimenti alle fonti primarie, nei calcoli. Purtroppo Internet abbonda di scemenze, mezze verita', mezze falsita', depistaggi, ed anche deliberati pericolosi errori. A voi essere diffidenti e controllare da almeno 7 fonti diverse e NON collegate fra loro.

hippo-l

  Abbiamo visto che i test Non Parametrici sono gli unici che possono essere usati per verifica di ipotesi relative a variabili Nominali e Ordinali, ma anche per distribuzioni abbastanza diverse dalla Gaussiana.

  Mann-Whitney (da Henry Berthold Mann, 1905-2000) (e da Donald Ransom Whitney, 1915) e' un test non parametrico molto spesso usato per controllare se due campionamenti provengono dalla stessa popolazione. Per una delle esercitazioni precedenti, quella delle provette, possiamo controllare se le due serie prodotte dal Campionamento Sistematico oppure dal Campionamento Casuale Semplice Con Reinserimento hanno la stessa mediana e, estrapolando, provengono dalla stessa popolazione.

Il data set: studenti del 2006, IV anno
Camp. cas. sempl con reins. 14.71 14.83 14.71 14.79 14.78 14.80 14.64 14.68 14.80 14.78 14.71 14.77 14.70
Camp. sistematico 14.70 14.80 14.80 14.73 14.82 14.77 14.73 14.70 14.75 14.78 14.76 14.81 14.79

  Spesso il test di Mann-Whitney e' usato per confrontare le mediane di due campionamenti che provengono dalla stessa popolazione. Il test e' normalmente definito con la sigla " U ".

Definizioni:

hippo-l
value rank
14.64 1
14.68 2
14.70 4
14.70 4
14.70 4
14.71 7
14.71 7
14.71 7
14.73 9.5
14.73 9.5
14.75 11
14.76 12
14.77 13.5
14.77 13.5
14.78 16
14.78 16
14.78 16
14.79 18.5
14.79 18.5
14.80 21.5
14.80 21.5
14.80 21.5
14.80 21.5
14.81 24
14.82 25
14.83 26

Calcoli:

  Il calcolo inizia con la messa in ordine crescente di tutti i valori delle due distribuzioni, come potete vedere qui a sinistra. Il numero, la posizione si indica con rank.

  Bisogna porre attenzione ai Tied Ranks cioe' ai dati numerici che hanno lo stesso valore. Come vedete questi si dividono la posizione da loro occupata in modo che ogni campionamento non tragga beneficio dalla posizione.

  Ora sommiamo tutti i rank della prima distribuzione, (alcuni scelgono di sommare la distribuzione che presenta il minimo), nel nostro caso il Campionamento Casuale Semplice Con Reinserimento.

  1+2+4+7+7+7+13.5+16+16+18.5+21.5+21.5+26=161=R1. Ora bisogna fare la somma di tutti i rank (nel nostro caso Rtot=351), ma utilizziamo la formula:

rank summ
somma dei rank per due campioni con numerosita' n1 ed n2

  Il parametro U e' calcolato ora facilmente con una formula qui sotto che proviene dalla precedente. Una volta trovato questo valore bisogna confrontarlo con quello presente in una delle tabelle scritte quando ancora i computer non erano cosi' invasivi.

rank summ
il valore di U per il campione n.1

  Ricapitoliamo: abbiamo ottenuto nel nostro caso un U=99 partendo dall'ipotesi H0 che le due mediane sono uguali. Scegliamo per α un valore di 0.05 cioe' accettiamo un errore di tipo I del 5%, detto ancora meglio se H0 e' vera noi accettiamo di rifiutarla commettendo un errore del 5%.

  Una, fra le tante, tabella per U e' disponibile sul sito del Dr. Victor L. Bissonnette at Mount Berry College. Ancora piu' interessante e' il programma di calcolo OnLine che potete trovare the "U" test online at Vassar College, Poughkeepsie, New York. Con esso otteniamo il limiti inferiore e superiore (ad una coda, ne riparleremo) per U. I valori sono il 5% sono 45 e 124 in cui e' compreso il nostro 99. Cioe' l'ipotesi nulla e' accettata e le mediane delle due distribuzioni sono uguali, anche se non possiamo dire che provengono dalla stessa popolazione, vedremo poi con qualche altro test.

n1=13, n2=13, Utest
previous slide, 26 all lessons, these slides index next slide, 28