Rome University, La Sapienza Chemistry Department Rome, Italy, Europe |
Dr. Giovanni Visco Cenni di statistica di base. Calcoli di regressioni e correlazioni dicembre 2006 |
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione Corso di laurea in: Chimica Ambientale |
previous slide, 32 | all lessons, these slides index | next slide, 36 |
Ma mano che si procede nella presentazione dei test non parametrici qualche studente si perde nelle descrizioni e alla fine sembra che tutti i test confrontino le stesse misure e facciano le stesse comparazioni. Non e' questo il caso del Kendall τ che misura la concordanza o la discordanza di piu' coppie di osservazioni.
La solita citazione storica e' necessaria come sempre per inquadrare il periodo storico dell'autore. Sir Maurice Kendall (1907-1983) ha sviluppato il test che lo ha reso famoso nel 1938 quasi parallelamente ad un lungo lavoro sui numeri casuali, molto meno conosciuto.
Il test deve essere utilizzato per valutare se due serie di ranks, riferiti ad n. misure, sono correlati fra loro.
Citando StatSoft: Kendall tau, on the other hand, represents a probability, that is, it is the difference between the probability that in the observed data the two variables are in the same order versus the probability that the two variables are in different orders.
Oppure, citando Roger Newson at King’s College, London: Kendall's taua is the covariance between sign (Xi-Xj) and sign (Yi-Yj),.
Questo test lavora solo con ranks, provenienti da variabili almeno ordinali o con valori binari. Normalmente viene usato per confrontare terapie mediche prescritte allo stesso paziente (vedi Nicola J. Crichton), a confrontare preparazione scientifica e posizione in carriera (vedi riferimento, ed anche questo), ed anche per analizzare la correlazione fra momenti coerenti in una serie temporale (see T. Ferguson, C. Genest, M. Hallin, Kendall's tau for autocorrelation ). Per chi vuole ecco i link a due .pdf da scaricare, Hervé Abdi, and Nicola J. Crichton
Anche su questo test c'e' qualche piccola confusione. L'ambiguita' e' data dai tre τ citati nei libri, vedremo in seguito. Viene anche definito Kendall tau rank correlation coefficient.
Non confondete il test con la misura della distanza, gia' conoscete la distanza euclidea, la distanza su meridani e paralleli, la city-block. Dato un oggetto descritto da n. variabili la "Kendall distance" conta quante volte si ha lo stesso valore, in rank, fra le variabili. ). Non e' lo scopo della slide ma trovate qui un riferimento, e qui un altro.
Studiando un qualsiasi test di correlazione la prima cosa da fare e' capire come funziona e poi applicarlo ad una misura reale che spesso fa saltar fuori i problemi di comprensione. Come al solito un data set reale, in questo caso vediamo se esiste un correlazione fra due esami universitari nel saper valutare la preparazione di un piccolo numero di studenti. Diamo per scontato che gli studenti applicano lo stesso impegno nei due esami (31=30 e lode).
Studente, nome | an | fr | lu | pi | ri | si | st |
Esame laurea trien. | 27 | 23 | 27 | 30 | 28 | 24 | 25 |
Esame laurea spec. | 27 | 24 | 28 | 29 | 30 | 23 | 25 |
Gender | M | F | F | M | F | F | F |
7 miei studenti hanno superato l'esame nella laurea triennale e nella laurea specialistica. L'ipotesi e' che un esame sia pari all'altro come indicatore di preparazione.
Definizioni:
Viene descritto come τa (qualche volta detto gamma), il test semplice quando non ci sono Tied Ranks.
Kendall tau bInvece come τb, viene descritto il test che calcola anche la correlazione dovuta ai Tied, ma presenti in piccola misura. Per il nostro esempio e per piccoli campioni e' il piu' usato e di esso presenteremo le formule.
Kendall tau cE' il test piu' complesso, detto τc (qualche volta chiamato anche Stuart's test), in cui si tiene conto della correlazione dovuta ai Tied, ma anche della numerosita' delle "misure" che potrebbe autocorrelarsi spontaneamente.
|
Calcoli: Costruiamo la solita tabella, da 5 colonne, nella prima il nome, nella seconda e nella terza i voti (che sono gia' una scala ordinale e potremmo gia' usare questi), nella quarta i ranks calcolati per il primo esame, nella quinta i ranks del secondo esame. I due ranks vengono calcolati sulla colonna, ognuna separatamente. Nel calcolare i ranks bisogna fare attenzione a mantenere il collegamento fra i due set di misure sull'oggetto. Ora il test prevede il calcolo (usando i rank values) di tutte le combinazioni possibili, due a due. Quante sono? Ma molte slide fa' abbiamo gia' parlato di combinazioni, permutazioni, etc.
Sono 21 nel nostro caso. Qui a destra abbiamo scritto tutte le possibili combinazioni nella prima colonna, la differenza fra i due rank e' calcolata nella seconda e nella terza colonna, infine i segni ottenuti sono presentati nelle ultime due colonne. Come detto e ridetto TUTTI questi test e quasi tutte queste slide si possono riprodurre con un foglio elettronico, qui per esempio usando la funzione ©sign(b13) se in b13 c'e' il valore di cui ci interessa solo il segno. Per calcolare τ dobbiamo contare quanti coppie concordi e discordi si hanno per i segni, per tutte le combinazioni, e poi pesare per il numero di combinazioni e di ties. Con cio' si ottengono appunto valori fra -1 e +1 per τ con la formula seguente (che a lezione leggeremo passo passo):
La formula qui sopra e' quella completa e puo' essere usata anche in presenza di un ties, ove invece nel calcolo dei rank ci si trovi di fronte a molti ties sia nella x, (contati qui da tx) che nella y, (contati da ty) dovremmo usare la seguente:
Da cui otteniamo il valore τa = 0.762 ed invece il valore di τb = 0.801 che tiene conto del ties 4.5 |
Ora data la presenza di un solo ties gli statistici si accapiglerebbero per decidere quale formula usare, a noi invece interessa di piu' sapere se 0.762 e' significativo e percio' se H0 e' rispettata.
Come ormai sapete il test di significativita' in tutti i nostri "test non parametrici" e' importante perche' visto il piccolo numero di oggetti coinvolti i valori del test potrebbero solo essere attribuiti al caso.
Prima di cercare una tabella di valori critici o qualche calcolatore on-line meglio ricordare che se si sospetta una bias positivo (cioe' che aggrega, correla, dati che non lo sono) si possono usare i valori limiti per one-side, se invece non si hanno indicazioni su come potrebbe essere influenzato il test e' meglio usare i valori limiti per two-sides nella opportuna tabella.
Questa e' una tabella con i valori critici, one-side, per Kendall's test, e' un file .ps buona conversione. Altre si trovano su vari libri di statistica (H.R. Neave et al.).
Per l'esercizio vediamo che per n=7, il 90% di confidenza ha come limite 0.524, il 95% di confidenza ha come limite 0.619, il 99% di confidenza ha come limite 0.810, ma noi otteniamo 0.762.
Se il valore di tau e' minore del valore tabulato (τ < C.L.) l'ipotesi H0 e' accettata. In questo esempio H0 e' rifiutata al 90% ed al 95% di confidenza, cioe' non possiamo dire che non ci sia correlazione fra i due esami. One side, cioe' siamo quasi certi che comunque i due esami hanno un correlazione positiva.
Come al solito questa e' la sezione dei calcolatori on-line, eccone uno del Wessa.net del Prof. Patrick Wessa per il cacolo del Kendall's test ed un altro.
Il valore di p=0.023 mostra che la H0 sarebbe rispettata se scegliessimo il 99.97% di confidenza e non il solito 95% |
Il valore calcolato e' un poco diverso dal nostro per il diverso metodo di calcolo del denominatore, cioe' dei tieds, forse usano questa formula.
previous slide, 32 | all lessons, these slides index | next slide, 36 |