Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco
Cenni di statistica di base. Calcoli di regressioni e correlazioni
dicembre 2006
Corso di Laurea in: Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
Corso di laurea in: Chimica Ambientale
previous slide, 32 all lessons, these slides index next slide, 36

Kendall's tau test

  Ma mano che si procede nella presentazione dei test non parametrici qualche studente si perde nelle descrizioni e alla fine sembra che tutti i test confrontino le stesse misure e facciano le stesse comparazioni. Non e' questo il caso del Kendall τ che misura la concordanza o la discordanza di piu' coppie di osservazioni.

  La solita citazione storica e' necessaria come sempre per inquadrare il periodo storico dell'autore. Sir Maurice Kendall (1907-1983) ha sviluppato il test che lo ha reso famoso nel 1938 quasi parallelamente ad un lungo lavoro sui numeri casuali, molto meno conosciuto.

  Il test deve essere utilizzato per valutare se due serie di ranks, riferiti ad n. misure, sono correlati fra loro.

  Citando StatSoft: Kendall tau, on the other hand, represents a probability, that is, it is the difference between the probability that in the observed data the two variables are in the same order versus the probability that the two variables are in different orders.

  Oppure, citando Roger Newson at King’s College, London: Kendall's taua is the covariance between sign (Xi-Xj) and sign (Yi-Yj),.

  Questo test lavora solo con ranks, provenienti da variabili almeno ordinali o con valori binari. Normalmente viene usato per confrontare terapie mediche prescritte allo stesso paziente (vedi Nicola J. Crichton), a confrontare preparazione scientifica e posizione in carriera (vedi riferimento, ed anche questo), ed anche per analizzare la correlazione fra momenti coerenti in una serie temporale (see T. Ferguson, C. Genest, M. Hallin, Kendall's tau for autocorrelation ). Per chi vuole ecco i link a due .pdf da scaricare, Hervé Abdi, and Nicola J. Crichton

  Anche su questo test c'e' qualche piccola confusione. L'ambiguita' e' data dai tre τ citati nei libri, vedremo in seguito. Viene anche definito Kendall tau rank correlation coefficient.

hippo-l
Kendall tau distance

  Non confondete il test con la misura della distanza, gia' conoscete la distanza euclidea, la distanza su meridani e paralleli, la city-block. Dato un oggetto descritto da n. variabili la "Kendall distance" conta quante volte si ha lo stesso valore, in rank, fra le variabili. ). Non e' lo scopo della slide ma trovate qui un riferimento, e qui un altro.

hippo-l
esempio studenti/esami

  Studiando un qualsiasi test di correlazione la prima cosa da fare e' capire come funziona e poi applicarlo ad una misura reale che spesso fa saltar fuori i problemi di comprensione. Come al solito un data set reale, in questo caso vediamo se esiste un correlazione fra due esami universitari nel saper valutare la preparazione di un piccolo numero di studenti. Diamo per scontato che gli studenti applicano lo stesso impegno nei due esami (31=30 e lode).

7 studenti hanno superato due miei esami
Studente, nome  an  fr  lu  pi  ri  si  st
Esame laurea trien.  27   23   27   30   28   24   25 
Esame laurea spec.  27   24   28   29   30   23   25 
Gender  M  F  F  M  F  F  F

  7 miei studenti hanno superato l'esame nella laurea triennale e nella laurea specialistica. L'ipotesi e' che un esame sia pari all'altro come indicatore di preparazione.

Definizioni:

Kendall tau a

  Viene descritto come τa (qualche volta detto gamma), il test semplice quando non ci sono Tied Ranks.

Kendall tau b

  Invece come τb, viene descritto il test che calcola anche la correlazione dovuta ai Tied, ma presenti in piccola misura. Per il nostro esempio e per piccoli campioni e' il piu' usato e di esso presenteremo le formule.

Kendall tau c

  E' il test piu' complesso, detto τc (qualche volta chiamato anche Stuart's test), in cui si tiene conto della correlazione dovuta ai Tied, ma anche della numerosita' delle "misure" che potrebbe autocorrelarsi spontaneamente.

hippo-l
calcoliamo i rank
studente voto esame1 voto esame2 rank A rank B
an 27 27 4.5 4
fr 23 24 1 2
lu 27 28 4.5 5
pi 30 29 7 6
ri 28 30 6 7
si 24 23 2 1
st 25 25 3 3

combinazioni e segni
combinaz. esame1 esame2 sign A sign B
an-fr 4.5-1 4-2 + +
an-lu 4.5-4.5 4-5 0 -
an-pi 4.5-7 4-6 - -
an-ri 4.5-6 4-7 - -
an-si 4.5-2 4-1 + +
an-st 4.5-3 4-3 + +
fr-lu 1-4.5 2-5 - -
fr-pi 1-7 2-6 - -
fr-ri 1-6 2-7 - -
fr-si 1-2 2-1 - +
fr-st 1-3 2-3 - -
lu-pi 4.5-7 5-6 - -
lu-ri 4.5-6 5-7 - -
lu-si 4.5-2 5-1 + +
lu-st 4.5-3 5-3 + +
pi-ri 7-6 6-7 + -
pi-si 7-2 6-1 + +
pi-st 7-3 6-3 + +
ri-si 6-2 7-1 + +
ri-st 6-3 7-3 + +
si-st 2-3 1-3 - -

Calcoli:

  Costruiamo la solita tabella, da 5 colonne, nella prima il nome, nella seconda e nella terza i voti (che sono gia' una scala ordinale e potremmo gia' usare questi), nella quarta i ranks calcolati per il primo esame, nella quinta i ranks del secondo esame. I due ranks vengono calcolati sulla colonna, ognuna separatamente.

  Nel calcolare i ranks bisogna fare attenzione a mantenere il collegamento fra i due set di misure sull'oggetto.

  Ora il test prevede il calcolo (usando i rank values) di tutte le combinazioni possibili, due a due. Quante sono? Ma molte slide fa' abbiamo gia' parlato di combinazioni, permutazioni, etc.

combinazioni
combinazioni di n oggetti, p a p

  Sono 21 nel nostro caso. Qui a destra abbiamo scritto tutte le possibili combinazioni nella prima colonna, la differenza fra i due rank e' calcolata nella seconda e nella terza colonna, infine i segni ottenuti sono presentati nelle ultime due colonne.

  Come detto e ridetto TUTTI questi test e quasi tutte queste slide si possono riprodurre con un foglio elettronico, qui per esempio usando la funzione ©sign(b13) se in b13 c'e' il valore di cui ci interessa solo il segno.

  Per calcolare τ dobbiamo contare quanti coppie concordi e discordi si hanno per i segni, per tutte le combinazioni, e poi pesare per il numero di combinazioni e di ties. Con cio' si ottengono appunto valori fra -1 e +1 per τ con la formula seguente (che a lezione leggeremo passo passo):

tau-a
formula completa per calcolare τa

  La formula qui sopra e' quella completa e puo' essere usata anche in presenza di un ties, ove invece nel calcolo dei rank ci si trovi di fronte a molti ties sia nella x, (contati qui da tx) che nella y, (contati da ty) dovremmo usare la seguente:

tau-b
formula corretta in presenza di vari ties, τb

  Da cui otteniamo il valore τa = 0.762 ed invece il valore di τb = 0.801 che tiene conto del ties 4.5


Significance test

  Ora data la presenza di un solo ties gli statistici si accapiglerebbero per decidere quale formula usare, a noi invece interessa di piu' sapere se 0.762 e' significativo e percio' se H0 e' rispettata.

  Come ormai sapete il test di significativita' in tutti i nostri "test non parametrici" e' importante perche' visto il piccolo numero di oggetti coinvolti i valori del test potrebbero solo essere attribuiti al caso.

  Prima di cercare una tabella di valori critici o qualche calcolatore on-line meglio ricordare che se si sospetta una bias positivo (cioe' che aggrega, correla, dati che non lo sono) si possono usare i valori limiti per one-side, se invece non si hanno indicazioni su come potrebbe essere influenzato il test e' meglio usare i valori limiti per two-sides nella opportuna tabella.

  Questa e' una tabella con i valori critici, one-side, per Kendall's test, e' un file .ps buona conversione. Altre si trovano su vari libri di statistica (H.R. Neave et al.).

  Per l'esercizio vediamo che per n=7, il 90% di confidenza ha come limite 0.524, il 95% di confidenza ha come limite 0.619, il 99% di confidenza ha come limite 0.810, ma noi otteniamo 0.762.

  Se il valore di tau e' minore del valore tabulato (τ < C.L.) l'ipotesi H0 e' accettata. In questo esempio H0 e' rifiutata al 90% ed al 95% di confidenza, cioe' non possiamo dire che non ci sia correlazione fra i due esami. One side, cioe' siamo quasi certi che comunque i due esami hanno un correlazione positiva.

hippo-l

  Come al solito questa e' la sezione dei calcolatori on-line, eccone uno del Wessa.net del Prof. Patrick Wessa per il cacolo del Kendall's test ed un altro.

n=7, Kendall test
Il valore di p=0.023 mostra che la H0 sarebbe rispettata se
scegliessimo il 99.97% di confidenza e non il solito 95%

  Il valore calcolato e' un poco diverso dal nostro per il diverso metodo di calcolo del denominatore, cioe' dei tieds, forse usano questa formula.

previous slide, 32 all lessons, these slides index next slide, 36