Dr. G. Visco; Regressione e correlazione, la covarianza e' lineare, attenzione

Rome University, La Sapienza Chemistry Department Rome, Italy, Europe	Dr. Giovanni Visco Cenni di statistica di base. Calcoli di regressioni e correlazioni. dicembre 2006	Corso di Laurea in Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione
previous slide, 39		next slide, 41

La covarianza misura una relazione lineare, attenzione [be careful correlation measure linerity]

Come si vede anche dalla formula la covarianza misura una relazione lineare fra le due variabili, ma spesso esistono anche forti correlazioni seppur non lineari. Usiamo la covarianza per misurare la dipendenza di una variabile dall'altra.

Ne consegue che se due variabili sono indipendenti (oppure raccolgono valori casuali) la loro covarianza e' nulla. Bisogna fare attenzione a questa semplice affermazione perche' essa sottintende una relazione lineare (essa si basa sulla definizione di indipendenza stocastica espressa dall'equazione gia' vista). L'assenza di covarianza non implica che non ci sia un legame fra le due variabili.

Vediamo i dati ed il grafico di un primo caso, forse non molto clamoroso ma che ritroviamo spesso in chimica ed in biologia. Studiamo un'infezione batterica su di un'opera d'arte (libro, superficie pittorica, ecc.) contrastata dalla scarsita' di risorse, si ottiene una crescita quadratica, piu' lenta di quella esponenziale tipica. Prima scriviamo la tabella x-y

**>> Y = X² <<**
x	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29
y	1	4	9	16	25	36	49	64	81	100	121	144	169	196	225	256	289	324	361	400	441	484	529	576	625	676	729	784	841

Ora disegnamo il diagramma di dispersione per queste due variabili. Ci attendiamo una perfetta correlazione avendo calcolato noi i valori di Y data la X.

La correlazione e' evidente

Otteniamo i seguenti valori: r²=0.970 ed anche S_xy=2175. La covarianza e' molto elevata ma e' normale dati i valori elevati di Y, il coefficiente di correlazione "dovrebbe" essere 1. Pero' abbiamo gia' detto che queste formule sottintendono la linearita' e qui si vedono i primi errori.

Secondo caso, disegnamo un altro grafico questa volta davvero clamoroso. Prendiamo l'insieme dei punti del piano legati dalla relazione r²=x²+y² nota ai piu'. Prima la tabella x-y.

**>> r² = X² + Y² <<**
x	-10	-9	-8	-7	-6	-5	-4	-3	-2	-1	0	1	2	3	4	5	6	7	8	9	10
y	0	+4.359	+6	+7.141	+8	+8.66	+9.165	+9.539	+9.798	+9.95	+10	+9.95	+9.798	+9.539	+9.165	+8.66	+8	+7.141	+6	+4.359	0
y¹	0	-4.359	-6	-7.141	-8	-8.66	-9.165	-9.539	-9.798	-9.95	-10	-9.95	-9.798	-9.539	-9.165	-8.66	-8	-7.141	-6	-4.359	0

Nella tabella qui sopra, per problemi di spazio, le cifre significative sono sbagliate. Il disegno del diagramma di dispersione per queste due variabili e' facilmente riconoscibile. Ora ci attendiamo una perfetta correlazione, gia' ai matematici greci ed ancora prima in Mesopotamia era noto questo insieme di punti. Noi ci attendiamo una correlazione perfetta avendo calcolato i valori di Y data la X e seguendo l'equazione nota.

E' stato inventato prima il cerchio o la ruota?

Utilizzando il nostro amato foglio elettronico Lotus 123, utilizzando per i calcoli di y l'equazione esatta con 15 cifre decimali, applicando le formule gia' viste per la covarianza ed il coefficiente di correlazione, al limite degli errori di calcolo otteniamo i seguenti valori:r²=0.000 ed anche S_xy=0.000.

La covarianza e' nulla ed anche il coefficiente di correlazione e' nullo.

Ed ora cambiamo scenario, non avete un solo valore di covarianza ma una tabella con decine se non centinaia di valori che vi mostrano il "legame" fra le varie variabili misurate. Poniamoci nell'ottica di diffidare dai valori di correlazione piccolissimi o grandissimi e passiamo a studiare con un grafico questi casi prima di trarre conclusioni.

Tutto cio' fino a che non troveremo una formula per calcolare la covarianza non lineare.

previous slide

next slide

x	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29
y	1	4	9	16	25	36	49	64	81	100	121	144	169	196	225	256	289	324	361	400	441	484	529	576	625	676	729	784	841

x	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29
y	1	4	9	16	25	36	49	64	81	100	121	144	169	196	225	256	289	324	361	400	441	484	529	576	625	676	729	784	841

x	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29
y	1	4	9	16	25	36	49	64	81	100	121	144	169	196	225	256	289	324	361	400	441	484	529	576	625	676	729	784	841