Rome University, La Sapienza Chemistry Department Rome, Italy, Europe |
Dr. Giovanni Visco Cenni di statistica di base. Calcoli di regressioni e correlazioni. novembre 2005 |
Corso di Laurea in Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione |
previous slide, 9 | next slide, 11 |
Prima di presentare le formule relative al calcolo della regressione e di analizzare i limiti e le potenzialita' della regressione sul piano euclideo e' meglio dare alcune definizioni.
Quando si scrive un risultato di una regressione sarebbe meglio calcolare sempre anche i valori per tutti questi parametri (ed anche quelli fra due slide!):
Esistono tanti parametri per stimare la qualita' della regressione (ellissoide di confidenza, errore standard sui valori di X regrediti, residui stimati, ecc.) ma ne parleremo fra 3 o 4 slide !
Queste sono le formule che dovrebbero essere usate da tutti i programmi per il calcolo dei valori di intercetta e pendenza nel caso di regressione O.L.S.
prima il calcolo della pendenza | poi con una delle formule, l'intercetta |
Possiamo adesso calcolare la relazione fra due variabili casuali. Necessita la citazione della pagina 73* "the correlation coefficient ..... has no meaning in calibration under the condition mentioned above because the values x are not random quanties ....".
formula statistica per il calcolo del coefficiente di correlazione |
In presenza di dati replicati (cioe' ripetendo la misura sulla medesima concentrazione, usando la ripetibilita' a breve dello strumento) si possono inserire tutti nella regressione e forse avvicinarsi un poco alle raccomandazioni IUPAC.
Lo studio dei dati replicati e' invece fondamentale per la chemiometria della regressione, una giusta applicazione di questi ci fornisce altri valori sui gradi di liberta', sull'accuratezza con cui abbiamo calcolato i parametri, sul funzionamento dello strumento, sulla qualita' dei dati anche sull'asse X, ecc.. Se ne parlera' in una slide finale.
Finalmente abbiamo ottenuto una equazione della retta di regressione nella sua forma estesa. In essa vediamo a sinistra il valore che si avrebbe per una qualsiasi Xi (senza errore!), a destra vediamo quale e' invece il valore di Yi vero. Con il metodo O.L.S. abbiamo proprio minimizzato il valore di Ɛi.
il valore teorico di Yi, dalla retta | il valore reale di Yi, con l'errore | il valore dell'errore, da studiare |
L'analisi di questi valori di Ɛi ci permettera' di trovare molti altri parametri per studiare la bonta' della regressione e gli errori associati ai parametri fino a qui presentati.
Ed ora le formule per calcolare l'errore sull'intercetta e l'errore sulla pendenza. Ricordiamo che trattasi di errori in previsione. Un altro aspetto che permette di trovare una soluzione univoca deriva dalla definizione stessa di O.L.S. cioe' che delle coordinate (xi,yi) la x e' nota senza errore.
la varianza dei residui | lo sc. quad. med. dei residui |
Nella formula per il calcolo della varianza dei residui usiamo n-2 in quanto sono noti sia a che b. Come al solito la radice della varianza e' lo scarto quadratico medio (std. dev.).
la varianza dello slope | sc. quad. med. dello slope |
Finalmente la formula qui sopra per il calcolo dell'errore (sc. quad. med.) da associare al coefficiente della X, che nel nostro caso e' detto slope, la b.
la varianza dell'intercetta | sc. quad. med. su intercetta |
Nella formula qui sopra, il calcolo dell'errore (sc. quad. med.) da associare al termine noto dell'equazione y = a + b x , cioe' ad a.
Qui le cose si complicano (se ce ne fosse bisogno), gia' il coefficiente di correlazione non e' un buon stimatore per la regressione, poi per calcolare la sua varianza i valori dovrebbero seguire una distribuzione normale e essere casualmente distribuiti, ma questo porta quasi per definizione ad un r=0, caso che non ci interessa.
la varianza teorica di r | stima dello sc.quad.med. di r | stima di Fisher dello s.q.m. di r |
Tanti statistici fra cui Fisher, Gosset, Mudappur, Jeyaratnam, si sono cimentati nel trovare un intervallo di fiducia intorno al valore di r.
La formula di sinistra e' quella teorica della varianza di r, valido per r prossimo allo 0. Di questa formula non e' noto il valore di rho, il coefficiente di correlazione della popolazione.
La formula di centro approssima il valore dello scarto quadratico medio di r per piccolo numero di campioni e per valori di r molto elevati. Usa la statistica di Gosset (cioe' puo' essere usata dove e' valida una distribuzione di Student).
La formula di destra sarebbe utilizzabile per r prossimi ad 1 (come nelle rette di calibrazione in chimica e fisica), mi sembra dovuta a Fisher, prevede molte considerazioni sulla regressione che non e' qui il caso di trattare.
NESSUNA di queste fornisce un calcolo rigoroso, non si trova nei principali software di regressione, ma di solito la formula al centro fornisce almeno un valore di stima.
E' appena il caso di ricordare che molte di queste formule sono gia' comprese nei principali fogli elettronici (Lotus 123, Open Office, ecc) e che se ne mancasse una si puo' facilmente risalire al valore con tutte le altre funzioni del foglio, somma di quadrati, ecc.. Ne riparleremo in una prossima slide.
Tanti, pieni di formule, alcune davvero importanti, alcune ben scritte, altre incomprensibili. Nelle prossime slide qualche riferimento a libri e pagine web. Come sempre per primo il riferimento alla IUPAC. Leggete in ogni caso l'elenco completo alla fine di queste slide.
previous slide | next slide |