Rome University, La Sapienza
Chemistry Department
Rome, Italy, Europe
Dr. Giovanni Visco
Chemiometria, cenni di statistica di base. Calcoli di regressioni e correlazioni. Novembre 2005
Corsi di Laurea in:
Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione, Chimica Ambientale
previous slide, 0 next slide, 2

Premessa

  Come al solito il momento piu' difficile e' questo, la prima slide, bisogna decidere a che livello approfondire, se riempire il testo di formule o raccontare una storia. Questa volta credo che un poco di formule dovremo inserirle visto che servono a comprendere cosa stiamo calcolando e come.

  La sequenza di slide si divide in due parti. Si inizia con la regressione che per un chimico/analizzatore/ricercatore e' pratica quotidiana dovendo costruire curve di calibrazione/risposta di uno strumento di misura. La seconda parte e' dedicata alla correlazione ed e' collegata con la sezione "distribuzioni" e "campionamento" che abbiamo gia' visto.

  Di correlazioni e metodi parametrici o non parametrici di indagine ce ne sono forse un numero enorme. Qui presenteremo solo i principali (dopo aver letto molti libri e riferimenti cercando le esatte definizioni e formule) consigliando a chi voglia approfondire la lettura di qualche buon libro citato alla fine.

  Ci sono da dire due cose prima di continuare:

  1. essendo le slide seguenti dedicate agli studenti del Corso di Laurea in Scienze Applicate ai Beni Culturali ed alla Diagnostica per la loro Conservazione, ma anche agli studenti del Corso di Laurea in Chimica indirizzo Ambientale, si faranno spesso riferimenti a problematiche di natura chimico-analitica. In altri contesti (scienze sociali, statistica, ecc.) si potrebbero fare altri esempi.
  2. come per le altre slide si cerca di puntare piu' sui concetti che sulle formule (che si trovano su tanti libri) ma nella seconda revisione, il prossimo anno, magari aggiungero' qualche altra formula (come fatto per le distribuzioni).

  Nella slide di questa sezione saranno inoltre presentati concetti utili a tutto il corso, come i residui di regressione, gli stimatori della predizione, una tecnica leave-one-out, cenni al bootstrap, varianza e covarianza, ecc..

hippo-1
Spreadsheet

  Come qualche altro chemiometra mi vedrete spesso a lezione usare, e sollecitarvi ad usare, uno spreadsheet. Con esso si impara a maneggiare il dato grezzo, ad inserire formule e bisogna anche imparare a darsi un ordine se no un qualsiasi file dopo due mesi e' incompresibile anche per chi lo ha scritto.

  Purtroppo l'uso distratto, superficiale, sconsiderato di uno spreadsheet fa "disastri educazionali" poi impossibili da correggere. Forse e' qui necessario affermare che gli spreadsheet sbagliano sia a far di conto sia a graficare.

  Cio' e' ancora piu' facile se usate un foglio elettronico prodotto da Micromorbido che oltre ad avere vari errori nelle formule produce anche tanti ChartJunk, ma qualche cosa si puo fare per evitare i ChartJunk. Magari questo testo vi puo' dissuadere da un uso sconsiderato degli spreadsheet!

  Giusto per far capire che il problem e' serio ecco un altra manciata di link di critiche: first, ChartJunk, second bad spreadsheet for manager, third spreadsheet addition, fourth Excel faults, fifth flaws in Excel, sixth unfortunate stat, seventh problems.

  Ora dopo questa lezione qualche studente/ssa chiede "ma allora cosa usiamo?". La risposta sarebbe "un programma di statistica famoso, meglio se OpenSource", ma se proprio volete usare uno spreadsheet almeno uno, anche lui OpenSource, in cui gli autori ci tengono a quello che scrivono, per esempio Calc di OpenOffice oppure Gnumeric.

hippo-2

Tutorial

  Pur NON SOSTITUENDO la lezione e pur presentando QUALCHE ERRORE, potete leggere questi tutorial. Per iniziare (o per finire) si puo' leggere (almeno la prima parte) del testo Statistical_Presentation_Graphics.pdf, del Prof. Frank Harrell.

  Putroppo non abbiamo l'audio di questa lezione che vorrei aver scritto io, Effective Displays of Data Need More Attention in Statistics Education, anche se qualche cosa da dire ci sarebbe sulle barre di errore.

  Magari puo' esservi utile guardare i vari tutorial sui siti dei principali produttori di software come i seguenti: Statistica oppure GnuPlot o anche KaleidaGraph oppure di Origin. In alcuni casi potete anche scaricare gli immensi manuali d'uso aggiornati che spesso sono piu' esplicativi di un libro di statistica. Una volta a questo link corrispondeva un tutorial su What kind of graph should I use? su circa una dozzina di chart diversi, ed anche potete vedere una descrizione simile qui.

  Magari una occhiata ai tutorial di quello che e' considerato il piu' affidabile fra i software del settore, Mathematica.

  Come al solito approcciando a piu' fonti quello che dovete avere sempre sono: spirito critico e diffidenza. Ma anche curiosita' verso quel meraviglioso nuovo strumento, quel mirabolante software, etc.

hippo-4
Spreadsheet

  Non e' un errore di copy/paste. Meglio ridirlo qui, usate un foglio elettronico sempre anche per cose per cui non era stato progettato, ma usando solo le formule esatte. Imparando ad usare i fogli multipli, usando una colonna per ogni calcolo semplice (in colonna G la differenza, in colonna H il quadrato di G, etc) con il risultato tutto a destra.

  Questo vi permette di padroneggiare sia il test che state usando sia problemi che sorgono nel calcolo (n/0, log(-3), etc).

previous slide next slide