di  -  mercoledì 21 dicembre 2011

Uno degli ultimi libri di testo scientifico che ho comprato è intitolato “Bayesian reasoning in data analysis: a critical introduction” scritto dal prof. G. D’Agostini, dell’Università La Sapienza.

È un libro molto interessante per chi ha bisogno di comprendere e di sviluppare un’analisi dati, perché spiega i dettagli statistici coinvolti nell’interpretazione dei dati, in modo molto pratico e comprensibile ai fisici sperimentali (che in genere non vanno molto d’accordo con concetti matematici astratti). Il punto principale del libro è spiegare cosa vuol dire fare una scoperta “ad un certo numero di sigma”. Per Sigma si intende la deviazione standard della distribuzione gaussiana normale, e spesso, in fisica delle particelle, viene usata come “unità di misura della bontà della scoperta”.

L’idea è che nel momento in cui si fa una misura si fa un’ipotesi statistica (chiamata H0) e poi si calcola la distribuzione delle misure in base a questa ipotesi. Quindi, data una certa ipotesi, si può calcolare la probabilità di fare una misura o un’altra. Per esempio, se prendo un metro e misuro la lunghezza di un tavolo, e faccio questa misura per diverse migliaia di volte, e se creo un istogramma delle mie misure, queste si distribuiranno secondo una gaussiana, come nell’immagine qui sotto:

A questo punto sappiamo la distribuzione di probabilità delle nostre misure, e possiamo associare una probabilità alla misura effettuata. Torniamo al tavolo. L’idea è che noi facciamo un’ipotesi di quale sia la lunghezza del tavolo, in base a delle considerazioni teoriche. Per esempio, guardiamo delle foto del tavolo o discutiamo con il produttore e in base alle informazioni che raccogliamo diciamo che secondo noi il tavolo è lungo 1,00 m. A questo punto, prendiamo un metro e misuriamo il tavolo.

La nostra misura ci dice che il tavolo è lungo 1,5m. In base alle nostre ipotesi (e discussioni con il produttore eccetera) possiamo calcolare quanto sia plausibile la nostra ipotesi che il tavolo è lungo un metro pur avendo misurato 1,5m. Per esempio, se il metro che abbiamo usato è una barra di legno lunga 2 metri, e noi “a occhio” abbiamo visto che il tavolo è circa tre quarti della barra, c’è una certa probabilità che il nostro occhio abbia sbagliato, e che il tavolo sia in effetti la metà della barra. Quindi quando dò il mio risultato dico questo: il tavolo è lungo 1 metro con un livello di confidenza di 1 sigma. In base alla tabella sottostante, se dò il mio risultato a 1 sigma vuol dire che associo una probabilità del 68,27% alla mia misura.

# Sigma % dentro alla curva % fuori dalla curva
1 sigma 68.2689492% 31.7310508%
3 sigma 99.7300204% 0.2699796%
5 sigma 99.9999426697% 0.0000573303%

Questa probabilità, però non mi dice che ho il 68,27% che la mia misura sia “giusta” o che il valore che ho misurato sia il “valore vero”. Questo numero è invece la probabilità che, data la mia ipotesi di descrizione del sistema, io faccia una misura uguale o superiore a quella che ho fatto.

Come si vede da questa tabella, dire che la mia misura è fatta a 5 sigma vuol dire che c’è solo lo 0,000057% di probabilità di fare una misura uguale o superiore al valore che ho osservato. Questo valore è veramente molto piccolo, ed è per questo che quando si ha una misura a 5 sigma si può “ufficialmente” annunciare una scoperta scientifica. Se la nostra misura è a 3 sigma, è un segnale che la nostra analisi è nella direzione giusta, ma la probabilità non è ancora sufficiente per una vera e propria scoperta.

Ora, come calcolare e come interpretare queste famose “sigma” è tutto fuorché facile. L’autore del libro che ho citato prima, Giulio D’Agostini, è la persona che ritengo prenda più sul serio questo problema e che sappia spiegare nel modo migliore come interpretare le nostre misure. Da pochi giorni ha reso disponibile un suo articolo su ArXiv, un sito di raccolta gratuita di articoli scientifici (non ancora sottoposti a peer review).

Già dal titolo “Probably a discovery: Bad mathematics means rough scientific communication”, si capisce come una cattiva interpretazione matematica del risultato porti a un’incomprensione totale del significato scientifico della misura stessa. In particolare, D’Agostini prende un esempiio specifico. Il 4 Aprile 2011 la collaborazione CDF, uno degli esperimenti del Tevatron di Chicago, ha pubblicato un articolo su una loro potenziale scoperta.

Come potete leggere da questo articolo divulgativo, la stampa ha dato la scoperta praticamente per certa: la collaborazione ha osservato un picco nei loro dati che poteva venir spiegato con una nuova particella, forse lo stesso bosone di Higgs, o addirittura da una nuova forza fondamentale. Io vi consiglio di leggere l’articolo di D’Agostini che è estremamente didattico, ma cercherò (camminando sui cristalli, perché una parola sbagliata può farmi dire delle grandi cavolate) di spiegare il punto.

CDF ha dichiarato che la loro misura aveva un livello di confidenza di 3,2 sigma. I giornalisti scientifici hanno preso questo numero, la tabellina qui sopra e si sono lanciati in interpretazioni molto pericolose. Il NYTimes, per esempio, ha detto che “c’è meno di un quarto percento di probabilità che questo picco sia una fluttuazione statistica”.

Nell’articolo che ho linkato poco sopra, si dice addirittura che questa misura ha il 99,7% di probabilità di essere corretta. Queste frasi sono errate, perché non vi è un modo diretto di collegare il valore della probabilità citato (chiamato anche p-value, di cui vi consiglio di leggere la pagina di wikipedia in inglese, perché quella in italiano è fuorviante) alla veridicità della mia ipotesi. L’interpretazione di questo numero è molto complessa e il problema è complicato dal fatto che vi sono due diverse teorie statistiche che possono essere applicate: la teoria “frequentista” e la teoria “bayesana”.

Questo rende molto difficile spiegare al pubblico il valore delle misure scientifiche. Un altro chiaro esempio è quello della misura dei neutrini superluminali, annunciati addirittura a 5 sigma. Eppure, nonostante le 5 sigma, i fisici di tutto il mondo sono rimasti molto dubbiosi sulla veridicità di questo risultato. Ciò non vuol dire che la loro analisi è sbagliata, ma semplicemente che deve essere intepretata nel modo giusto, che NON è dire che si ha il 99,999% che il risultato sia vero.

Alternativamente, i risultati proposti la settimana scorsa dall’LHC, in cui i due esperimenti principali hanno annunciato di aver misurato il bosone di Higgs con una probabilità di poco meno di 3 sigma ciascuno, risultano essere scientificamente più affidabili. Ovviamente non sono ancora risultati conclusivi, ma quello che voglio cercare di comunicare con questo post è che non sempre le misure fatte da questi esperimenti sono facilmente interpretabili o danno una risposta chiara, anzi!

Il diavolo sta nei dettagli e l’interpretazione della misura è estremante dipendente dalla comprensione che si ha di tutti i dettagli, non solo a livello hardware, ovvero di comprensione dello strumento, ma anche concettuali, sulle ipotesi che necessariamente sono fatte per completare questa misura e che, a conti fatti, sono parte fondante delle misure stesse. Per esempio, ecco l’immagine che ha fatto una mia collega e che mostra come il risultato del Tevatron di cui si parla nell’articolo di D’Agostini possa cambiare completamente cambiando l’interpretazione del background:

20 Commenti »

I commenti inseriti dai lettori di AppuntiDigitali non sono oggetto di moderazione preventiva, ma solo di eventuale filtro antispam. Qualora si ravvisi un contenuto non consono (offensivo o diffamatorio) si prega di contattare l'amministrazione di Appunti Digitali all'indirizzo info@appuntidigitali.it, specificando quale sia il commento in oggetto.

  • # 1
    Griso
     scrive: 

    Ho usato anche io quel libro per la mia tesi :)

  • # 2
    Cipo
     scrive: 

    beh io stavolta non ho capito… è quell “interpretare nel modo giusto” che mi sfugge. forse voglio andare troppo a fondo rispetto alle mie conoscenze?

  • # 3
    Eleonora Presani (Autore del post)
     scrive: 

    Cipo…
    hai ragione, mi sono resa conto a testo finito di essermi imbarcata in spiegazioni più grandi di me….

  • # 4
    Engharat
     scrive: 

    A me sembra piu’ che altro che tu non abbia dato alcuna spiegazione! :D o per meglio dire, ci hai messi davanti al problema, ci hai spiegato come NON bisogna interpretare quei sigma, ma non ci hai detto però come interpretarli!!
    Provo a pescare ricordi dal mio esame di teoria dei fenomeni aleatori…se ad una misura x=100 ho una incertezza di +- 0.1 con sigma=3,allora cio’ vuol dire che se rifaccio la misura del mio esperimento, 99,7 volte su 100 otterro’ un risultato compreso fra 100.01 e 99.99; insomma, al 99,7% delle volte il nuovo risultato della misura sara’ compreso nel margine di incertezza.
    Perchè allora non posso dire che(se tutto è stato fatto a regola d’arte, e non ci sono errori non tenuti in considerazione) la possibilità che il picco sia dovuto ad una fluttuazione statistica è solo del 0.03%?

  • # 5
    Antonio Barba (TheKaneB)
     scrive: 

    @Engharat: ti sei risposto da solo :-)
    Hai il 99.7% di probabilità di rifare una misura entro quel range, ma nessuna indicazione del fatto che la misura fatta sia in qualche modo correlata con l’interpretazione teorica del fenomeno.

    In sostanza io potrei dire: “questo amuleto tiene lontani gli zombie” e poi comincio a misurare sperimentalmente la quantità di zombie nell’area di interazione del mio amuleto magico. Rilevando una totale assenza di zombie, con un sigma di 6 o 7, cosa posso rilevare? Che il mio amuleto magico funziona come previsto? :-D

    Ecco qual è, in soldoni, il succo del discorso :-)

  • # 6
    Engharat
     scrive: 

    Bene,ma a questo punto il problema è soltanto di legare il risultato sperimentale a quello teorico; cioè capire COSA quel picco significhi. Però che quel picco non è dovuto ad una fluttuazione statistica, ma è invece dovuto a qualche fenomeno fisico ancora da spiegare, questo direi che è *quasi* indubbio già a 3 sigma :)

  • # 7
    Engharat
     scrive: 

    @Antonio Barba (TheKaneB) E aggiungo: a questo punto non è piu’ un problema di quante sigma ottengo dalla mia misura; 4,5 o 6 non mi fa piu’ differenza, se il problema è interpretare il risultato.

  • # 8
    Mariano
     scrive: 

    Avere misure piuttosto certe con oggetti di misurazione di cui ci sarebbe da parlare, basandosi su ipotesi figlie di ipotesi, oppure basandosi su altre misurazioni non altrettanto solide è una cosa.
    Avere misure “un po’ meno certe”, ma sempre statisticamente non trascurabili, con meccanismi di verifica ed implicazioni tali da rendere il dato acquisito comunque “pesante” ed accurato è un altra cosa.
    (non mi sto riferendo a niente in particolare, è solo un esempio)

    Io non voglio entrare troppo a fondo nella questione più prettamente matematica.
    Lo spirito dell’articolo lo intendo come la volontà di metterci di fronte al problema, c’è misurazione e misurazione, c’è divulgazione e divulgazione, e c’è riduzione giornalistica e riduzione giornalistica.

    I passi in avanti fatti sulla determinazione della massa del bosone hanno un valore fondato molto più su certi aspetti della questione che trascendono la misurazione, situazione che invece si capovolge per i passi in avanti nell studio del fenomeno dei neutrini veloci che invece si fondano per lo più su una dannatamente precisa misurazione di, finora soltanto apparenti, discrepanze.

    E’ come essere ad un processo… per determinare se Tizio ha commesso o no quel crimine, vale più la ricostruzione fatta intrecciando 3 parziali quasi-certezze, o vale di più la versione molto-probabile di un solo testimone che ha visto tutta la scena?
    Dipende, dipende, dipende… la risposta universale a tutti i problemi del mondo, come sempre.

  • # 9
    Alessio
     scrive: 

    Il bello dei Sigma è che è diventato di moda da quando i neurtini van più veloci della luce. Prima erano nel dimenticatorio della statistica.
    O meglio si chiamavano deviazioni standard (SD), poichè sono riferite al variabile campionaria e non all’universo.
    Anche se comunque si tende a sovrapporre i termini e spesso il modo di rappresentarli non è univoco, e per n abbastanza alti la loro differenza (SD campionaria e stima della SD dell’universo) è minima, difatti cambia solo un -1 al denominatore.

  • # 10
    Alessio
     scrive: 

    Ritornando al concreto, è vero che il valore più gettonato è il p-value, ma spesso se ne è abusato sia in positivo che in negativo.

    Benchè comune a diverse applicazioni, nello specifico la statistica è leggermente diversa tra diverse scienze. Ma la sostanza non cambia. Quello che spesso non vedo è che si sparano numeri statistici, p value assurdi senza poi sapere di cosa si sta parlando. Il principio base della statistica inferenziale (ed è di questo che si parla) è che per effettuare certe analisi sono necessarie: omoschedasticità, ma questa penso riguardi poco quanto citato nell’articolo, poichè coinvolge l’uguaglianza delle varianze tra due campioni, e la normalità della distribuzione. In pochissimi articoli ho visto effettuare il test di Levine o il chi^2 per testare la normalità della distribuzione. Solo se positivo il test è lecito trarre le corrette inferenze dai risultati. Altrimenti sono necessari altri passaggi come le trasformazioni … varie (log, sin, arcsin, eccc…) per renderle normali.
    Però vige anche un altro principio (ora non ho i riferimenti) che anche se ho una scala o un tipo di misurazione di più basso livello, in cui certe statistiche non andrebbero fatte, le statistiche di più alto livello mi potrebbero dare risultati comunque migliori. Non è tutto nero su bianco quindi ma dipende dalle scelte di analisi che si fanno.
    Oltre a questo, ed è secondo me è un obiettivo a cui bisognerebbe ambire, bisognerebbe applicare la power analysis…
    MA
    ciò non toglie che l’interpretazione errata e/o l’errore sistematico è sempre in agguato e non c’è statistica che conta per quello.

    PS se non sbaglio alla fin fine la statistica applicata in quei contesti citati è un semplice one sample t-test (o sue derivazioni)?

  • # 11
    Rod
     scrive: 

    Nietzsche sosteneva che non esistono fatti ma solo interpretazioni.

  • # 12
    GiovanniGTS
     scrive: 

    Nietzsche era un filosofo, le affermazioni dei filosofi confrontate con le teorie scientifiche si sono sempre rivelate delle grandi fesserie semplicistiche

    … il pensiero scientifico allena alla rigorosità (che, se vogliamo, ha riflessi anche sull’etica)

    … il pensiero filosofico fino ad ora ha creato solo fanatismi o aforismi

    il contributo degli scienziati al progresso dell’umanità è infinitamente superiore a quello dei filosofi, ergo le loro affermazioni secondo me dovrebbero restare confinate nel campo
    degli hobby e non degli studi seri.

    Alla fine alcun problema concreto dell’umanità è stato risolto con il ricorso alla filosofia.

    Il mondo senza Nietzsche non sarebbe stato significativamente diverso, lo stesso non puo’ dirsi per Galileo, Einstein, Planck, Bohr, Heisenberg, Schrödinger, ecc.. (e per altri scienziati di altre discipline)

    Pertanto, obiettivo delle scienze è formulare teorie che permettano una interpretazione dei fenomeni e non formulare aforismi.

  • # 13
    paolo
     scrive: 

    #12

    @___@ Senza il pensiero filosofico, non solo quello moderno, la scienza moderna nemmeno esisterebbe. La persona che per prima ha enunciato i principi del moderno metodo scientifico era un filosofo.

    Riguardo a pensiero scientifico ed etica, proprio uno degli scienziati che hai citato non ha avuto un comportamento esattamente esemplare nell’epoca, certo tragica, nella quale è vissuto. Eviterei davvero di accostare le due cose.

    Riguardo poi al contributo dei filosofi alla storia dell’umanità è stato enorme (basti citare il solo Aristotele, maestro di Alessandro), nel bene come nel male.

  • # 14
    Alessio
     scrive: 

    mmmh si è perso il mio terzo post di fila, forse per sospetto spam. Comunque ci han già pensato i successivi a citare il metodo.
    In sintesi la statistica dovrebbe solo confermare ipotesi e non dare delle risposte di per se.

    Se non vedi Zombie, è forse perchè il tuo talismano funziona o perchè sei in un mondo senza zombie? (effetto pavimento)

  • # 15
    arkanoid
     scrive: 

    Eleonora….mi manca l’articolo: hai in pratica ripetuto il titolo espandendolo ma non hai detto altro..e che articolo è?

  • # 16
    GiovanniGTS
     scrive: 

    infatti la frase di Nietzsche:

    “non esistono fatti ma solo interpretazioni”

    ha dato un contributo fondamentale al progresso dell’umanità,
    certe cose saranno anche servite in passato per allenare la mente, oggigiorno pero’ non se ne sente proprio l’esigenza, mah.

    In un mondo evoluto prima si tenta di conoscere il reale (scienza) e poi si ragiona sulle implicazioni della scoperta.

    In passato si sparavano cavolate sull’ESSERE senza alcun legame con il mondo reale e senza alcuna possibilità di fare verifiche
    sperimentali.

    Chi ha studiato un po’ Hegel, Kant, Fichte, Schelling, ecc.. e poi ha cambiato tipologia di studi comprende benissimo cio’ che sto dicendo.

    Un conto è filosofeggiare in assenza di scienza, un altro conto è rifarsi alle affermazioni di filosofi passati in un tempo in cui c’e’ tanta scienza cui fare riferimento.

    Oggi dire che gli elementi fondamentali sono quattro: il fuoco, la terra, l’aria e l’acqua, fa ridere in confonto a quanto ci insegna la fisica: interazione debole, interazione forte, forza
    elettromagnetica e gravità.

    Questo è solo un esempio, tuttavia quanto sostengo è verificabile con qualsiasi affermazione filosofica. Se qualcuno vuole divertirsi puo’ anche provare.

  • # 17
    Giove
     scrive: 

    Ottimo articolo, lo stemma della paginetta di wikipedia sul significato del p-value:

    http://en.wikipedia.org/wiki/File:P_values.png

    dovrebbe essere appeso sulla porta di ogni laboratorio. Purtroppo questi concetti non sono sempre ben compresi. E’ come dire che la probabilità che se piove in cielo è nuvoloso è uguale alla probabilità che se il cielo è nuvoloso piove. Il fatto che siano possibili due statistiche, una (classica), basata sulla probabilità dei dati assegnato un modello e un’altra (bayesiana) basata sul calcolo della probabilità del modello assegnati i dati la vedo più come una opportunità che come una complicazione. La statistica classica pare poi che abbia tutta una serie di difficoltà logiche, che però non ho mai approfondito…

    Segnalo anche questo questa Open Letter bayesiana ;):

    http://www.indiana.edu/~kruschke/AnOpenLetter.htm

  • # 18
    KoD
     scrive: 

    Da 3 sigma in poi è verita. (ing. cit.)

  • # 19
    Alessio
     scrive: 

    Complesso il discorso, ho pensato anche che Bayes si sarebbe scontrato con Popper. Sarebbe però necessario un approfondimento.

    In concreto: prima mentre scrivevo il draft di un articolo, ho messo letteralmente che ci sono evidenze a favore di bla bla bla ma attualemente non certezze… da approfondire successivamente con altrei esperimenti… comunque è una prima indicazione di bla bla bla.

    Contagiato dal bosone?

  • # 20
    Giove
     scrive: 

    @Alessio

    E’ vero, il discorso è complesso, è stato versato parecchio inchiostro per discutere i limiti della statistica classica e l’approccio bayesiano. Però non mi sembra che Bayes si sarebbe scontrato con Popper…semplicemente l’inferenza bayesiana parte dal concetto di probabilità come un numero che esprime il grado di fiducia che assegnamo a un evento. In pratica, quando saremmo disposti a scommetere su una partita o sul bosone di Higgs? Troppo soggettivo? Contrario ai dettami di Popper! Si e no. Supponiamo di voler verificare il modello sguente: “esiste il bosone di Higgs”. Il punto è che a partire dalla cosidetta probabilità a priori possiamo calcolare la probabilità di un modello a partire dalle misure che abbiamo fatto. La possibilità di falsificare (con un dato livello di confidenza) una teoria a partire dalle nostre misure resta in piedi. Certo, la falsificazione di una teoria con certezza assoluta non è praticabile nemmeno con la statistica classica….Proprio ieri ho visto l’ultimo film di Lars von Trier dove si diceva che esiste sempre un “margine d’errore”…

Scrivi un commento!

Aggiungi il commento, oppure trackback dal tuo sito.

I commenti inseriti dai lettori di AppuntiDigitali non sono oggetto di moderazione preventiva, ma solo di eventuale filtro antispam. Qualora si ravvisi un contenuto non consono (offensivo o diffamatorio) si prega di contattare l'amministrazione di Appunti Digitali all'indirizzo info@appuntidigitali.it, specificando quale sia il commento in oggetto.