Quanto è significativo un risultato scientifico (dalla velocità dei neutrini alla misura del bosone di Higgs)

Uno degli ultimi libri di testo scientifico che ho comprato è intitolato “Bayesian reasoning in data analysis: a critical introduction” scritto dal prof. G. D’Agostini, dell’Università La Sapienza.

È un libro molto interessante per chi ha bisogno di comprendere e di sviluppare un’analisi dati, perché spiega i dettagli statistici coinvolti nell’interpretazione dei dati, in modo molto pratico e comprensibile ai fisici sperimentali (che in genere non vanno molto d’accordo con concetti matematici astratti). Il punto principale del libro è spiegare cosa vuol dire fare una scoperta “ad un certo numero di sigma”. Per Sigma si intende la deviazione standard della distribuzione gaussiana normale, e spesso, in fisica delle particelle, viene usata come “unità di misura della bontà della scoperta”.

L’idea è che nel momento in cui si fa una misura si fa un’ipotesi statistica (chiamata H0) e poi si calcola la distribuzione delle misure in base a questa ipotesi. Quindi, data una certa ipotesi, si può calcolare la probabilità di fare una misura o un’altra. Per esempio, se prendo un metro e misuro la lunghezza di un tavolo, e faccio questa misura per diverse migliaia di volte, e se creo un istogramma delle mie misure, queste si distribuiranno secondo una gaussiana, come nell’immagine qui sotto:

A questo punto sappiamo la distribuzione di probabilità delle nostre misure, e possiamo associare una probabilità alla misura effettuata. Torniamo al tavolo. L’idea è che noi facciamo un’ipotesi di quale sia la lunghezza del tavolo, in base a delle considerazioni teoriche. Per esempio, guardiamo delle foto del tavolo o discutiamo con il produttore e in base alle informazioni che raccogliamo diciamo che secondo noi il tavolo è lungo 1,00 m. A questo punto, prendiamo un metro e misuriamo il tavolo.

La nostra misura ci dice che il tavolo è lungo 1,5m. In base alle nostre ipotesi (e discussioni con il produttore eccetera) possiamo calcolare quanto sia plausibile la nostra ipotesi che il tavolo è lungo un metro pur avendo misurato 1,5m. Per esempio, se il metro che abbiamo usato è una barra di legno lunga 2 metri, e noi “a occhio” abbiamo visto che il tavolo è circa tre quarti della barra, c’è una certa probabilità che il nostro occhio abbia sbagliato, e che il tavolo sia in effetti la metà della barra. Quindi quando dò il mio risultato dico questo: il tavolo è lungo 1 metro con un livello di confidenza di 1 sigma. In base alla tabella sottostante, se dò il mio risultato a 1 sigma vuol dire che associo una probabilità del 68,27% alla mia misura.

# Sigma % dentro alla curva % fuori dalla curva
1 sigma 68.2689492% 31.7310508%
3 sigma 99.7300204% 0.2699796%
5 sigma 99.9999426697% 0.0000573303%

Questa probabilità, però non mi dice che ho il 68,27% che la mia misura sia “giusta” o che il valore che ho misurato sia il “valore vero”. Questo numero è invece la probabilità che, data la mia ipotesi di descrizione del sistema, io faccia una misura uguale o superiore a quella che ho fatto.

Come si vede da questa tabella, dire che la mia misura è fatta a 5 sigma vuol dire che c’è solo lo 0,000057% di probabilità di fare una misura uguale o superiore al valore che ho osservato. Questo valore è veramente molto piccolo, ed è per questo che quando si ha una misura a 5 sigma si può “ufficialmente” annunciare una scoperta scientifica. Se la nostra misura è a 3 sigma, è un segnale che la nostra analisi è nella direzione giusta, ma la probabilità non è ancora sufficiente per una vera e propria scoperta.

Ora, come calcolare e come interpretare queste famose “sigma” è tutto fuorché facile. L’autore del libro che ho citato prima, Giulio D’Agostini, è la persona che ritengo prenda più sul serio questo problema e che sappia spiegare nel modo migliore come interpretare le nostre misure. Da pochi giorni ha reso disponibile un suo articolo su ArXiv, un sito di raccolta gratuita di articoli scientifici (non ancora sottoposti a peer review).

Già dal titolo “Probably a discovery: Bad mathematics means rough scientific communication”, si capisce come una cattiva interpretazione matematica del risultato porti a un’incomprensione totale del significato scientifico della misura stessa. In particolare, D’Agostini prende un esempiio specifico. Il 4 Aprile 2011 la collaborazione CDF, uno degli esperimenti del Tevatron di Chicago, ha pubblicato un articolo su una loro potenziale scoperta.

Come potete leggere da questo articolo divulgativo, la stampa ha dato la scoperta praticamente per certa: la collaborazione ha osservato un picco nei loro dati che poteva venir spiegato con una nuova particella, forse lo stesso bosone di Higgs, o addirittura da una nuova forza fondamentale. Io vi consiglio di leggere l’articolo di D’Agostini che è estremamente didattico, ma cercherò (camminando sui cristalli, perché una parola sbagliata può farmi dire delle grandi cavolate) di spiegare il punto.

CDF ha dichiarato che la loro misura aveva un livello di confidenza di 3,2 sigma. I giornalisti scientifici hanno preso questo numero, la tabellina qui sopra e si sono lanciati in interpretazioni molto pericolose. Il NYTimes, per esempio, ha detto che “c’è meno di un quarto percento di probabilità che questo picco sia una fluttuazione statistica”.

Nell’articolo che ho linkato poco sopra, si dice addirittura che questa misura ha il 99,7% di probabilità di essere corretta. Queste frasi sono errate, perché non vi è un modo diretto di collegare il valore della probabilità citato (chiamato anche p-value, di cui vi consiglio di leggere la pagina di wikipedia in inglese, perché quella in italiano è fuorviante) alla veridicità della mia ipotesi. L’interpretazione di questo numero è molto complessa e il problema è complicato dal fatto che vi sono due diverse teorie statistiche che possono essere applicate: la teoria “frequentista” e la teoria “bayesana”.

Questo rende molto difficile spiegare al pubblico il valore delle misure scientifiche. Un altro chiaro esempio è quello della misura dei neutrini superluminali, annunciati addirittura a 5 sigma. Eppure, nonostante le 5 sigma, i fisici di tutto il mondo sono rimasti molto dubbiosi sulla veridicità di questo risultato. Ciò non vuol dire che la loro analisi è sbagliata, ma semplicemente che deve essere intepretata nel modo giusto, che NON è dire che si ha il 99,999% che il risultato sia vero.

Alternativamente, i risultati proposti la settimana scorsa dall’LHC, in cui i due esperimenti principali hanno annunciato di aver misurato il bosone di Higgs con una probabilità di poco meno di 3 sigma ciascuno, risultano essere scientificamente più affidabili. Ovviamente non sono ancora risultati conclusivi, ma quello che voglio cercare di comunicare con questo post è che non sempre le misure fatte da questi esperimenti sono facilmente interpretabili o danno una risposta chiara, anzi!

Il diavolo sta nei dettagli e l’interpretazione della misura è estremante dipendente dalla comprensione che si ha di tutti i dettagli, non solo a livello hardware, ovvero di comprensione dello strumento, ma anche concettuali, sulle ipotesi che necessariamente sono fatte per completare questa misura e che, a conti fatti, sono parte fondante delle misure stesse. Per esempio, ecco l’immagine che ha fatto una mia collega e che mostra come il risultato del Tevatron di cui si parla nell’articolo di D’Agostini possa cambiare completamente cambiando l’interpretazione del background:

Press ESC to close