RICERCANDO ALL'ESTERO

Diagnosi e prognosi di malattie con la biostatistica

Oggi abbiamo a disposizione grandi moli di dati medici. Se analizzati e rielaborati, possono diventare una potente risorsa per la clinica.

RICERCANDO ALL’ESTERO – Ogni giorno produciamo e rilasciamo enormi quantità di dati eterogenei, anche in campo sanitario: ci sono le informazioni provenienti dagli studi clinici, dalle cartelle e dagli esami medici, dai test genetici. Nell’ultimo decennio, è diventato sempre più importante non tanto la quantità di questi Big Data, ma l’uso che ne viene fatto e la nostra capacità di analizzarli e comprendere in modo efficace le nuove informazioni.

La biostatistica sviluppa e applica metodi di analisi di dati per rispondere a domande e problemi relativi alla biologia, alla salute e alla medicina umana

Emanuele Mazzola è un biostatistico che lavora al Dana-Farber Cancer Institute di Boston: la sua ricerca consiste nel trasformare i dati, in genere legati a problemi di salute e alle malattie, in conoscenza con l’obiettivo ultimo di far progredire la salute pubblica.

Nome: Emanuele Mazzola
Età: 47 anni
Nato a: Milano
Vivo a: Boston (Stati Uniti)
Dottorato in: statistica (Milano)
Ricerca: biostatistica applicata alla ricerca sui tumori
Istituto: Department of Biostatistics & Computational Biology, Dana-Farber Cancer Institute (Boston, Stati Uniti)
Interessi: musica (jazz e rock), viaggiare, giocare a golf
Di Boston mi piace: è una città molto vivibile ed europea, è molto aperta
Di Boston non mi piace: l’inverno è lungo
Pensiero: Hanc marginis exiguitas non caperet. (Pierre de Fermat)

Che tipo di dati analizzate e con quali metodi statistici?

Un progetto importante di cui ci stiamo occupando riguarda la prevalenza e l’incidenza di malattie sessualmente trasmesse. Faccio parte di un gruppo di modellizzazione chiamato PPLM (Prevention Policy Modelling Lab), finanziato dal CDC (Centers for Disease Control and prevention), che è l’organismo americano di controllo sulla sanità pubblica e che ha raccolto una grande quantità di dati su malattie come la clamidia, la sifilide, la gonorrea e su quante persone all’interno di una popolazione hanno certe patologie.

Il CDC voleva un modello che spiegasse l’evoluzione anno per anno della prevalenza e dell’incidenza di queste malattie e che permettesse di fare previsioni per gli anni in cui i dati non sono stati ancora raccolti. Una cosa simile non è mai stata fatta prima: abbiamo creato un modello gerarchico che da un lato segue un’evoluzione temporale e dall’altro è in grado di calcolare grandezze generalmente ritenute secondarie rispetto alla brutale proporzione di persone con una certa malattia. Mi riferisco, per esempio, alla durata dell’infezione in persone asintomatiche oppure sintomatiche, la percentuale di soggetti sottoposti a screening, la completezza del sistema di registrazione dei dati.

Il modello può sembrare semplice ma a ogni insieme di grandezze corrisponde una grandezza stimata a livello superiore e, per ciascun sotto-modello, abbiamo dovuto ragionare a lungo per capire come modellizzare la serie dei casi riportati, dell’incidenza, della prevalenza.

Un modello simile può essere applicato a qualsiasi tipo di dati?

In generale, la potenza di un modello sta nella sua flessibilità e nella possibilità di non fare assunzioni iniziali. È importante riuscire a trovare un metodo computazionale valido che permetta di classificare in maniera omogenea qualsiasi tipo di dato.

A questo proposito, in collaborazione con la Georgetown University stiamo mettendo appunto un metodo molto generale di classificazione delle osservazioni variabili all’interno di un insieme di dati. L’idea è di avere un modello applicabile anche al di fuori della ricerca medica, come per esempio alla profilatura di clienti per un’assicurazione.

In un insieme di dati ci possono essere variabili anche molto grandi, che contengono osservazioni basate su diverse quantità: nel nostro caso le osservazioni sono di tipo clinico (per esempio misure relative alla malattia di un paziente, dati demografici) o genetico (se un gene è attivo in un certo tessuto, quanto è attivo).

Oltre alle variabili, si deve considerare il risultato che interessa studiare, per esempio la sopravvivenza del paziente o la misura del tumore o se il paziente viene riammesso in ospedale dopo la procedura chirurgica. Chiaramente, i risultati di interesse possono avere comportamenti diversi a seconda dei diversi sottogruppi di pazienti contenuti nel dataset. Per fare un esempio, uomini e donne possono avere risposte diverse a tipi di trattamento diversi o a uno stesso trattamento.

Quando arrivano i dati, questi comportamenti non sono già identificati, l’obiettivo della nostra ricerca è proprio riuscire a trovare un modo per suddividerli in maniera esplicita.
Siamo riusciti a inventare un metodo computazionale in grado di spezzettare il dataset in gruppi omogenei, e di evidenziare le relazioni funzionali tra le variabili specifiche di ogni sottogruppo e il risultato che interessa studiare.

Il problema è che le variabili non sempre sono semplici quindi non sempre è possibile scrivere esplicitamente una formula che le leghi al risultato. A volte sono variabili molto complicate, per cui non è possibile avere una formula o in cui ci sono deviazioni che complicano la relazione generale che c’è tra loro. Il nostro metodo è talmente potente che riesce a individuare anche le relazioni più difficili o le interazioni tra le variabili. Inoltre, è un metodo non parametrico, quindi non si basa su assunzioni iniziali specifiche.

Su che modelli statistici si basa?

Abbiamo usato due strutture già conosciute e studiate in letteratura, scelte perché hanno belle caratteristiche iniziali, sono molto generali e permettono una grossa flessibilità di ipotesi iniziali: si tratta dei modelli di mistura e degli alberi di classificazione.

Gli alberi di classificazione bayesiani sono procedure computazionali che, stabilite delle regole, permettono di classificare le osservazioni usando delle partizioni. Per esempio, per classificare la popolazione del mio ufficio a seconda dell’altezza, posso stabilire delle soglie di centimetri: più bassi di 150, tra 150 e 170, oltre i 170. Grazie a delle regole, i dati possono essere suddivisi in gruppi omogenei.

I modelli di mistura vengono usati per combinare i diversi alberi di classificazione non con un semplice accostamento ma assegnando un peso diverso ai diversi alberi. Questo peso può essere, molto banalmente, una probabilità di capitare: gli alberi che hanno più probabilità di capitare hanno rilevanza maggiore di quelli che capitano meno frequentemente.

Quali sono le prospettive future del tuo lavoro?

Abbiamo un sacco di richieste di collaborazioni, probabilmente ci concentreremo sul tumore al polmone, sulla valutazione di procedure chirurgiche di rimozione del tumore, l’analisi di dati di tipo genetico sul mesotelioma, la valutazione dell’importanza del numero di linfonodi rimossi durante le procedure chirurgiche.

Segui Luisa Alessio su Twitter

Leggi anche: I “Big data” possono chiarire l’utilità delle campagne di sensibilizzazione

Pubblicato con licenza Creative Commons Attribuzione-Non opere derivate 2.5 Italia.   

Condividi su
Luisa Alessio
Biotecnologa di formazione, ho lasciato la ricerca quando mi sono innamorata della comunicazione e divulgazione scientifica. Ho un master in comunicazione della scienza e sono convinta che la conoscenza passi attraverso la sperimentazione in prima persona. Scrivo articoli, intervisto ricercatori, mi occupo della dissemination di progetti europei, metto a punto attività hands-on, faccio formazione nelle scuole. E adoro perdermi nei musei scientifici.