ricerca

Il meritometro

Su Science David Reshef, suo fratello Yakir e altri ricercatori diretti da Pardis Sabeti all’Istituto Broad, una joint-venture dell’MIT e di Harvard, descrivono un nuovo “coefficiente di massima informazione” (MIC), che correla saldamente anche due variabili non lineari.

Esiste già l’indice di correlazione ρ (rho corsivo, precisiamo per i poco vedenti come noi) inventato da Francis Galton, il cugino eccentrico di Darwin, detto anche di Pearson per misurare il rapporto, o meno, tra variabili lineari aleatorie. Il MIC deriva dalla “mutua informazione” teorizzata da Claude Shannon ed è più ambizioso. I suoi algoritmi richiedono una potenza di calcolo mica da ridere, ma ne vale la pena: più l’insieme di dati in cui cercare configurazioni (patterns) è mastodontico e più tira fuori sorprese.

All’inizio, gli autori lo hanno provato su insiemi con centinaia di variabili – indipendenti, ovviamente – e decine di migliaia di abbinamenti possibili tra loro:

gli indicatori sociali, economici, sanitari e politici dell’Organizzazione mondiale della sanità; i trascritti dell’espressione genica nel lievito di birra che cambiano con i cicli cellulari; i risultati del baseball in prima divisione nel 2008…

Questi insiemi erano già stati analizzati con tecniche statistiche usuali, ne hanno usate altre due per confrontare e controllare la validità del MIC. Questo produceva il maggior numero di relazioni (tasso massimo di falsi positivi 5%) significative. Per esempio tra reddito e obesità femminile nei paesi dove l’obesità è positivamente correlata allo status sociale. Le differenze tra i risultati ottenuti con altri metodi sono interessanti sia per quanto riguarda il lievito che il baseball:

Sulla base dell’indice ρ, le tre correlazioni più robuste con il salario del giocatore sono le walks, le walks intenzionali e i runs con battuta. Con il MIC invece, sono i punti segnati, le basi totali e prima di tutto una popolare statistica aggregata dell’attacco, chiamata Replacement level marginal lineup value. Lasciamo ai tifosi decidere quale di queste statistiche dovrebbe essere più legata al salario…

Aperta parentesi

Grazie in anticipo al lettore o alla lettrice che spiega in che cosa consiste il Valore marginale per la formazione del livello di sostituzione. Comunque è chiaro che i New York Yankees non si meritano lo stipendio, mentre i Milwaukee Brewers si meritano un aumento.)

Chiusa parentesi

Finito il rodaggio, gli autori hanno applicato il MIC alle abbondanze delle varie famiglie di batteri intestinali umani (censite in topi “umanizzati”), e trovato tra l’altro correlazioni non associate alla dieta umana locale, e ora in attesa di informazioni sul motivo della loro presenza.

Come si vede, il MIC dovrebbe contribuire a molti tipi di ricerca. Anche perché Pardis Sabeti è già famosa per aver creato gli algoritmi che hanno consentito di interpretare le  variazioni genetiche raccolte da HapMap3, poi adottati da altre discipline che finiscono in “omica”.  Matematica, bioinformatica, è una delle rarissime donne uscite dalla Harvard School of Medicine summa con laude, campionessa universitaria di tennis, allenatrice della squadra di calcio femminile all’università di Oxford negli anni del dottorato, attuale responsabile del FAS, cantante e leader del gruppo Thousand Days, militante per il diritto alla salute di donne e bambini nel terzo mondo…

E non solo. Nel 2006 aveva accantonato per mesi la propria ricerca e cercato colleghi con i quali verificare quelle di Bruce Lahn. Il genetista dell’università di Chicago sosteneva che, per via di mutazioni recenti su due geni legati alle dimensioni del cervello, i caucasici avevano acquisito facoltà cognitive superiori a quelle degli africani. Aveva preso una cantonata, oltre a dei brevetti.

Pardis è mitica.

Immagine: Pierre-Olivier, http://www.flickr.com/photos/pocarles/3510895527

Condividi su