Capire il ciclo cellulare attraverso la matematica

I sistemi biologici sono omplessi e difficili da computare a livello informatico, tanto che per descriverli è necessario ricorrere a modelli matematici probabilistici. Le semantiche approssimate permettono di quantificare la somiglianza tra questi modelli semplificati e quelli orginari

Giu. 06, 2016 at 2:00 pm

RICERCANDO ALL’ESTERO – “Quando lavori con la matematica, non cerchi un risultato perché è lei stessa a dirti quale dovrebbe essere. Tu devi solo essere abbastanza abile da saperla ascoltare. Adesso tutti si stanno buttando sul calcolo probabilistico per i quantum computer e mi affascina l’idea di studiare questo nuovo paradigma di computazione, completamente diverso da quelli esistenti finora”.

Nome: Giorgio Bacci
Età: 33 anni
Nato a: Pordenone
Vivo a: Aalborg (Danimarca)
Dottorato in: Informatica (Udine)
Ricerca: Semantiche approssimate per sistemi quantitativi
Istituto: Department of Computer Science (Danimarca)
Interessi: ascolto musica e mi piace passare il tempo libero con gli amici
Di Aalborg mi piace: le persone
Di Aalborg non mi piace: d’inverno fa freddo
Pensiero: Life is a lot like jazz… it’s best when you improvise. (George Gershwin)

In cosa consiste la semantica di processi?
Si tratta di una branca di ricerca dell’informatica che descrivere i sistemi dinamici come fossero espressioni algebriche in cui, al posto di avere le classiche operazioni di addizione o sottrazione, ci sono operazioni di composizione parallela o di scelta probabilistica. I sistemi biologici, per esempio, si adattano molto bene a questa descrizione perché sono molto complessi e composti da molte sottoparti, ciascuna con un comportamento specifico e in grado di interagire con tutte le altre. Per capire quali sono i comportamenti emergenti in un sistema simile si può ricorrere a modelli matematici probabilistici che riescono a sopperire alla mancanza di un’informazione esatta descrivendone i comportamenti statistici nei grandi numeri.

Questo tipo di sistemi sono però difficili da analizzare, anche per i computer più potenti, perché molti di essi sfortunatamente ricadono nella classe di complessità chiamata NP-hard che comprende tutti quei problemi decisionali che, per trovare una soluzione su una macchina di Turing non deterministica, impiegano un tempo che è come minimo polinomiale sulla dimensione dell’input. Quindi, siccome i sistemi di cui ci occupiamo sono troppo grossi e ci si metterebbe troppo tempo ad analizzarli o verificarli, cerchiamo di trovare modelli alternativi che minimizzino il più possibile questa complessità, pur mantenendo le caratteristiche di interesse. Il modello semplificato che forniamo deve essere il più simile possibile a quello reale e, anche se il risultato che si ottiene ha un errore, grazie alle semantiche approssimate possiamo dire quanto il valore ottenuto è distante da quello reale.

Come si valuta l’equivalenza tra due modelli?
L’equivalenza più studiata fra sistemi probabilistici è la bisimilarità, che non paragona semplicemente input e output ma osserva il loro comportamento mentre evolvono. Quando però i valori numerici, cioè le probabilità, che descrivono questi sistemi sono soggetti a errori, l’analisi matematica potrebbe venire falsificata o, alle volte, del tutto stravolta. Immaginiamo un sistema in evoluzione e un certo comportamento che vogliamo verificare che viene perturbato nei valori numerici: anche se la deviazione iniziale è minima, se lo stesso errore viene ripetuto un numero infinito di volte, la deviazione finale potrebbe diventare drammatica e quindi impedire la verifica delle proprietà che si volevano studiare.

Quando ci sono valori numerici in mezzo, l’idea di avere una semantica approssimata che quantifichi la differenza tra modelli torna molto utile perché sostituisce il paradigma dell’equivalenza relazionale esatta con il paradigma di metriche. Se due modelli sono equivalenti allora la loro distanza è zero, altrimenti ci sono tutta una serie di sfumature che possiamo quantificare. Noi studiamo queste distanze.

Ci sono tipologie di distanze diverse in base al tipo di informazioni che si vogliono ricavare dal sistema?
Sì certo, ciascuna distanza parla di una certa proprietà del sistema. La mia ricerca si propone di caratterizzare queste distanze e dire quanto alcune proprietà sono difficili da computare. E alla fine, di dire quanto la semplificazione del modello fatta approssima bene il modello originario, rispetto a quel determinato comportamento di interesse. È un valore numerico che, a seconda del contesto di studio, ha diversi significati.

Quali sono le applicazioni di questi studi?
Ce ne sono tantissime e sono molto varie, per esempio negli algoritmi di routing quando scambiamo messaggi in rete. Siamo tutti connessi grazie a una grossa rete e quando comunichiamo tra noi attraverso i computer, non mandiamo l’intero file tutto di botto ma piccoli pacchetti di informazioni per volta. Questi pacchetti vengono poi distribuiti ma non tutti fanno lo stesso percorso, devono solo avere lo stesso mittente e lo stesso destinatario. Alcuni potrebbero andare persi o intercettati da qualche persona malintenzionata. Con questo tipo di analisi, si può stimare la probabilità che ciò avvenga e valutare la correttezza dei protocolli di comunicazione o di sicurezza in rete.

E in campo biologico?
Il mio gruppo ha avuto dei contatti con la Microsoft Research di Cambridge per argomenti di biologia dei sistemi: c’è un modello che si chiama Cell Cycle Switch che calcola il comportamento della rete biochimica di molecole coinvolte nel ciclo cellulare e, in particolare, approssima il momento in cui le chinasi ciclina dipendenti si attivano prima che la cellula entri in mitosi. Il modello matematico descrive questo switch biologico, che è come un interruttore, e cerca di prevedere quali popolazioni di molecole si attivano o disattivano e quali prevalgono sulle altre in numero.

In informatica esisteva già un algoritmo per sistemi distribuiti basato su meccanismi simili, chiamato Approximate Majority, usato per prevedere quale fra due popolazioni antagoniste prevale statisticamente sull’altra. Questo algoritmo è ottimale nel senso che raggiunge il suo risultato nel minor tempo e con minor risorse possibili. Si è osservato che Cell Cycle Switch differisce da Approximate Majority, ovvero dall’ottimo matematico, solo per il fatto che in natura ci sono dei vincoli biologici che non permettono di realizzare alcuni dei meccanismi previsti.

Usare le distanze comportamentali è molto importante in questo caso perché il nostro obiettivo è provare a sintetizzare modelli biologici più adeguati per la descrizione di cicli cellulari, magari finora non del tutto compresi, cercando di approssimare l’ottimo matematico dal punto di vista della distanza, rispettando i vincoli biologici del sistema.

Quali sono le prospettive future del tuo lavoro?
È diventato di tendenza avere linguaggi di programmazione probabilistici, che vengono per esempio usati da Google per fare inferenza bayesiana. Questi linguaggi di programmazione permettono di descrivere sistemi probabilistici in modo più semplice e la nostra idea è di lavorare per definire una distanza che si basi direttamente sulla sintassi del linguaggio e che quindi sia più facile da computare.

Pubblicato con licenza Creative Commons Attribuzione-Non opere derivate 2.5 Italia.

Condividi su

Tags :informatica matematica modelli probabilistici

Luisa Alessio

Biotecnologa di formazione, ho lasciato la ricerca quando mi sono innamorata della comunicazione e divulgazione scientifica. Ho un master in comunicazione della scienza e sono convinta che la conoscenza passi attraverso la sperimentazione in prima persona. Scrivo articoli, intervisto ricercatori, mi occupo della dissemination di progetti europei, metto a punto attività hands-on, faccio formazione nelle scuole. E adoro perdermi nei musei scientifici.

view all posts