Il GPS genomico
Ovvero, come sviluppare algoritmi in grado di localizzare delle mutazioni del genoma umano dovute a meccanismi di selezione naturale. E scoprirne addirittura di nuove, mai rilevate in precedenza.
Per inquadrare il problema, ricordiamo che il genoma umano è, di fatto, l’insieme di tutte le informazioni genetiche necessarie a produrre un organismo vivente nelle sue diverse funzioni, e contiene ‘parti’ che effettivamente codificano le suddette informazioni, i cosiddetti geni. I geni corrispondono a porzioni di DNA e sono contenuti nei cromosomi.
Una similitudine spesso utilizzata per visualizzare il concetto di genoma è la seguente: lo si può paragonare a un libro, contenente un certo numero di capitoli (i cromosomi). Ciascun capitolo contiene diverse centinaia di milioni di lettere, che sono le basi azotate costituenti i nucleotidi, ovvero le parti ripetitive del DNA. Pertanto, il numero totale delle ‘lettere’ del libro ammonta a vari miliardi, ed è interamente contenuto in ogni cellula dell’organismo.
Ora, una delle problematiche più complesse nell’analisi del genoma umano è la localizzazione delle mutazioni indotte dalla selezione naturale, che si rivela di fondamentale importanza nella comprensione e nella terapia delle malattie genetiche.
Per chiarire questo concetto, pensiamo alle mutazioni genetiche che hanno reso possibile a specifici gruppi di individui umani di vivere ed adattare la circolazione sanguigna e la respirazione in regioni del mondo molto calde, o a quote elevate: una comprensione approfondita di tali meccanismi potrebbe, ad esempio, condurre alla sintesi di nuovi trattamenti per pazienti affetti da malattie genetiche che ne limitano le capacità cardiovascolari o respiratorie.
Il problema fondamentale, come già accennato, risiede nella enorme quantità di dati da analizzare per determinare queste mutazioni, che impone di individuare algoritmi altamente efficienti, che sfruttino particolari segni o caratteristiche presenti nel genoma umano per velocizzare i calcoli e per ottenere risultati sempre più affidabili.
E questo è esattamente il caso di iSAFE, algoritmo sviluppato da un team di ricerca dell’Università di San Diego, e descritto in un articolo pubblicato recentemente su Nature Methods: vediamo più in dettaglio di che cosa si tratta, partendo dal titolo,”Identifying the favored mutation a positive selective sweep”.
‘Favored mutation’ si riferisce, appunto, a una mutazione specifica del genoma favorita dalla selezione naturale. Il termine ‘selective sweep‘, o ‘spazzata selettiva’, viene utilizzato per indicare la riduzione del livelli di polimorfismo in una specifica regione del genoma. Che cosa si intende con polimorfismo genetico?
Si tratta della presenza, in una data popolazione di individui, di più alleli, ovvero forme alternative, dello stesso gene: tali forme alternative sono responsabili del modo in cui si manifesta, in un dato individuo, un certo carattere, come ad esempio il colore dei capelli. Una riduzione del polimorfismo, quindi, in estrema sintesi e semplificando notevolmente, determina una minore probabilità che in una popolazione si manifestino delle differenze di opportuni caratteri genetici.
La spazzata selettiva è il risultato di due diversi processi:
- hitchhiking, o autostop genetico: si verifica quando un certo allele aumenta la sua frequenza non perché direttamente favorito dalla selezione naturale, ma perché vicino ad un altro allele favorito (che, nella colorita metafora, ‘dà un passaggio’ ai suoi prossimi)
- ricombinazione: si tratta di un processo tramite il quale vengono generati nuove combinazioni di alleli
L’effetto di una spazzata selettiva è, pertanto, una semplificazione o riduzione delle modalità di variazione dei caratteri di un individuo dovuta a meccanismi di selezione naturale, che sono poi associati agli alleli favoriti dalla stessa selezione. In altri termini, tendono a sopravvivere e ad adattarsi a certe condizioni o sollecitazioni di tipo ambientale gli individui nei quali viene ridotta la variabilità di manifestazione di specifici caratteri, rafforzando appunto le componenti genetiche più idonee alla sopravvivenza.
Quindi, un buon algoritmo di individuazione di tali mutazioni nel genoma deve essere in grado di identificare accuratamente i segni lasciati dalla spazzata nel genoma, in modo da localizzare in modo efficace le regioni del genoma interessate da tale variazione. Un aspetto importante delle tecniche utilizzate per questo complesso compito è la disponibilità o meno di informazioni aggiuntive, ad esempio di tipo demografico, associate agli individui di cui si analizza il genoma.
Naturalmente tali informazioni sono utili per agevolare la localizzazione, proprio perché ‘restringono’ il campo di indagine, consentendo di escludere le mutazioni legate non a meccanismi di selezione naturale, ma ad altri effetti, come ad esempio il cosiddetto effetto del fondatore, a causa del quale si verifica una riduzione della variabilità dei caratteri, che tuttavia non dipende dalla selezione naturale, ma dal fatto che un certo, ristretto gruppo di individui di una popolazione permanga per un tempo elevato in condizioni di isolamento rispetto agli altri individui della popolazione stessa.
Tali informazioni, tuttavia, possono essere onerose da raccogliere ed incorporare nelle procedure, oltre ad essere a loro volta affette da incertezza o possibili imprecisioni, concorrendo ad un risultato finale meno accurato. Uno dei principali vantaggi di iSAFE, come descritto nell’abstract dell’articolo, è il fatto che esso non richiede tali informazioni aggiuntive, ma sfrutta unicamente l’analisi delle sequenze vicine a una specifica mutazione favorita dalla selezione naturale, che sono di fatto le tracce lasciate dai suddetti meccanismi di selezione genetica, per individuare la mutazione stessa: questa analisi consente di ridurre notevolmente i tempi, ed isolare più efficacemente, in uno spazio di ricerca che ha una estensione molto grande, le zone potenzialmente interessanti.
I risultati ottenuti con iSAFE hanno mostrato non solo una capacità molto più elevata, rispetto a tecniche già esistenti, di identificare la mutazione corretta in relazione ad un certo carattere, ma anche di scoprire nuove mutazioni che non erano mai state rilevate o messe in evidenza.
L’algoritmo è disponibile per il download e l’installazione (solo per sistemi operativi Linux/UNIX) a questo link.
Ancora una volta va sottolineato come l’utilizzo di tecniche di intelligenza artificiale si rilevi vantaggioso quando il progettista, o l’ideatore, sia in grado di isolare alcune caratteristiche o correlazioni rilevanti tra il manifestarsi di un fenomeno e i segnali associati ai meccanismi che ne determinano l’occorrenza.
Come a dire che l’AI non fa che ‘mettere le ali’, in termini di efficienza e affidabilità, alle capacità operative dei ricercatori, sfruttando una profonda sinergia tra discipline diverse, in questo caso la biologia e la computer science.
Leggi anche: Un algoritmo per accogliere i rifugiati
Pubblicato con licenza Creative Commons Attribuzione-Non opere derivate 2.5 Italia.