Scopri come la Bioinformatica Rivoluziona la Comprensione delle Proteine dalla Sequenza alla Struttura!

Il rapporto tra scienza ed informatica ha creato dei connubi indissolubili nell’ambito della ricerca e dell’applicazione di nuovi studi, capaci di cambiare per sempre il corso dell’umanità. Informatica e scienze della vita si ritrovano a percorrere insieme una strada ricca di sfide ed ostacoli da superare, sia dal punto di vista tecnologico che per quanto concerne gli aspetti etici.

In un certo senso, il concetto informatico applicato alla biologia trova riscontro ancor prima del ricorso all’utilizzo dei bit, quando negli anni 50, Frederick Sanger si vide riconosciuto il premio Nobel per la chimica grazie all’introduzione del sequenziamento delle proteine, inizialmente manuale e successivamente affinato fino all’automazione proposta da Pehr Edman nel 1967.

L’esecuzione di calcoli ed operazioni complesse, chiamate a gestire una quantità enorme di dati, manifestava sin dagli albori l’esigenza pratica di ricorrere a simulazioni supportate da discipline e dispositivi informatici. Nel 1970, Saul Needleman e Christian Wunch scrissero un nuovo algoritmo, capace di comparare in maniera efficace due sequenze per analisi di similarità.

Introduzione alla Bioinformatica

Lo specifico della bioinformatica consiste dunque nel rendere fruibili, a vari livelli, le tecniche informatiche utili a risolvere concretamente i vari problemi che si prospettano durante la ricerca e l’applicazione in ambito biologico, biotecnologico, medicale, farmacologico, ecc.

Le prime applicazioni della bioinformatica sono state utili a supportare il sequenziamento del DNA, ma ben presto si sono estese fino ad interessare altre discipline della biologia. La genomica estende pertanto l’indagine all’immagine complessiva, per comprendere come le diverse parti del genoma interagiscono tra loro. Quando vi è un’associazione dichiarata tra queste discipline, è piuttosto frequente incontrare definizioni quali genetica computazionale e genomica computazionale.

Bioinformatica Strutturale

Si tratta del ramo della bioinformatica che si occupa di analizzare e predire la struttura 3D di proteine, RNA e DNA. Per cogliere il senso pratico della bioinformatica strutturale è opportuno focalizzarci sulla differenza tra “sequenza” e “struttura”.

Un aspetto sorprendente è dato dalla totale distanza percettiva che intercorre tra la sequenza di un genoma e la forma effettiva della proteina, equiparabile al modello 3D della sua struttura molecolare. Team universitari e privati (sostenuti dalle multinazionali delle AI) si sfidano per individuare metodi computazionali capaci di predire le strutture 3D delle proteine nel modo più accurato possibile.

I geni definiscono di fatto ogni organismo vivente, ma non sono l’unica fonte di informazione biologica. In altri termini, per spiegare il funzionamento di una cellula si rende necessario prendere in esame molte migliaia di proteine e tutte le possibilità interazioni che le caratterizzano.

Innanzitutto chi è il bioinformatico? Non esiste un profilo univoco, fabbricato con lo stampino. Questo implica necessariamente delle competenze in ambiente Linux e in linguaggi di programmazione come Python, Java, C++, ecc.

Algoritmi di Allineamento

Il concetto alla base degli algoritmi di allineamento è relativamente semplice, data la complessità delle operazioni che sono chiamati a risolvere: dato un dato sistema di scoring (punteggio), l’algoritmo deve allineare due sequenze con il punteggio più elevato possibile.

Gli algoritmi esatti, come i già citati Needleman-Wunsch (global gapped alignments) e Smith-Waterman (local gapped alignments) sono molto precisi ma al tempo stesso richiedono risorse computazionali molto elevate per raggiungere il loro obiettivo. Gli algoritmi euristici, di più recente concezione, non garantiscono il miglior allineamento ma si distinguono per la loro notevole velocità nell’eseguire la simulazione.

Un esempio straordinario è costituito da AlphaFold, un progetto open source sviluppato da DeepMind per risolvere il problema del Protein Folding, la simulazione in 3D delle strutture proteiche.

Uno degli aspetti più affascinanti della genomica computazionale è costituito dai differenti approcci possibili alla ricerca. Il contributo dei sistemi di intelligenza artificiale all’analisi e all’incrocio di complessi set di dati biomedici accelera il ritmo della ricerca sul genoma umano. Secondo uno studio a cura della PHG Foundation, in seno all’Università di Cambridge, in futuro, l’applicazione clinica della genomica proseguirà il suo percorso anche parallelamente all’affinamento delle tecniche di intelligenza artificiale.

La biorobotica fa propri i contributi disciplinari della robotica propriamente intesa, della bioingegneria e dell’intelligenza artificiale, con specifico riferimento a forme di intelligenza differenti da quella umana. Non è raro incontrare dei biorobot la cui forma si ispira a quella di un animale particolarmente noto, come avviene nel caso dei prototipi Silver 2 e Octopus, rispettivamente granchio e polpo robot sviluppati dall’Istituto di Biorobotica della Scuola Superiore Sant’Anna di Pisa, con l’obiettivo di esplorare i fondali marini, oltre a ripulirli dai residui inquinanti.

Applicazioni della Bioinformatica

Se la bioinformatica supporta ormai con successo le discipline legate agli studi biologici, è innegabile come le applicazioni di queste siano capaci di innescare un’azione profondamente innovativa, capace di allargare gli orizzonti determinati dagli approcci tradizionali, oppure di incrementare in maniera radicale l’efficienza dei processi già in atto.

Leggi anche: Importanza delle proteine di trasporto

L’analisi del funzionamento dei singoli organismi, uniti alla comprensione delle loro capacità metaboliche, possono risultare determinanti per disegnare un percorso terapico personalizzato, individuando i farmaci in grado di offrire una risposta migliore da parte del singolo individuo. Gli ambiti in cui la medicina di precisione è in grado di offrire significativi vantaggi sono l’oncologico, l’immunologico, il cardiocircolatorio, lo psichiatrico ed il neurologico.

Nel caso del paziente oncologico è ad esempio possibile valutare con maggior certezza i dosaggi di terapie invasive come la radio e la chemioterapia, evitando di sforare nella tossicità. Significativi anche i possibili benefici derivanti dal trattamento delle malattie infiammatorie croniche, che richiedono un’assunzione di farmaci decisamente prolungata.

La generale conoscenza del problema ci porta ormai a dare quasi per scontati i principali fattori che causano le patologie polmonari. Si spazia infatti dal rischio ambientale (fumo, esposizione ad agenti inquinanti, dieta, infezioni, ecc.) al rischio individuale (predisposizione generica alla malattia). L’azione della medicina predittiva risulta efficace soprattutto in relazione ai fattori di rischio individuali.

Ad oggi sul mercato esiste un numero molto elevato di farmaci, eppure i laboratori sono costantemente alla ricerca di nuove soluzioni. Eppure, con una maggior consapevolezza delle strutture proteiche, molte delle medicine attualmente disponibili potrebbero risultare efficaci per curare molte patologie per cui determinati farmaci non sono stati disegnati.

Per progettare farmaci efficaci, il protein designer utilizza software che gli consentono di visualizzare la struttura 3D ed andare nella direzione di un crescente livello di personalizzazione della cura.

Banche Dati Biologiche

Il gran numero di sequenze nucleotidiche prodotte dai ricercatori nelle varie branche della biologia e della medicina ha posto nel tempo il problema di come e dove conservare i dati ottenuti. Al problema relativamente semplice di avere una sede per l'archiviazione dei dati cui accedere velocemente, si sono aggiunte nel tempo diverse altre esigenze, come la necessità di verificare la qualità dei dati, di effettuare rapide scansioni di tutta la banca, di rendere i dati facilmente reperibili ai ricercatori di tutto il mondo replicandoli in più siti.

Le sequenze nucleotidiche sono state inizialmente collezionate in due sedi principali, la Sequence Data Bank dell'European Molecular Biology Laboratory (EMBL) a Heidelberg, in Germania, e la GenBank, negli Stati Uniti. All'inizio le due banche dati hanno proceduto indipendentemente, ma ben presto ci si è resi conto degli irrinunciabili benefici che potevano derivare da scambi di dati e aggiornamenti incrociati; pertanto i due progetti, pur rimanendo separati, hanno finito per avere notevoli interazioni che garantiscono oggi una grande omogeneità dei dati disponibili.

Più recentemente si è aggiunta una terza banca dati, la DNA Data Bank of Japan (DDBJ), che oggi collabora attivamente con le prime due. Oltre alle sequenze nucleotidiche, nelle banche dati sono conservati anche annotazioni relative alla provenienza della sequenza, eventuali riferimenti bibliografici, un minimo di analisi strutturale e una lista, a volte anche molto lunga, di features (caratteristiche) essenziali per marcare zone di interesse all'interno della sequenza nucleotidica.

La struttura interna delle banche dati è divenuta sempre più complessa, dovendo garantire la completa corrispondenza tra versioni successive di uno stesso record (documento). Negli anni il formato dei dati archiviati è stato adattato per fare fronte alle mutate esigenze sperimentali: accanto a records molto piccoli, corrispondenti a singoli esperimenti di sequenziamento, esistono records molto grandi, con enormi feature tables corrispondenti al prodotto dell'assemblaggio di grossi progetti di sequenziamento, come quello del genoma umano.

Tuttavia, poiché è impensabile che un solo sistema possa soddisfare esigenze scientifiche disparate come quelle attuali, sono state create banche dati secondarie, le quali, invece di dati derivanti direttamente dalla sperimentazione in laboratorio, collezionano informazioni elaborate dai dati delle banche primarie, mettendone in evidenza aspetti non immediatamente visibili. Esempi di banche dati derivate sono UniGene, che conserva tutte le sequenze ottenute per un singolo gene, ed EMEST, una banca dati dove singole sequenze espresse sono assemblate per formare frammenti più lunghi.

In parallelo alle banche dati di acidi nucleici sono state costruite banche di sequenze proteiche, dapprima collezionando i risultati della determinazione sperimentale di sequenze, e successivamente integrandoli con quelli derivanti dalla traduzione delle corrispondenti sequenze nucleotidiche, quando il numero di queste ultime ha finito per superare di gran lunga quello delle sequenze proteiche determinate sperimentalmente. Naturalmente, non tutte le informazioni necessarie possono essere ottenute per questa via, e di conseguenza è proseguito il sequenziamento diretto di proteine, che di recente ha prodotto quantità consistenti di dati grazie all'uso della spettrometria di massa.

L'originale collezione di sequenze proteiche, iniziata da Margaret Dayhoff negli anni settanta, è oggi confluita nella banca dati Swiss-Prot, che continua a essere un importante riferimento, mentre i dati derivanti dalla traduzione di sequenze nucleotidiche sono disponibili nella banca dati TrEMBL.

Parallelamente allo sviluppo di banche dati di sequenze nucleotidiche e proteiche, è stato creato un gran numero di collezioni di dati di interesse biologico. Le strutture tridimensionali di un elevato numero di proteine sono oggi note grazie a studi di cristallografia ai raggi X e di risonanza magnetica nucleare e tali dati sono confluiti nel Protein Data Bank (PDB). Un'importante collezione di dati relativi a malattie ereditarie è oggi disponibile attraverso la banca dati OMIM (Online Mendelian Inheritance in Man), mentre le pubblicazioni in campo medico e biologico possono essere consultate su MEDLINE, creata e resa disponibile dalla National Medical Library (Stati Uniti).

Alle grandi banche di dati si è affiancato un elevatissimo numero di piccole collezioni che coprono vari aspetti della biologia, dagli enzimi di restrizione alle specie animali e vegetali, alla nomenclatura degli enzimi.

Il gran numero di banche esistenti ha posto il problema di come facilitare l'accesso ai dati da parte dei ricercatori e, più recentemente, anche del pubblico non specializzato, soprattutto in considerazione del gran numero di potenziali ricerche incrociate. Tutte le banche dati hanno in genere riferimenti a records di altre banche, ad esempio la sequenza di una proteina nella banca dati delle strutture tridimensionali (PDB), o gli articoli in cui è descritta una sequenza nella banca dati delle sequenze nucleotidiche.

Inizialmente questi riferimenti erano piuttosto vari nel formato, ma oggi praticamente tutti dipendono dalla conservazione, nella prima banca dati, di un identificativo univoco che individua uno specifico record della banca dati cui si fa riferimento. Sulla base di questi collegamenti e allo scopo di favorire ricerche incrociate sono stati realizzati sistemi per l'integrazione di banche dati di tipo diverso. Il sistema SRS (Sequence Retrieval System), prodotto dalla collaborazione tra l'European Bioinformatics Institute (EBI) di Cambridge e la LYON di Heidelberg, permette di accedere a un numero molto elevato di banche dati, tra cui quelle che collezionano sequenze, mantenendo un'interfaccia d'uso identica e consentendo ulteriori collegamenti oltre a quelli già specificamente previsti dalle banche dati di partenza. Analogamente Entrez, creato dal National Center for Biotechnology Information (NCBI), permette di navigare rapidamente integrando in modo immediato le informazioni contenute nelle diverse banche dati, ad esempio sequenze, riferimenti bibliografici, tassonomia, genetica umana, ecc.

Programmi per l'Analisi delle Sequenze

Al di là degli aspetti gestionali, che per quanto specifici ricalcano comunque il problema più generale della creazione e del mantenimento di banche di dati, lo studio delle sequenze nucleotidiche e proteiche richiede un notevole numero di strumenti software che tengano conto della natura chimica delle molecole e che permettano l'analisi di aspetti specifici: dai sistemi più diretti, come quelli che provvedono alla traduzione di una sequenza nucleotidica in sequenza proteica, a quelli più complessi di riconoscimento di patterns e di predizione della conformazione tridimensionale.

Nel corso degli anni il grande sforzo compiuto dai numerosi centri di ricerca in tutto il mondo ha portato alla creazione di una gran quantità di software, oggi disponibile in varie forme: programmi da installare su PC di singoli utenti, programmi che richiedono notevole potenza di calcolo e che sono di norma utilizzati su macchine condivise, spesso in centri dedicati, programmi utilizzabili via Internet, in genere collegandosi al sito web dell'istituzione che li ha creati.

Il progressivo miglioramento delle prestazioni delle macchine ha attenuato molte delle differenze fra i vari software, per cui molto spesso programmi inizialmente concepiti per l'uso su servers dedicati sono oggi facilmente utilizzabili su singole work stations.

Molti dei programmi oggi disponibili sono riuniti in packages (pacchetti), spesso di tipo generale, che coprono varie aree della ricerca biologica.

Allineamento Multiplo di Sequenze

Fase 3: Allineamento progressivo in base all’ordine dato dall’albero. Le sequenze sono progressivamente allineate seguendo le indicazioni dell’albero guida. Si inizia ad allineare le sequenze più simili e poi, a queste vengono progressivamente aggiunte quelle più distanti. È come se l’allineamento multiplo venisse ricomposto a partire da allineamenti a coppie.

Il metodo dell’allineamento progressivo, però, presenta degli svantaggi:

un errore commesso negli allineamenti iniziali si propaga durante tutta la procedura
non c’è garanzia di trovare l’allineamento ottimale
con un’omologia iniziale inferiore al 15%, i risultati possono essere poco affidabili
idealmente tutte le sequenze input devono avere un certo grado di somiglianza e lunghezze paragonabili per evitare l’eccessiva inserzione di gap

Per migliorare l’accuratezza degli allineamenti e minimizzare la probabilità di errore, si possono adottare diversi accorgimenti:

Pesatura delle sequenze: È una procedura impiegata quando nel gruppo iniziale ci sono sequenze evolutivamente vicine, quindi molto conservate, e altre più distanti.
Correzione della penalizzazione delle indel: Uno dei problemi principali da risolvere per ottenere allineamenti affidabili è il corretto posizionamento delle indel, che dipende dai parametri utilizzati nella funzione di penalizzazione.
Variazione matrice di punteggio: Clustal W sceglie la matrice di punteggio in base alla differenza attesa tra le sequenze o tra gruppi di sequenze che devono essere allineate.

Grazie a questi accorgimenti, Clustal W fornisce allineamenti multipli affidabili. Clustal W è diventato negli anni un metodo di riferimento per i biologi. Il programma però non è stato sostanzialmente più aggiornato dalla sua messa a punto nel 1994 e quindi permangono i suoi limiti, specialmente nel caso in cui si debbano allineare molte sequenze distanti tra loro. La ricerca in questo ambito è andata avanti fino a proporre nuovi algoritmi capaci di calcolare allineamenti multipli più precisi anche nelle condizioni in cui Clustal W mostra i suoi limiti.

T-Coffee è uno dei primi programmi a utilizzare la logica della coerenza ed è stato sviluppato in collaborazione con uno degli autori di Clustal W, Desmond Higgins (Notredame et al. 2000). T-Coffee è l'acronimo di Tree-based consistenty objective function for alignment evaluation e rappresenta un sistema per trovare, attraverso un procedimento progressivo del tutto simile a Clustal W, un allineamento multiplo che sia il più possibile coerente con un insieme di vincoli esterni. I vincoli consistono in un insieme di allineamenti a coppie, locali e globali, tra le sequenze da allineare, al quale l'allineamento multiplo finale deve conformarsi il più possibile.

Il procedimento che segue il programma prevede le seguenti fasi:

Costruzione degli allineamenti a coppie locali e globali
Derivazione vincoli primari
Costruzione dei vincoli estesi

T-Coffee produce allineamenti migliori di Clustal W. Tuttavia, il principale svantaggio del programma è rappresentato dalla maggiore complessità algoritmica che lo rende dispendioso dal punto di vista del calcolo. Pertanto, per numeri elevati di sequenze, generalmente maggiori di 100, la sua esecuzione su calcolatori desktop diventa problematica.

Una variante del programma chiamata 3D-Coffee (O’ Sullivan et al. 2004) sfrutta l’informazione sulla struttura tridimensionale delle proteine comprese nel gruppo da allineare.

Tipo di Banca Dati	Esempi	Descrizione
Collezioni Primarie di Sequenze Nucleotidiche e Proteiche	EMBL, GenBank, DDBJ, Swiss-Prot, TrEMBL	Contengono dati derivanti direttamente dalla sperimentazione in laboratorio.
Collezioni Derivate	UniGene, EMEST	Collezionano informazioni elaborate dai dati delle banche primarie, evidenziando aspetti non immediatamente visibili.
Banche Dati Strutturali	Protein Data Bank (PDB)	Contengono le strutture tridimensionali di proteine determinate sperimentalmente.
Banche Dati di Malattie Ereditarie	OMIM (Online Mendelian Inheritance in Man)	Forniscono informazioni relative a malattie ereditarie.
Banche Dati Bibliografiche	MEDLINE	Permettono la consultazione di pubblicazioni in campo medico e biologico.

tags: #bioinformatica #dalla #sequenza #alla #struttura #delle