L'umanità è sempre stata curiosa del mondo che ci circonda. Le spedizioni mondiali di Colombo, Vespucci e Magellano hanno permesso di scoprire parti del mondo prima sconosciute. Allo stesso modo, la biologia, che significa letteralmente studio della vita e degli organismi viventi, nata nel 19° secolo, si è definitivamente affermata come scienza autonoma nel 20° secolo, estendendo il suo campo di indagine allo studio delle proteine, degli acidi nucleici, dei lipidi, degli ormoni, delle vitamine.
È ora comunemente accettato che la comprensione dei processi biologici che avvengono negli organismi viventi è possibile soltanto attraverso lo studio dei meccanismi molecolari che regolano e permettono lo svolgimento di tali processi e che le manifestazioni macroscopiche, sia fisiologiche sia patologiche, sono soprattutto il risultato di una serie di eventi molecolari che regolano e consentono il verificarsi del fenomeno macroscopico. Da questa premessa si sono sviluppati svariati campi di ricerca scientifica, quali la farmacologia molecolare, l’ingegneria genetica, la biologia molecolare, la b. e la fisiologia comparate, la neurobiologia e la neurochimica, la biotecnologia, la b. patologica, l’immunochimica e altri ancora, in ciascuno dei quali la conoscenza approfondita dei meccanismi biochimici di base è indispensabile per l’acquisizione di nuove informazioni.
Un notevole contributo all’approfondimento di problemi di biologia molecolare, di chimica delle proteine e d’immunologia è venuto dallo sviluppo di tecniche elettroforetiche, quali il blotting e l’elettroforesi in campo elettrico alternato. L’introduzione e il perfezionamento della cromatografia liquida ad alta risoluzione (HPLC, high performance liquid chromatography) hanno consentito di risolvere problemi legati alla purificazione di macromolecole biologiche e, grazie all’elevatissima sensibilità, riproducibilità e versatilità di questa tecnica, di determinare sostanze presenti anche in piccolissime tracce nei sistemi viventi. Le tecniche di risonanza magnetica nucleare e di risonanza paramagnetica (EPR, electron paramagnetic resonance) permettono la loro applicazione non solo nei sistemi isolati in vitro, ma anche negli animali da esperimento e, in alcuni casi, nell’uomo. Una tecnica che ha trovato vasta applicazione nelle ricerche biochimiche è la luminometria, che si serve di un’apparecchiatura analitica ( luminometro) per la determinazione quantitativa di particolari sostanze per le quali vengono sfruttate reazioni di bioluminescenza o chemiluminescenza.
In un certo senso, il concetto informatico applicato alla biologia trova riscontro ancor prima del ricorso all’utilizzo dei bit, quando negli anni 50, Frederick Sanger si vide riconosciuto il premio Nobel per la chimica grazie all’introduzione del sequenziamento delle proteine, inizialmente manuale e successivamente affinato fino all’automazione proposta da Pehr Edman nel 1967. L’esecuzione di calcoli ed operazioni complesse, chiamate a gestire una quantità enorme di dati, manifestava sin dagli albori l’esigenza pratica di ricorrere a simulazioni supportate da discipline e dispositivi informatici. Nel 1970, Saul Needleman e Christian Wunch scrissero un nuovo algoritmo, capace di comparare in maniera efficace due sequenze per analisi di similarità. Le prime applicazioni della bioinformatica sono state utili a supportare il sequenziamento del DNA, ma ben presto si sono estese fino ad interessare altre discipline della biologia.
Bioinformatica Strutturale: Un Approccio Computazionale alla Struttura Proteica
La bioinformatica strutturale è il ramo della bioinformatica che si occupa di analizzare e predire la struttura 3D di proteine, RNA e DNA. Per cogliere il senso pratico della bioinformatica strutturale è opportuno focalizzarci sulla differenza tra “sequenza” e “struttura”. Un aspetto sorprendente è dato dalla totale distanza percettiva che intercorre tra la sequenza di un genoma e la forma effettiva della proteina, equiparabile al modello 3D della sua struttura molecolare.
Leggi anche: Guida alle diete efficaci
Team universitari e privati (sostenuti dalle multinazionali delle AI) si sfidano per individuare metodi computazionali capaci di predire le strutture 3D delle proteine nel modo più accurato possibile. I geni definiscono di fatto ogni organismo vivente, ma non sono l’unica fonte di informazione biologica. In altri termini, per spiegare il funzionamento di una cellula si rende necessario prendere in esame molte migliaia di proteine e tutte le possibilità interazioni che le caratterizzano. Questo implica necessariamente delle competenze in ambiente Linux e in linguaggi di programmazione come Python, Java, C++, ecc.
Il concetto alla base degli algoritmi di allineamento è relativamente semplice, data la complessità delle operazioni che sono chiamati a risolvere: dato un dato sistema di scoring (punteggio), l’algoritmo deve allineare due sequenze con il punteggio più elevato possibile. Gli algoritmi esatti, come i già citati Needleman-Wunsch (global gapped alignments) e Smith-Waterman (local gapped alignments) sono molto precisi ma al tempo stesso richiedono risorse computazionali molto elevate per raggiungere il loro obiettivo. Gli algoritmi euristici, di più recente concezione, non garantiscono il miglior allineamento ma si distinguono per la loro notevole velocità nell’eseguire la simulazione.
AlphaFold: Una Rivoluzione nella Predizione della Struttura Proteica
Un esempio straordinario è costituito da AlphaFold, un progetto open source sviluppato da DeepMind per risolvere il problema del Protein Folding, la simulazione in 3D delle strutture proteiche. Quest'anno l'algoritmo AlphaFold2 ha ottenuto un punteggio medio di 92,4 e per il sottoinsieme di proteine considerate più difficili un punteggio medio di 87, circa 25 punti sopra il secondo gruppo classificato, quello guidato da David Baker della University of Washington. Due terzi delle strutture calcolate da AlphaFold2 hanno ottenuto un punteggio superiore a 90. Questi punteggi possono essere tradotti in termini di RMSD (root mean square deviation) che misura la differenza fra le coordinate atomiche del modello computazionale e quelle della struttura sperimentale. Per AlphaFold2 il valore di RMSD è pari a 1,6 Angstrom.
AlphaFold è composto di tre passi. sarebbero stati impensabili nell'arco della mia vita e che sia utilizzabile nella pratica dei laboratori. intende rendere AlphaFold2 accessibile a tutti i ricercatori. Di certo AlphaFold2 segna un cambio di passo per DeepMind.
Secondo uno studio a cura della PHG Foundation, in seno all’Università di Cambridge, in futuro, l’applicazione clinica della genomica proseguirà il suo percorso anche parallelamente all’affinamento delle tecniche di intelligenza artificiale.
Leggi anche: Il calore della Terra: Un'analisi della geotermia
Il Folding delle Proteine: Dal Codice Genetico alla Struttura Tridimensionale
Le proteine, sintetizzate come catene polipeptidiche che si estendono in modo spazialmente non strutturato, devono raggiungere una conformazione tridimensionale stabile per poter svolgere le loro funzioni biologiche. Da decenni è noto che tutte le informazioni necessarie a un polipeptide denaturato per il raggiungimento di una conformazione stabile e funzionale sono contenute all'interno della sua stessa sequenza amminoacidica. In teoria, quindi, la conformazione biologicamente attiva di una proteina dovrebbe essere desumibile una volta che sia nota la sua struttura primaria. In pratica, però, sono ancora ignote le regole che ci permetterebbero di predire la conformazione spaziale di una proteina a partire dalla conoscenza della sequenza lineare dei suoi amminoacidi.
L'insieme delle modifiche conformazionali che in una proteina caratterizzano i passaggi da una struttura lineare a una struttura tridimensionale è denominato 'folding' (ripiegamento). La comprensione dei meccanismi utilizzati dai polipeptidi per raggiungere una struttura tridimensionale che li renda in grado di svolgere correttamente le loro funzioni biologiche è stata in questi ultimi anni notevolmente favorita da numerosi studi sulla chimica fisica e sulla biologia cellulare di questo processo. Sebbene la conoscenza di tale argomento sia lontana dall'essere completa, è, tuttavia, opinione generale che il folding proceda attraverso molteplici passaggi distinti. Durante questo processo biologico altamente complesso si devono infatti formare e rompere numerose interazioni all'interno della catena polipeptidica in fase di ripiegamento e, in vivo, tra essa e gli enzimi e le proteine che facilitano questo processo.
Idealmente lo stato privo di folding è il cosiddetto random coil (catena attorcigliata a caso), in cui le conformazioni possibili, anche per una proteina di piccole dimensioni, sono moltissime. In questa fase il polipeptide si dovrebbe trovare in uno stato in cui la sua catena è molto estesa nello spazio e le interazioni non covalenti, che normalmente stabilizzano lo stato nativo, sono inesistenti. È lecito supporre che le proteine, sintetizzate come polipeptidi lineari sui ribosomi, in vivo comincino il folding durante la loro stessa sintesi.
È stato osservato che molte proteine, in certe condizioni, si trovano in una conformazione stabile che non è di folding compiuto, ma neanche di completa disorganizzazione sterica. Il verificarsi di conformazioni globulari semisolide (molten globule) è ben documentato. Le proprietà caratteristiche di tali strutture sono: la maggior compattezza rispetto allo stato di random coil e la dimensione lievemente maggiore rispetto alla proteina nativa; un contenuto in strutture secondarie simile a quello della proteina con folding completo; la presenza di superfici idrofobiche esposte all'esterno, che le rendono suscettibili di aggregazione reciproca; un'entalpia pressoché identica a quella che esse stesse hanno in uno stato privo di folding; un'interconversione, dalla condizione di strutture globulari semisolide allo stato di completa disorganizzazione sterica, rapida e non cooperativa, e invece passaggio allo stato di folding completo lento e cooperativo.
Queste osservazioni suggeriscono che la struttura globulare semisolida sia una molecola collassata, dotata di strutture secondarie simili a quelle della corrispondente proteina nativa, ma priva di strutture terziarie stabili. Lo stato nativo di molte proteine diverse è stato esaminato con la cristallografia a raggi X e con l'analisi spettroscopica NMR. Questi studi hanno chiarito alcuni aspetti generali delle proteine globulari il cui folding sia avvenuto compiutamente e che si trovano quindi nello stato nativo. La caratteristica che accomuna tutte queste proteine globulari è la non polarità delle catene laterali che formano la parte interna della struttura e la generale prevalenza di catene laterali idrofiliche esposte alla superficie.
Leggi anche: La Scienza della Nutrizione: Approfondimento
Si ritiene che il refolding in vitro avvenga attraverso diverse vie che coinvolgono uno o più stati intermedi di folding relativamente stabili. Questi ultimi sembrano trovarsi in un equilibrio rapido con lo stato di denaturazione completa (nell'ordine di millisecondi), mentre sono convertiti allo stato nativo solo molto lentamente. Si ritiene che la conversione degli intermedi di folding nello stato nativo sia un processo cooperativo in cui il verificarsi di un'interazione rende stabile la successiva, che a sua volta stabilizzerà la prima interazione.
Esistono varie prove dell'esistenza di vie di folding multiple e indipendenti. Secondo questa ipotesi, il folding di una proteina denaturata potrebbe avvenire attraverso vie distinte e parallele che comportano l'insorgenza di forme intermedie diverse ma che portano a un unico stato nativo ben definito. È sorto il dubbio che gli intermedi osservati non rappresentino stati reali del folding, ma che siano invece prodotti di reazioni collaterali non produttive che non conducono allo stato nativo.
Gli esperimenti in vitro hanno sicuramente un valore significativo nel definire i tipi di interazioni intramolecolari che guidano il folding delle proteine, ma non riflettono accuratamente i processi di folding delle proteine nascenti all'interno della cellula. Le proteine non completamente strutturate, o in stati intermedi di folding, tendono a esporre superfici idrofobiche all'ambiente acquoso circostante e sono quindi particolarmente inclini all'aggregazione. In vivo la temperatura fisiologica e l'alta concentrazione sia delle proteine totali sia dei polipeptidi non strutturati favoriranno di gran lunga le interazioni improduttive di aggregazione rispetto alla via di folding corretta.
Chaperon Molecolari e il Ruolo degli Enzimi nel Folding Proteico
Un'ulteriore differenza tra il folding delle proteine in vitro e in vivo è il livello di complessità di molte proteine all'interno delle cellule. Proteine di membrana altamente idrofobiche, proteine che si assemblano in complessi enzimatici o in microfilamenti e proteine che sono modificate durante o dopo il processo di traduzione mediante legami con lipidi o carboidrati difficilmente seguiranno le vie di folding valide per piccole proteine globulari.
Inoltre si è visto che alcune tappe lente nel folding delle proteine sono catalizzate da enzimi specifici. Due passaggi cruciali per la cinetica del processo di folding in vitro, consistenti nell'isomerizzazione di legami covalenti, possono essere catalizzati da enzimi cellulari purificati. L'enzima proteindisolfuroisomerasi (PDI) catalizza lo scambio tiolo-disolfuro e promuove la formazione, l'isomerizzazione o la riduzione di ponti disolfuro all'interno delle proteine. Gli enzimi peptidil prolil cis-trans isomerasi (PPIasi) catalizzano l'altrimenti lenta isomerizzazione dei legami peptidici che precedono i residui amminoacidici di prolina.
Alcune famiglie di proteine, strutturalmente non correlate ma universalmente conservate, aiutano le proteine neosintetizzate ad assumere la loro conformazione nativa. Queste proteine, ora collettivamente denominate 'chaperon' molecolari, si legano ai polipeptidi quando si trovano nello stato totalmente o parzialmente denaturato, impedendone così l'aggregazione. Le chaperon molecolari sono piuttosto abbondanti e l'espressione di molte di esse aumenta notevolmente in diverse condizioni di stress della cellula. Nonostante il legame e il rilascio da alcune Hsp siano regolati dal legame e dall'idrolisi dell'ATP, le chaperon molecolari non possono essere considerate come catalizzatori del folding delle proteine. La maggioranza delle chaperon identificate finora appartiene a famiglie proteiche molto conservate.
Medicina di Precisione e il Futuro della Ricerca sul Genoma Umano
Se la bioinformatica supporta ormai con successo le discipline legate agli studi biologici, è innegabile come le applicazioni di queste siano capaci di innescare un’azione profondamente innovativa, capace di allargare gli orizzonti determinati dagli approcci tradizionali, oppure di incrementare in maniera radicale l’efficienza dei processi già in atto. L’analisi del funzionamento dei singoli organismi, uniti alla comprensione delle loro capacità metaboliche, possono risultare determinanti per disegnare un percorso terapico personalizzato, individuando i farmaci in grado di offrire una risposta migliore da parte del singolo individuo.
Gli ambiti in cui la medicina di precisione è in grado di offrire significativi vantaggi sono l’oncologico, l’immunologico, il cardiocircolatorio, lo psichiatrico ed il neurologico. Nel caso del paziente oncologico è ad esempio possibile valutare con maggior certezza i dosaggi di terapie invasive come la radio e la chemioterapia, evitando di sforare nella tossicità. Significativi anche i possibili benefici derivanti dal trattamento delle malattie infiammatorie croniche, che richiedono un’assunzione di farmaci decisamente prolungata.
Ad oggi sul mercato esiste un numero molto elevato di farmaci, eppure i laboratori sono costantemente alla ricerca di nuove soluzioni. Eppure, con una maggior consapevolezza delle strutture proteiche, molte delle medicine attualmente disponibili potrebbero risultare efficaci per curare molte patologie per cui determinati farmaci non sono stati disegnati. Per progettare farmaci efficaci, il protein designer utilizza software che gli consentono di visualizzare la struttura 3D ed andare nella direzione di un crescente livello di personalizzazione della cura.
| Metrica | Punteggio | Descrizione |
|---|---|---|
| Punteggio Medio (Tutte le Proteine) | 92.4 | Valutazione complessiva della precisione della struttura predetta. |
| Punteggio Medio (Proteine Difficili) | 87 | Performance specifica su un sottoinsieme di proteine con struttura particolarmente complessa. |
| RMSD | 1.6 Angstrom | Misura la deviazione media delle coordinate atomiche tra la struttura predetta e quella sperimentale. |