Source: Deepmind
a cura di Piero Chiabra, diGenova OdV
Le proteine siamo noi.
Tutto ciò che vive è composto da loro. E ciò che definiamo “vita” non è, in ultima analisi, che una serie di processi chimico-fisico-elettrici che portano alla sintesi delle proteine, alla loro interazione, trasformazione e, alla fine, degrado.
Vale la pena, quindi, di provare a capirci qualcosa.
Come noto, le proteine sono, in ultima analisi, molecole formate da lunghe catene composte da una lunghissima sequenza composta da una ventina di tipi diversi di “mattoni di base”, detti “Aminoacidi”. La struttura di ciascuna catena proteica è codificata nel DNA dell’individuo, e, quando una cellula richiede una proteina, il codice corrispondente a questa struttura viene inviato dal DNA, tramite l’RNA messaggero, ai ribosomi della cellula, che sintetizzano la molecola di proteina richiesta.
Attualmente, si suppone esistano circa 42 milioni di tipi diversi di proteine, che costituiscono la struttura degli esseri viventi. Di questi, circa 20.000 costituiscono il cosiddetto “proteoma”, vale a dire l’assieme delle proteine che vengono usate dal corpo umano. Tramite la mappatura del DNA umano, sappiamo abbastanza bene la sequenza degli aminoacidi che compongono ciascuna proteina, e, di conseguenza, la struttura di ciascuna catena molecolare che la costituisce.
Allora, dov’è il problema?
Il problema è che le proteine, appena costituite, perdono molto velocemente il loro aspetto lineare: subito, si avvolgono, si attorcigliano, si intrecciano su sé stesse fino a formare forme complesse nello spazio tridimensionale. Il comportamento, le reazioni e le modalità di interazione delle proteine tra loro dipendono da queste loro complesse forme tridimensionali in maniera totale.
E determinare la forma che le proteine assumono nello spazio una volta sintetizzate è estremamente difficile. Sono necessarie complesse sperimentazioni, costose apparecchiature, e molto tempo. E, anche così, solo un numero ridotto di strutture tridimensionali di proteine è risultato decifrabile (È una fortuna che la proteina spike del coronavirus sia una di queste, ma la sua “decifrazione” ha richiesto uno sforzo enorme.).
Una conoscenza completa delle modalità con cui le proteine operano, tramite il padroneggiamento delle loro strutture tridimensionali, sarebbe uno strumento potentissimo nelle nostre mani: consentirebbe di poter simulare, su opportune batterie di supercomputer, qualunque processo del nostro organismo, incluse, inutile dirlo, tutte le malattie, i tumori, le infezioni e qualunque altro problema, consentendo di individuare rimedi e simularli nello stesso sistema, fino a poter sviluppare cure virtualmente per qualunque malattia in un tempo molto breve. Sarebbe una rivoluzione paragonabile alla scoperta del DNA, una cosa che trasformerebbe completamente la chimica e la medicina.
E, a quanto pare, ci si sta arrivando.
Il punto di partenza teorico fondamentale è stata la scoperta, effettuata alcuni anni fa, che i meccanismi chimico-fisici che portano al ripiegamento delle proteine nelle loro forme tridimensionali dipendono interamente dalla struttura degli aminoacidi che li compongono. Certo, di per sé, questo ci porta poco lontano: essendo composte da migliaia di aminoacidi, disposti in maniere sempre diverse, le forze che influiscono sulle proteine sono estremamente complesse, mutevoli e molto difficili da simulare. Ma noi abbiamo oggi qualcosa che sembra fatto apposta per poter caratterizzare e predire il comportamento di insiemi altamente complessi di entità mutuamente interagenti: gli algoritmi di intelligenza artificiale.
Una società inglese, la DeepMind (del gruppo Alphabet, leggi Google), in collaborazione con la Washington University, ha sviluppato un tool di intelligenza artificiale, denominato AlphaFold 2, che si è dimostrato in grado di calcolare e predire correttamente la struttura tridimensionale di svariate proteine, a partire dalla sequenza di aminoacidi che le costituiscono. E, in generale, mettendoci alcuni giorni per ciascuna proteina.
Il sistema è costituito, in pratica, da una gigantesca rete neurale la quale, interiorizzando i dati relativi a tutte le interazioni possibili tra aminoacidi, e sulla base di una banca dati relativa a circa 170.000 proteine, di cui è nota la struttura, è in grado di giungere gradualmente a una configurazione chimica stabile della molecola della proteina sulla base della sua composizione, elaborando i legami complessi di virtualmente ciascun suo atomo costitutivo con ciascun altro. Questo ha consentito di giungere velocemente alla determinazione esatta di svariate strutture di proteine già note, e di prevedere la struttura di alcune proteine non note spiegandone il comportamento.
Questo risultato dovrebbe permettere, secondo alcuni, di arrivare in breve tempo alla decifrazione delle strutture dimensionali di tutte le molecole del proteoma. Inoltre, ulteriori sviluppi, già in corso, dovrebbero consentire di passare alla ricostruzione di dettaglio dei recettori cellulari composti da aggregati proteici complessi, simulando i quali dovrebbe essere possibile simulare ulteriori categorie di processi, quali, ad esempio, i processi cerebrali.
La Deepmind ha reso disponibile una versione open source di AlphaFold 2 e, secondo notizie dell’ultima ora, il software sta già venendo utilizzato per lo sviluppo di farmaci anti Covid 19, con primi risultati, a quanto si dice, altamente promettenti.
Dai laboratori all’industria in un lampo.
Vista la situazione, non abbiamo tempo da perdere.
APPROFONDIMENTI
https://www.ilpost.it/2021/07/23/deepmind-struttura-proteine-alphafold/
DeepMind’s AlphaFold Is Close to Solving One of Biology’s Greatest Challenges