Approfondimento 2: La ricerca

Pagina 4 di 7

Previsione e progettazione di strutture e interazioni macromolecolari

Introduzione:
Lo scopo della nostra attuale ricerca è lo sviluppo ed il miglioramento di modelli di interazioni intra ed intermolecolari e di usarli per prevedere e disegnare strutture ed interazioni macromolecolari. Le applicazioni di previsione e progettazione, che possono essere di grandissimo interesse biologico, forniscono anche informazioni precise ed oggettive che migliorano il modello e le conoscenze fondamentali.

Noi usiamo un software chiamato Rosetta per portare avanti calcoli di disegno delle proteine. Al centro di Rosetta ci sono potenti funzioni per calcolare l’energia delle interazioni con e tra macromolecole, e metodi per trovare la struttura a minor energia di una sequenza di aminoacidi (previsione di strutture proteiche) o un complesso proteina-proteina e per trovare la sequenza di aminoacidi a minor energia per una proteina o per un complesso proteina-proteina (disegno di proteine). Riscontri con i risultati delle previsioni sono continuamente adottati per migliorare le potenti funzioni e gli algoritmi di ricerca. Lo sviluppo di un software in grado di trattare queste diverse questioni porta dei considerevoli vantaggi. Per prima cosa, le diverse applicazioni forniscono prove complementari dei fondamentali modelli fisici (la fisica fondamentale/fisica chimica sono ovviamente le stesse in ogni caso); secondo, molti problemi di attuale interesse, come un disegno flessibile di scheletri proteici e il legame tra proteine con la flessibilità dello scheletro, implicano una combinazione di differenti metodi di ottimizzazione.

Progettazione di strutture proteiche:
Negli ultimi anni, abbiamo utilizzato i nostri metodi informatici di disegno proteico per stabilizzare moltissime piccole proteine ricostruendo ogni piccolo residuo della loro sequenza, per ricostruire la conformazione del loro scheletro, per convertire una proteina monomerica in un dimero incrociato, e per termo-stabilizzare un enzima. Una prova ne è la riprogettazione dello schema di ripiegamento della proteina G, una piccola proteina contenente due foglietti-beta separati da un alfa-elica. In circostanze naturali, la prima struttura a forcina è interrotta e la seconda è formato a seconda del passo di ripiegamento. In una variante riprogettata nella quale la prima forcina è significativamente stabilizzata e la seconda destabilizzata, l’ordine degli eventi è inverso: la prima forcina è formata e la seconda è interrotta nel ripiegamento. L’abilità nel riprogettare razionalmente i passaggi del ripiegamento delle proteine mostra quanto le nostre conoscenze nella determinazione dei ripiegamenti siano avanzate considerevolmente.

(Figura1: Progettazione di interazioni proteiche e proteina-proteina con un’accuratezza ad alta risoluzione. Comparazione di un modello progettato e di una struttura cristallina (sinistra) di interfacce di nuove endonucleasi progettate con nuove specificità di taglio del DNA, e a destra proteina TOP7 riprogettata.)

Particolarmente eccitante è la recente creazione di nuove proteine con strutture 3D scelte arbitrariamente. Abbiamo sviluppato una strategia computazionale generale per creare queste strutture proteiche che incorporano una completa flessibilità dello scheletro nell’ottimizzazione di sequenze basate su rotameri. Questo è portato a termine integrando una previsione di strutture proteiche ab initio, un raffinamento energetico a livello atomico e la progettazione della sequenza in Rosetta. La procedura è utilizzata per progettare una proteina a 93 residui chiamata TOP7 con una nuova sequenza e topologia. TOP7 fu scoperta essere monomerica e ripiegata e la sua struttura cristallina ai raggi x è sorprendentemente simile (RMSD = 1.2 Å; vedi pannello a destra della figura 1) al modello progettato. La progettazione di nuove proteine globulari ripiegate e la forte corrispondenza delle strutture cristalline ai modelli progettati hanno ampie implicazioni nella previsione delle strutture proteiche ed aprono le porte all’esplorazione della vastissima regione dell’universo delle proteine che non è stato ancora osservata in natura.

Progettazione di interazioni proteina-proteina:
Per estendere questi metodi alle interazioni tra proteine ed in particolare per riprogettare interazioni specifiche, abbiamo scelto il complesso ad alta affinità tra colicina E7 DNasi e la sua affine proteina immuno inibitoria come modello di sistema. Abbiamo usato il modello fisico descritto sopra e una modificazione della nostra strategia computazionale di progettazione basata sulla ricerca di rotameri per generare nuove coppie di proteine inibitorie della DNasi progettate per interagire fortemente con altre ma non con le proteine naturali. I complessi proteici progettati hanno affinità subnanomolari, sono funzionali e specifici in vivo ed hanno più di un ordine di grandezza di differenze di affinità tra coppie affini e non affini in vitro. Questo approccio potrebbe essere applicabile alla progettazione di coppie di proteine interagenti con nuove specificità per delineare e riprogettare le reti di interazioni proteiche nelle cellule viventi.

In collaborazione con il gruppo di ricerca di Barry Stoddard e Ray Monnat (Centro di ricerca sul cancro “Fred Hutchinson”), abbiamo generato una endonucleasi artificiale altamente specifica fondendo i domini delle endonucleasi I-Dmol e I-Crel attraverso ottimizzazioni computazionali di una interfaccia dominio-dominio tra queste proteine normalmente non interagenti. L’enzima risultante, E-Drel (progettato I-Dmol/l-Crel), lega un lungo sito target di DNA con affinità nanomolari, spaccandolo precisamente ad un tasso equivalente ai suoi naturali progenitori. Stiamo attualmente provando a generare nuove endonucleasi estendendo i nostri metodi di progettazione alle interfacce proteina-acido nucleico per riprogettare l’interfaccia proteina-DNA.

In entrambi questi sistemi è possibile determinare la struttura cristallina ai raggi x del complesso progettato. Come nel caso di TOP7, le strutture reali sono molto simili ai modelli progettati (Figura 1, pannello sinistra), che confermano l’accuratezza del nostro approccio di modellamento ad alta risoluzione.

Previsione di strutture proteiche:
Il quadro del ripiegamento delle proteine che motiva il nostro approccio alla previsione di strutture proteiche ab initio è che le interazioni locali dipendenti dalla sequenza influenzano segmenti della catena creando distinti gruppi di strutture locali e che le interazioni non locali selezionano le strutture terziarie a minor energia tra le molte conformazioni compatibili con quelle influenze locali. Nell’implementazione della strategia suggerita da questo quadro, usiamo vari modelli per trattare le interazioni locali e non locali. Piuttosto che provare un modello fisico per la relazione sequenza-struttura, esaminiamo un database proteico e prendiamo la distribuzione delle strutture locali di segmenti a corta sequenza (meno di 10 residui in lunghezza) tra le strutture tridimensionali conosciute come un’approssimazione delle strutture campionate da peptidi isolati con sequenze corrispondenti.

Le interazioni non locali primarie considerate sono le interazioni idrofobiche ed elettrostatiche, i legami idrogeno e l'ingombro sterico. Le strutture che sono simultaneamente coerenti con le strutture delle sequenze locali e con le interazioni non locali sono generate usando appaiamenti simulati per minimizzare l’energia di interazioni non locali definite dalla distribuzione delle strutture locali.

rosetta_ricerca_2

(Figura 2: Predizione di strutture proteiche dal CASP3 e CASP4)
A: Sinistra, struttura cristallina del fattore di trascrizione MarA legato al DNA; destra, il nostro miglior modello inviato in CASP3. Nonostante molti dettagli errati, il ripiegamento è predetto con sufficiente accuratezza da permettere intuizioni riguardo alla modalità di legame al DNA.
B: Sinistra, struttura cristallina della batteriocina AS-48; in mezzo, il nostro miglior modello inviato in CASP4; destra, una proteina strutturalmente e funzionalmente relazionata (NK-lysin) identificata usando questo modello in una ricerca basata sulla struttura nel database Protein Data Bank (PDB). Le similitudini strutturali e funzionali non sono riconoscibili usando il metodo di comparazione della sequenza (la somiglianza tra le due sequenze è solo del 5%).
C: Sinistra, struttura cristallina del secondo dominio del MutS; in mezzo, il nostro miglior modello inviato per questo dominio in CASP4; destra, proteina strutturalmente relazionata (Ruv C) con la relativa funzione riconosciuta usando il modello in una ricerca basata sulla struttura nel database PDB. Le somiglianze non erano state riconosciute usando la comparazione della sequenza o il metodo di riconoscimento del ripiegamento.

Rosetta è stato testato nei test biennali del CASP (valutazione critica di predizioni strutturali) nei quali gli scienziati sono stati messi alla prova nel fare predizioni “cieche” delle strutture adottate da sequenze proteiche le cui strutture erano già state determinate, ma non ancora pubblicate. Sin dal CASP3 del 1998, Rosetta è stato il miglior metodo per la previsione ab initio, come riportato anche da ispettori indipendenti. Negli esperimenti di CASP4, per esempio, Rosetta fu testato su 21 proteine. La predizione per queste proteine, le quali erano prive di somiglianze di sequenza con qualsiasi proteina della quale fosse già stata predetta la struttura, fu di una consistenza e di una accuratezza senza precedenti. Altre eccellenti predizioni furono fatte in CASP5 e CASP6. Incoraggiati da questi promettenti risultati, abbiamo generato modelli per tutte le grandi famiglie di proteine di meno di 150 aminoacidi di lunghezza.

rosetta_ricerca_3 (Figura 3: La prima predizione cieca ab initio con risoluzione a livello atomico della struttura T281 in CASP6. Il metodo del raffinamento ad alta risoluzione descritto nel testo ha prodotto un modello 1.5-Å RMSD dalla struttura cristallina (riquadro a sinistra), con aspetti della conformazione nativa della catena laterale (riquadro a destra).

Un punto importante del CASP6 fu la prima previsione cieca che usò il nostro metodo di raffinamento ad alta risoluzione per raggiungere una precisione prossima all’alta risoluzione. La relativamente corta sequenza (76 residui) permise di applicare il nostro metodo di raffinamento atomico non solo alla sequenza originaria ma anche alle sequenze di molti omologhi. Il centro del gruppo di minor energia di strutture risultò essere notevolmente vicino alla struttura originale. Il protocollo di raffinamento ad alta risoluzione ha fatto abbassare l’RMSD da 2.2Å a 1.5Å e le catene laterali sono disposte in modo simile a quello nativo nel centro proteico.

Abbiamo esteso la strategia di previsione delle strutture ab initio al problema dell’uso di dati sperimentali limitati per generare modelli di proteine. Adottando cambiamenti chimici, informazioni NOE e più recentemente coppie di informazioni dipolari nella procedura di generazione strutturale di Rosetta, siamo in grado di generare modelli molto più accurati della sola previsione strutturale ab initio o di quando venivano usati gli stessi dati limitati trovati grazie al convenzionale metodo di generazione strutturale di risonanza nucleare magnetica (NMR). Un eccitante recente sviluppo è che la procedura di Rosetta può anche avere il vantaggio di dati NMR non assegnati e quindi raggirare il difficoltoso e tedioso passo dell’assegnamento dello spettro NMR.

Il metodo di Rosetta per la previsione di strutture ab initio, il metodo di determinazione strutturale NMR basato su Rosetta ed un nuovo metodo per la comparazione di modelli che usano l’approccio di Rosetta per modellare le parti delle strutture (principalmente lunghi "cappi") che non possono essere accuratamente modellati basandosi su un esempio di struttura omologa sono stati tutti inseriti in un server pubblico chiamato Robetta. Questo server, che ha un costante arretrato di utenti nel mondo, è uno dei migliori server completamente automatici di predizione strutturale nei test di CASP5 e CASP6.

Previsione di interazioni proteina-proteina:
Per vari anni abbiamo lavorato al raffinamento delle strutture proteiche, un ambizioso problema a causa dell’ampio grado di libertà. Ci siamo interessati del legame proteina-proteina perché, con l’approssimazione che le due proteine non subiscano significativi cambiamenti conformazionali durante la loro interazione, lo spazio da cercare - i 6 gradi di libertà della parte rigida in aggiunta ai gradi di libertà della catena laterale - è molto minore. Benchè sia importante di per sè, questo problema è un buon trampolino di lancio per il più difficile problema di raffinamento strutturale.
Abbiamo sviluppato un nuovo metodo per predire i complessi proteina-proteina partendo dalle coordinate dei componenti monomerici separati. Questo metodo impiega una ricerca Monte Carlo a bassa risoluzione seguita da ottimizzazioni simultanee dello spostamento della catena principale e della conformazione delle catene laterali con una procedura di minimizzazione Monte Carlo e modelli fisici utilizzati nei nostri lavori di previsione strutturale ad alta risoluzione. L’ottimizzazione simultanea del grado di libertà delle catene laterali e della parte rigida è in contrasto con molti altri attuali approcci, i cui modelli di interazione proteina-proteina sono trattati come un problema di forma della parte rigida, con le catene laterali tenute fisse. Abbiamo recentemente migliorato il metodo (Rosetta Dock) sviluppando un algoritmo che permette un efficiente campionamento delle conformazioni delle catene laterali senza rotameri durante il legame.

rosetta_ricerca_4

(Figura 4: Risultato del legame proteina-proteina di CAPRI (valutazione critica delle interazioni predette). Sovrapposizione di strutture proteiche complesse; previste (blu) e ai raggi x (rosso ed arancione). Verde, un residuo laterale per cui è stato correttamente predetto il cambiamento conformazionale in seguito alla formazione del complesso. Quadro in alto, l’intero complesso. Quadro in basso, dettagli dell’interfaccia. In aggiunta all’orientamento della parte rigida, le conformazioni di molte delle catene laterali sono state predette correttamente.

La Potenza di RosettaDock è stata sottolineata in una recente sfida cieca di ripiegamento proteina-proteina (CAPRI) tenutasi nel dicembre 2004. In CAPRI agli scienziati sono state fornite le strutture di due proteine che formano un complesso e sono stati sfidati a predire la struttura del complesso. Le previsioni di RosettaDock dei campioni senza significativi cambiamenti conformazionali nella catena principale furono impressionanti, come mostrato in Figura 4. Non solo l’orientamento della parte rigida delle due strutture era previsto quasi alla perfezione, ma anche pressoché tutte le interfacce delle catene laterali erano modellate molto accuratamente. Questi modelli corretti spiccano chiaramente come i più a bassa energia rispetto a tutti gli altri modelli generati; ciò suggerisce che il potenziale della funzione è ragionevolmente accurato.

Questi promettenti risultati indicano che presto questo metodo potrà essere utile per generare modelli di importanti complessi biologici partendo dalle strutture di componenti isolati e più generalmente che questa previsione ad alta definizione di strutture e interazioni è giunta all’arrivo. Un chiaro obiettivo del nostro lavoro di predizione strutturale dei monomeri è di avvicinare il livello di accuratezza di questi modelli.

Miglioramento dei modelli fisici:
Il nostro attuale approccio per migliorare le funzioni energetiche implica una combinazione di calcoli di chimica quantistica su semplici composti modello, approcci tradizionali di meccanica molecolare ed analisi strutturale di proteine. Abbiamo usato tale approccio per sviluppare e migliorare il potenziale del legame idrogeno. Un risultato particolarmente rilevante è che la dipendenza dall’orientamento del legame idrogeno nei calcoli di chimica quantistica su dimeri di formamide è considerevolmente simile a quanto visto nei legami idrogeno tra residui laterali nelle strutture proteiche, ma differente da quello nei campi di forza nell’attuale meccanica molecolare, i quali trascurano il carattere covalente del legame idrogeno. Riscontri dai calcoli di previsione e disegno hanno fornito continuo impeto e consigli per migliorare la funzione energetica; per esempio, inadeguatezze nel nostro trattamento di interazioni proteina-proteina hanno condotto al recente sviluppo di un modello basato su rotameri per i legami idrogeno mediati dall’acqua.

Piani per il futuro:
I nostri metodi di predizione e progettazione hanno raggiunto il punto nel quale possono essere applicati ad importanti problemi biologici. Particolarmente incoraggianti dopo anni di lavoro sul modellamento ad alta risoluzione sono le previsioni a risoluzione quasi atomica delle strutture dei complessi in CAPRI (Figura 4), le previsioni a 1.5-Å in CASP6 (Figura 3) e lo stretto accordo di TOP7 (Figura 1, destra) ed i modelli disegnati di interfacce proteina-proteina con le strutture cristalline ai raggi x (Figura 1, sinistra). Questi risultati suggeriscono che il modellamento ad alta risoluzione inizia a funzionare.

Nei prossimi anni, miriamo a migliorare ed estendere i nostri metodi. Siamo particolarmente focalizzati nel migliorare l’accuratezza della previsione di strutture ad alta risoluzione (che sarà richiesta se i modelli saranno generalmente utili). Per fare questo, lavoreremo nel migliorare i modelli fisici fondamentali ed il metodo di campionamento. Stiamo anche sviluppando metodi per prevedere e ridisegnare interazioni specifiche proteina-DNA ed estendere il nostro metodo di disegno delle proteine al disegno di enzimi in grado di catalizzare reazioni chimiche non catalizzate dalle proteine naturali esistenti.

Visita il sito web http://www.bakerlab.org per ulteriori informazioni incluse le pubblicazioni delle nostre ricerche.

Rosetta@home - Approfondimento 2: La ricerca

Indice articoli

Articoli

Approfondimenti

Iniziative

Blog