Risultati delle analisi

Pagina 4 di 6

Il processo di aggancio è solo uno dei passagi chiave nella definizione di un principio attivo. Una volta che i risultati (conformazione dei ligandi) sono stati raccolti, è necessario analizzarli e classificarli in base alla qualità. Un risultato di elevata qualità sono caratterizzati da una deviazione dalla configurazione nativa (misurata come la scarto quadratico medio (RMSD) tra il ligando dato dalla struttura cristallina) minore o uguale a due Angstrom (Å); comunque anche i risultati compresi tra due e tre Å vengono considerati interessanti.

Questo processo di selezione dei ligandi basato sulla loro qualità è detto scoring. Lo scoring può essere basato sull’energia o sulla geometria del ligando o sul complesso in generale. Notare che il valore RMSD è misurato in Å ed è calcolato come radice quadrata della media dei differenze al quadrato di tutti gli atomi (non idrogeni) del ligando simulato e gli atomi del ligando nella struttura cristallina.

Scoring basato sulla minima energia

Per affrontare la questione dello scoring, inizialmente ci siamo basati sul metodo tradizionale basato sul valore energetico: selezionavamo quei ligandi con la minima energia come quelli che più probabilmente si avvicinavano alla configurazione nativa. Abbiamo però immediatamente riscontrato le carenze di questo approccio in termini di accuratezza. La sottostante figura 4 mostra un campione di 100.000 conformazioni di ligandi (ogni punto è una conformazione diversa) ottenuti con D@H per un solo ligando, l’1ajx, della proteasi HIV1. I ligandi sono rappresentati in termini di potenziale energetico (asse x) e in funzione del valore RMSD ottenuto confrontandolo con la struttura cristallina (asse y).

La figura mostra tre regioni rilevanti:

L’area delle conformazioni con minima energia, rappresentata dal rettangolo verticale compreso tra -26 e -22 kcal/mol. Una conformazione di ligando con la minima energia non ha sempre una forma vicino a quella nativa. Le conformazioni in questo settore sono classificate in funzione della loro minima energia, però ci sono buone probabilità che non siano conformazioni vicine a quella nativa.
L’area delle conformazioni con minima deviazione (RMSD). L’RMSD è calcolato in osservanza della struttura cristallina come spiegato in precedenza. Quest’area è evidenziata dal rettangolo orizzontale con limiti di zero e un Å. Idealmente, il minimo globale della funzione di scoring con elevata accuratezza dovrebbe essere in quest’area. Tuttavia il minimo globale non può essere sempre trovato. Per la scoperta di nuovi farmaci, la dimensione della deviazione (asse y) non è nota e non può essere utilizzata per selezionare le conformazioni dei ligandi più indicate.
L’area delle conformazioni con minima energia e minima deviazione, intersezione delle due aree precedenti. Idealmente questa zona dovrebbe essere ricca di risultati per aumentare l’opportunità di selezionare un ligando con una conformazione valida. Come mostra la figura 4 questo non accade, incrementando il livello di incertezza e rendendo più difficile la selezione di candidati con una conformazione quasi nativa.

Abbiamo osservato lo stesso problema con i risultati generati da due differenti algoritmi di aggancio (il primo algoritmo usa una rappresentazione implicita dell’acqua e un coefficiente dielettrico dipendente dalla distanza, mentre il secondo algoritmo usa un modello più fisicamente accurato di rappresentazione implicita dell’acqua derivato dal modello di Born) per tre proteine (HIV, tripsina, p38alpha) e i vari ligandi considerati in D@H. Questo ci ha suggerito che il problema dello scoring è indipendente dal tipo di metodo di aggancio utilizzato.

La figura 5 mostra un esempio estremo di questo fenomeno per il ligando nel complesso 1w83 dove la funzione di scoring assegna la minima energia al set di conformazioni che, partendo da orientazioni molto differenti della struttura cristallina, convergono ad uno stesso risultato.

La figura 5 qui sopra mostra una comparazione grafica del 1w38 (la chinasi p38alpha in complesso con una piccola molecola inibitrice) in riferimento al solo ligando nella struttra cristallina (disegno nero) comparato con le tre migliori conformazioni (che hanno riportato la minor energia) ottenute al termine dell’elaborazione con D@H (disegni blu, verde e viola). La figura mostra come le conformazioni a minima energia non convergano ad un’unica soluzione nonstante il grande numero di modelli ottenuti. Allo stesso tempo questi tre risultati sono sostanzialmente differenti tra di loro e nessuno di questi è sufficientemente accurato da poter essere definito quasi-nativo.

Scoring basato sugli algoritmi di raggruppamento
I risultati del metodo di scoring basato sulla minima energia ha fatto sorgere un’importante domanda. Data l’innacuratezza degli algoritmi di aggancio e le milioni di conformazioni raccolte, come possono gli scienziati scegliere i ligandi simulati che più potrebbero avvicinarsi a quelli naturali, considerando che non sempre l’energia è un metro valido?

In diverse fasi di post-processing dei risultati, gli algoritmi di raggruppamento sono utilizzati per restringere il campo dei risultati di interesse. Per questo abbiamo proposto di utilizzare un contesto gerarchico probabilistico che combina:

la capacità di trattare con l’incertezza dei dati usando funzioni fuzzy c-medio di clustering partizionato
la capacità di identificare il numero di gruppi necessari in fase di esecuzione utilizzando un algoritmo di divisione gerarichica per il quale la priorità sia basata sulla variabilità dei risultati.

Anzichè utilizzare le energie, utilizziamo la conformazione geometrica dei ligandi come input per il raggruppamento e l’RMSD fra i ligandi risultanti da D@H come scala di valori. Si noti che qui ci riferiamo al valore RMSD come scala per comparare fra di loro i ligandi risultanti e non ci riferiamo alla struttura cristallina che ci è sconosciuta durante il processo di scoring. Assumiamo inoltre che D@H ci fornisca un numero sufficiente di analisi e quindi che la simulazione di aggancio converga ad una soluzione quasi nativa.

Il nostro contesto gerarchico probabilistico è più sofisticato degli algoritmi di raggruppamento più semplici come il metodo k-medio. Abbiamo scelto questo metodo al posto di quelli più semplici perchè è capace di compiere un raggruppamento efficace senza sorveglianza dei grandi set di dati di D@H anche in presenza di incertezza e quando il numero di gruppi è ignoto a priori.

La figura 6 mostra il processo del nostro contesto gerarchico di raggruppamento. Il raggruppamento gerarchico parte con l’intero set di dati di tutti i ligandi ottenuti per un complesso D0 e usa funzioni fuzzy c-medio (FCM) per dividere il set in due subset che sono definiti come uno il complementare dell’altro (D2 = D1 ∪ D0 - D1). Ogni ligando dipende da ciascun subset con diversi gradi di probabilità dipendenti dalla sua distanza da un centro scelto casualmente (chiamto anche centroide dei ligandi) in quel gruppo.

Se ci sono due subset, vengono determinati due centroidi. I ligandi che non sono fortemente legati a nessuno dei due subset sono rimossi da queste due partizioni. Il nostro contesto gerarchico probabilistico seleziona la partizione tra i due subset con una probabilità direttamente proporzionale alla sua dimensione e inversamente proporzionale alla varianza interna dei ligandi. La suddivisione continua finchè la media delle due partizioni (Dm e Dm+1) è uguale a ciascuna partizione con un significato statistico di 0,05. Ad ogni passo, una gerarchia di centroidi viene salvata e utilizzata per riassumere lo spazio dei dati.
Nella figura 6, i centroidi per D0, D0 - D1, D1, D1 - D2, D2, D2 - D3 e D3 vengono salvati e possono essere usati per analizzare e riassumere le differenti dimensioni dei set di dati. Inoltre, l’ultimo gruppo è per definizione il più compatto (per esempio potrebbe essere il cluster più grande con però la minor varianza interna). Perciò, l’ultimo cluster (D3) rappresenta quello con il massimo consenso ottenuto dai dati. Di conseguenza, il centroide di D3 può essere utilizzato come il più probabile di tutti i dati e scelto come configurazione quasi nativa.
Per testare se questo metodo di raggruppamento gerarchico per probabilità è robusto e può individuare configurazioni quasi native indipendentemente dal metodo di aggancio utilizzato, abbiamo considerato nuovamente due algoritmi di attracco differenti (algoritmo 1 e 2).

Algoritmo di aggancio	Proteina	Selezione per energia minima	Selezione per raggruppamento
Algoritmo 1	HIV1	10 (43%)	19 (82%)
Algoritmo 2	HIV1	8 (34%)	20 (86%)
Algoritmo 1 & 2	HIV1	-	23 (100%)
Algoritmo 1	Tripsina	12 (57%)	17 (80%)
Algoritmo 2	Tripsina	11 (52%)	16 (76%)
Algoritmo 1 & 2	Tripsina	-	17 (80%)
Algoritmo 1	P38alpha	9 (75%)	10 (83%)
Algoritmo 2	P38alpha	1 (8%)	6 (50%)
Algoritmo 1 & 2	P38alpha	-	10 (83%)
Algoritmo 1	Tutte	31 (55%)	46 (82%)
Algoritmo 2	Tutte	20 (35%)	42 (75%)
Algoritmo 1 & 2	Tutte	-	50 (89%)

La tabella 2 riassume l'accuratezza del raggruppamento gerarchico per i due algoritmi di aggancio.

Noi consideriamo la selezione di un ligando corretta se la conformazione selezionata ha un RMSD minore di 2Å rispetto la struttura cristallina e il minimo dell'energia se la mediana del valore RMSD della conformazione di 100 ligandi con la minima energia è minore di 2Å. Come mostrato nella tabella, si ha una visione complessiva di come il nostro approccio superi quello ingenuo per tutti i metodi di aggancio e per ogni proteina. Con il nostro metodo di raggruppamento possiamo vedere come nessuno dei due algoritmi superi chiaramente l’altro.

Il risultato ottenuto combinando i campioni di D@H dei dei algoritmi può ulteriormente rafforzare la nostra accuratezza nella predizione della proteasi dell’HIV per la quale abbiamo ottenuto una percentuale di successo del 100%.

La newsletter 2011 di Docking@home - Risultati delle analisi

Indice articoli

Ultime news dai progetti

Articoli

Approfondimenti

Iniziative

Blog