Indice articoli

Stella inattivaStella inattivaStella inattivaStella inattivaStella inattiva
 
Il processo di aggancio è solo uno dei passagi chiave nella definizione di un principio attivo. Una volta che i risultati (conformazione dei ligandi) sono stati raccolti, è necessario analizzarli e classificarli in base alla qualità. Un risultato di elevata qualità sono caratterizzati da una deviazione dalla configurazione nativa (misurata come la scarto quadratico medio (RMSD) tra il ligando dato dalla struttura cristallina) minore o uguale a due Angstrom (Å); comunque anche i risultati compresi tra due e tre Å vengono considerati interessanti.
Questo processo di selezione dei ligandi basato sulla loro qualità è detto scoring. Lo scoring può essere basato sull’energia o sulla geometria del ligando o sul complesso in generale. Notare che il valore RMSD è misurato in Å ed è calcolato come radice quadrata della media dei differenze al quadrato di tutti gli atomi (non idrogeni) del ligando simulato e gli atomi del ligando nella struttura cristallina.


Scoring basato sulla minima energia

Per affrontare la questione dello scoring, inizialmente ci siamo basati sul metodo tradizionale basato sul valore energetico: selezionavamo quei ligandi con la minima energia come quelli che più probabilmente si avvicinavano alla configurazione nativa. Abbiamo però immediatamente riscontrato le carenze di questo approccio in termini di accuratezza. La sottostante figura 4 mostra un campione di 100.000 conformazioni di ligandi (ogni punto è una conformazione diversa) ottenuti con D@H per un solo ligando, l’1ajx, della proteasi HIV1. I ligandi sono rappresentati in termini di potenziale energetico (asse x) e in funzione del valore RMSD ottenuto confrontandolo con la struttura cristallina (asse y).
Docking_News2011_Figura_4.4
La figura mostra tre regioni rilevanti:
  1. L’area delle conformazioni con minima energia, rappresentata dal rettangolo verticale compreso tra -26 e -22 kcal/mol. Una conformazione di ligando con la minima energia non ha sempre una forma vicino a quella nativa. Le conformazioni in questo settore sono classificate in funzione della loro minima energia, però ci sono buone probabilità che non siano conformazioni vicine a quella nativa.
  2. L’area delle conformazioni con minima deviazione (RMSD). L’RMSD è calcolato in osservanza della struttura cristallina come spiegato in precedenza. Quest’area è evidenziata dal rettangolo orizzontale con limiti di zero e un Å. Idealmente, il minimo globale della funzione di scoring con elevata accuratezza dovrebbe essere in quest’area. Tuttavia il minimo globale non può essere sempre trovato. Per la scoperta di nuovi farmaci, la dimensione della deviazione (asse y) non è nota e non può essere utilizzata per selezionare le conformazioni dei ligandi più indicate.
  3. L’area delle conformazioni con minima energia e minima deviazione, intersezione delle due aree precedenti. Idealmente questa zona dovrebbe essere ricca di risultati per aumentare l’opportunità di selezionare un ligando con una conformazione valida. Come mostra la figura 4 questo non accade, incrementando il livello di incertezza e rendendo più difficile la selezione di candidati con una conformazione quasi nativa.
Abbiamo osservato lo stesso problema con i risultati generati da due differenti algoritmi di aggancio (il primo algoritmo usa una rappresentazione implicita dell’acqua e un coefficiente dielettrico dipendente dalla distanza, mentre il secondo algoritmo usa un modello più fisicamente accurato di rappresentazione implicita dell’acqua derivato dal modello di Born) per tre proteine (HIV, tripsina, p38alpha) e i vari ligandi considerati in D@H. Questo ci ha suggerito che il problema dello scoring è indipendente dal tipo di metodo di aggancio utilizzato.
La figura 5 mostra un esempio estremo di questo fenomeno per il ligando nel complesso 1w83 dove la funzione di scoring assegna la minima energia al set di conformazioni che, partendo da orientazioni molto differenti della struttura cristallina, convergono ad uno stesso risultato.
Docking_News2011_Figura_5.4
La figura 5 qui sopra mostra una comparazione grafica del 1w38 (la chinasi p38alpha in complesso con una piccola molecola inibitrice) in riferimento al solo ligando nella struttra cristallina (disegno nero) comparato con le tre migliori conformazioni (che hanno riportato la minor energia) ottenute al termine dell’elaborazione con D@H (disegni blu, verde e viola). La figura mostra come le conformazioni a minima energia non convergano ad un’unica soluzione nonstante il grande numero di modelli ottenuti. Allo stesso tempo questi tre risultati sono sostanzialmente differenti tra di loro e nessuno di questi è sufficientemente accurato da poter essere definito quasi-nativo.

Scoring basato sugli algoritmi di raggruppamento
I risultati del metodo di scoring basato sulla minima energia ha fatto sorgere un’importante domanda. Data l’innacuratezza degli algoritmi di aggancio e le milioni di conformazioni raccolte, come possono gli scienziati scegliere i ligandi simulati che più potrebbero avvicinarsi a quelli naturali, considerando che non sempre l’energia è un metro valido?
In diverse fasi di post-processing dei risultati, gli algoritmi di raggruppamento sono utilizzati per restringere il campo dei risultati di interesse. Per questo abbiamo proposto di utilizzare un contesto gerarchico probabilistico che combina:
  1. la capacità di trattare con l’incertezza dei dati usando funzioni fuzzy c-medio di clustering partizionato
  2. la capacità di identificare il numero di gruppi necessari in fase di esecuzione utilizzando un algoritmo di divisione gerarichica per il quale la priorità sia basata sulla variabilità dei risultati.
Anzichè utilizzare le energie, utilizziamo la conformazione geometrica dei ligandi come input per il raggruppamento e l’RMSD fra i ligandi risultanti da D@H come scala di valori. Si noti che qui ci riferiamo al valore RMSD come scala per comparare fra di loro i ligandi risultanti e non ci riferiamo alla struttura cristallina che ci è sconosciuta durante il processo di scoring. Assumiamo inoltre che D@H ci fornisca un numero sufficiente di analisi e quindi che la simulazione di aggancio converga ad una soluzione quasi nativa.
Il nostro contesto gerarchico probabilistico è più sofisticato degli algoritmi di raggruppamento più semplici come il metodo k-medio. Abbiamo scelto questo metodo al posto di quelli più semplici perchè è capace di compiere un raggruppamento efficace senza sorveglianza dei grandi set di dati di D@H anche in presenza di incertezza e quando il numero di gruppi è ignoto a priori.
Docking_News2011_Figura_6.4

La figura 6 mostra il processo del nostro contesto gerarchico di raggruppamento. Il raggruppamento gerarchico parte con l’intero set di dati di tutti i ligandi ottenuti per un complesso D0 e usa funzioni fuzzy c-medio (FCM) per dividere il set in due subset che sono definiti come uno il complementare dell’altro (D2 = D1 ∪ D0 - D1). Ogni ligando dipende da ciascun subset con diversi gradi di probabilità dipendenti dalla sua distanza da un centro scelto casualmente (chiamto anche centroide dei ligandi) in quel gruppo.
Se ci sono due subset, vengono determinati due centroidi. I ligandi che non sono fortemente legati a nessuno dei due subset sono rimossi da queste due partizioni. Il nostro contesto gerarchico probabilistico seleziona la partizione tra i due subset con una probabilità direttamente proporzionale alla sua dimensione e inversamente proporzionale alla varianza interna dei ligandi. La suddivisione continua finchè la media delle due partizioni (Dm e Dm+1) è uguale a ciascuna partizione con un significato statistico di 0,05. Ad ogni passo, una gerarchia di centroidi viene salvata e utilizzata per riassumere lo spazio dei dati.
Nella figura 6, i centroidi per D0, D0 - D1, D1, D1 - D2, D2, D2 - D3 e D3 vengono salvati e possono essere usati per analizzare e riassumere le differenti dimensioni dei set di dati. Inoltre, l’ultimo gruppo è per definizione il più compatto (per esempio potrebbe essere il cluster più grande con però la minor varianza interna). Perciò, l’ultimo cluster (D3) rappresenta quello con il massimo consenso ottenuto dai dati. Di conseguenza, il centroide di D3 può essere utilizzato come il più probabile di tutti i dati e scelto come configurazione quasi nativa.
Per testare se questo metodo di raggruppamento gerarchico per probabilità è robusto e può individuare configurazioni quasi native indipendentemente dal metodo di aggancio utilizzato, abbiamo considerato nuovamente due algoritmi di attracco differenti (algoritmo 1 e 2).

Algoritmo di aggancio

Proteina

Selezione per energia minima

Selezione per raggruppamento

Algoritmo 1

HIV1

10 (43%)

19 (82%)

Algoritmo 2

HIV1

8 (34%)

20 (86%)

Algoritmo 1 & 2

HIV1

-

23 (100%)

Algoritmo 1

Tripsina

12 (57%)

17 (80%)

Algoritmo 2

Tripsina

11 (52%)

16 (76%)

Algoritmo 1 & 2

Tripsina

-

17 (80%)

Algoritmo 1

P38alpha

9 (75%)

10 (83%)

Algoritmo 2

P38alpha

1 (8%)

6 (50%)

Algoritmo 1 & 2

P38alpha

-

10 (83%)

Algoritmo 1

Tutte

31 (55%)

46 (82%)

Algoritmo 2

Tutte

20 (35%)

42 (75%)

Algoritmo 1 & 2

Tutte

-

50 (89%)

La tabella 2 riassume l'accuratezza del raggruppamento gerarchico per i due algoritmi di aggancio.
Noi consideriamo la selezione di un ligando corretta se la conformazione selezionata ha un RMSD minore di 2Å rispetto la struttura cristallina e il minimo dell'energia se la mediana del valore RMSD della conformazione di 100 ligandi con la minima energia è minore di 2Å. Come mostrato nella tabella, si ha una visione complessiva di come il nostro approccio superi quello ingenuo per tutti i metodi di aggancio e per ogni proteina. Con il nostro metodo di raggruppamento possiamo vedere come nessuno dei due algoritmi superi chiaramente l’altro.
Il risultato ottenuto combinando i campioni di D@H dei dei algoritmi può ulteriormente rafforzare la nostra accuratezza nella predizione della proteasi dell’HIV per la quale abbiamo ottenuto una percentuale di successo del 100%.

Accedi per commentare

Avatar di boboviz
boboviz ha risposto alla discussione #89835 25/02/2013 21:19
Gattorantolo ha scritto:

Non avevano anche menzionato, da qualche parte, una possibile applicazione GPU se ben mi ricordo? Uccidetemi se l`ho sparata grossa... :ave:


Un paio di anni fa avevano detto di essere al lavoro su un client CUDA, poi il silenzio...
In questi giorni sul forum ci si chiede perchè non aggiornano il client CHARMM, fermo a 5 anni fa, dal momento che le ultime versioni supportano OpenMM....poche risorse umane, probabilmente.
Avatar di Gattorantolo
Gattorantolo ha risposto alla discussione #89834 25/02/2013 18:24
boboviz ha scritto:

Ci aspettiamo che la versione beta di ExSciTecH sarà pronta nella primavera del 2012.


Campa cavallo....

Non avevano anche menzionato, da qualche parte, una possibile applicazione GPU se ben mi ricordo? Uccidetemi se l`ho sparata grossa... :ave:
Avatar di boboviz
boboviz ha risposto alla discussione #89830 25/02/2013 14:48

Ci aspettiamo che la versione beta di ExSciTecH sarà pronta nella primavera del 2012.


Campa cavallo....
Avatar di baxnimis
baxnimis ha risposto alla discussione #75673 03/02/2012 05:58
campos ha scritto:

akd ha scritto:

C'è anche da dire che basta un formattone o qualche pezzo cambiato perchè venga considerato un nuovo computer dal progetto, quindi è normale che ci siano un sacco di pc inattivi...


Cambiare sistema operativo, anche l'aggiornamento di quest'ultimo certe volte ho il sentore che spiazzi e che venga rilevato come un nuovo PC...

Ad Es. Boincstats mi assegna ben 37 host! :eek:

E io ho scaccolato solo su 5 PC fino ad ora! :asd:



:rotfl: :rotfl: :rotfl: io ne ho 67 !!! :rotfl: :rotfl: :rotfl:
Avatar di octopus91
octopus91 ha risposto alla discussione #75670 02/02/2012 23:47
certo questo non l'avevo considerato!

Ad Es. Boincstats mi assegna ben 37 host!

cavolo con 37 host potresti elaborare pure per tutti noi! :rotfl:
Avatar di campos
campos ha risposto alla discussione #75668 02/02/2012 22:06
akd ha scritto:

C'è anche da dire che basta un formattone o qualche pezzo cambiato perchè venga considerato un nuovo computer dal progetto, quindi è normale che ci siano un sacco di pc inattivi...


Cambiare sistema operativo, anche l'aggiornamento di quest'ultimo certe volte ho il sentore che spiazzi e che venga rilevato come un nuovo PC...

Ad Es. Boincstats mi assegna ben 37 host! :eek:

E io ho scaccolato solo su 5 PC fino ad ora! :asd:
Avatar di akd
akd ha risposto alla discussione #75663 02/02/2012 20:39
C'è anche da dire che basta un formattone o qualche pezzo cambiato perchè venga considerato un nuovo computer dal progetto, quindi è normale che ci siano un sacco di pc inattivi...
Avatar di octopus91
octopus91 ha risposto alla discussione #75652 02/02/2012 17:04
Riprendo questa piccola discussione, anche se di qualche mese fa, per far notare una "piccola" cosa:

N° di volontari registrati 45.901
N° di volontari attivi 7.105
N° di computer registrati 101.282
N° di computer attivi 11.232

il rapporto tra volontari attivi e registrati è un pò disarmante, un 15% scarso di utenti attivi... stessa cosa tra computer registrati e attivi (11% di computer attivi), penso che negli altri progetti la situazione non cambi molto.

C'è ancora tanto da fare per far espandere BOINC!
Avatar di Herr Fritz 27
Herr Fritz 27 ha risposto alla discussione #73583 04/12/2011 00:15
Ringrazio Bax per avermela pubblicata, soprattutto impaginata... Grazie!!!
Avatar di akd
akd ha risposto alla discussione #73562 03/12/2011 11:50
Davvero un lavorone! Me la sto leggendo a piccoli pezzi, ma sono contento che ci sia una news da docking!
Complimenti ancora!
Avatar di Edoardo23
Edoardo23 ha risposto alla discussione #73510 01/12/2011 21:45
Molto bello!
Avatar di campos
campos ha risposto alla discussione #73507 01/12/2011 21:00
baxnimis ha scritto:

un LA VO RO NE !!!


Complimenti Herr Fritz :cincin:

Stasera sono troppo suonato per leggerla, ma la leggerò sicuramente a breve! :cincin:
Avatar di baxnimis
baxnimis ha risposto alla discussione #73503 01/12/2011 19:39
un LA VO RO NE !!!