WCG - HPF2 Update 2011

Saluti a tutti, è passato un po' dall'ultimo aggiornamento, ma quanto è stato eccitante questo periodo! Siamo stati piuttosto occupati nel concludere i progetti in corso con delle pubblicazioni, e anche nel mettere mano a nuovi progetti e dati.

Quindi, senza ulteriori indugi, mi piacerebbe prima menzionare le nostre pubblicazioni accettate e in attesa, e poi andare oltre illustrando i nuovi dati su cui stiamo lavorando e dove ci porteranno.

Nel laboratorio siamo tutti molto entusiasti di aver recentemente portato a compimento due sforzi giganteschi con l'accettazione di un articolo e il completamento e la presentazione di un secondo. Il primo, di Kevin Drew (e altri), è un lavoro enorme che copre quasi tutto quello che facciamo in termini di previsione della struttura e delle funzioni delle proteine: è stato possibile concepirlo in primis, e realizzarlo in seguito, solo grazie al sostegno dei cicli di calcolo computazionali della World Community Grid.

Il documento sarà disponibile nella rivista Genome Research di novembre 2011. Il laboratorio ha speso qualcosina in più per garantire una licenza aperta in modo che l'articoloo possa essere visionato integralmente: il riassunto è il seguente.

L'incompletezza della struttura del proteoma (cioè l'insieme delle proteine di un organismo vivente) e della sua annotazione funzionale (processo di caratterizzazione che assegna alle proteine una funzione biologica, un ruolo metabolico o che descrive le loro caratteristiche strutturali) è un problema critico per i biologi e, in particolare, limita fortemente l'interpretazione degli esperimenti di tipo high-throughput (ad alta processività: tecnologie che permettono di processare grandi moli di dati per eseguire, ad esempio, migliaia di reazioni chimiche virtuali) di nuova generazione.

Abbiamo sviluppato una pipeline per eseguire l'annotazione del proteoma basata sulla previsione della struttura e successivamente sull'applicazione di diverse tecniche integrate quali la comparazione delle sequenze, il riconoscimento del ripiegamento e la previsione della struttura ex-novo fatta con tecniche di grid-computing. Noi prevediamo i confini dei domini proteici e le loro strutture 3D per i domini delle proteine provenienti da 94 genomi (tra cui quello umano, dell'Arabidopsis, del riso, del topo, della mosca, del lievito, dell'E. coli e del verme).

L'elaborazione di strutture de novo è stata distribuita su una rete di oltre 1,5 milioni di CPU a livello mondiale (World Community Grid). Abbiamo generato un numero significativo di nuove sicure annotazioni di ripiegamenti (il 9% dei domini che sono altrimenti non annotati in questi genomi). Abbiamo dimostrato che le strutture previste possono essere combinate con le annotazioni dal database di Gene Ontology per prevedere funzioni molecolari nuove e più specifiche.

Il documento può essere visionato qui: http://genome.cshlp.org/content/early/2011/09/16/gr.121475.111.abstract

Date inoltre una rapida occhiata a questa immagine tratta dal documento - previsione dei contorni dei domini e utilizzo della grid di WCG per ottenere una previsione della struttura de novo per i domini sconosciuti.

figS6

La seconda buona notizia è che un altro documento che coinvolge la struttura di ripiegamento proteico è stato recentemente inviato per la pubblicazione. Melissa Pentony ed altri hanno presentato il lavoro considerando i siti di selezione positiva (aree di evoluzione più rapide della media) nei proteomi di cinque specie vegetali importanti, per studiare l'evoluzione delle proteine vegetali, e hanno ampliato questa analisi mappando i siti di selezione positiva anche sulle strutture proteiche tridimensionali calcolate.

Questo è importante perché, come si vede nell'immagine sottostante, permette agli scienziati di visualizzare i siti di evoluzione rapida direttamente all'interno della struttura proteica.

1n6j-2

Questo lavoro è attualmente in fase di revisione, e sarà disponibile per l'anteprima a breve - è un altro esempio di come una griglia di calcolo possa produrre dati (previsioni di strutture proteiche) che possono essere utilizzati in diversi studi biologici per mettere in relazione i fenomeni biologici con le macchine molecolari fondamentali del corpo umano (le proteine appunto!)

Cosa stanno elaborando al moomento le vostre CPU

Codice	Esperimento	Progetto/Organismo	Descrizione	Stato
oa-ok	1169	Microbiome	Novel Gastro-Intestinal proteins from the Human Microbiome Project	Terminato
ol-op	1170	P. Yoelii	Plasmodium Yoelii Yoelii, a mode rodent malaria	Terminato
oq-ow	1146-1161	Haloferax, Haloarcula	Two Archaea, part of the third domain of life	Sospeso
ox-qc	1171	Mouse	New proteome data for Mouse	In corso!
qd+	1171	Mouse	New proteome data for Mouse	In attesa
ql+	1176	Human	New proteome data for Human	In attesa

L'elaborazione per il Human Microbiome Project (descritto nel precedente aggiornamento) si è concluso con il batch di WU 'ok', e da lì siamo passati al Plasmodium Yoelii Yoelii, i cui batch di WU sono siglati con i codici che vanno da 'ol' a 'op'.

Ho menzionato il batterio PYY nel precedente aggiornamento e brevemente nel mio ultimo intervento sul forum. Il PYY è una variante malarica dei roditori che viene utilizzato per lo studio della malaria in generale, ed in particolare la malaria umana (il concetto di utilizzare organismi similari come modello è pratica comune ed è estremamente utile per incrementate il volume di dati e proprietà dedotte di un organismo partendo dalle proprietà conosciute in un modello).

Per questa ragione, possedere una conoscienza accurata della struttura del PYY è importante per la comunità di ricerca sulla malaria.

Sapendo questo, abbiamo interpellato il nostro collaboratore Jane Carlton, recentemente trasferito al Dipartimento di Biologia della New York University, chiedendogli i dati più aggiornati che ci sono sull'argomento. Ci siamo orientati verso una risorsa chiamata PlasmoDB (http://plasmodb.org/plasmo/) e dai dati che vi abbiamo trovato abbiamo messo insieme cinque batch di nuovi domini di proteine (ox-qc) da inviarvi per la previsione della struttura de novo.

Dopo la malaria...

Dopo la malaria, mentre abbiamo aggiornato le nostre analisi post-elaborazione per un migliore utilizzo dei risultati della rete, siamo passati agli Archei (Archeobatteri), che costituiscono il terzo dominio della vita (gli altri due sono i batteri e gli eucarioti). Gli Archei sono organismi estremamente interessanti ed importanti - stanno ora ricevendo un sacco di attenzione a causa del loro ruolo nella funzione del sistema umano del colon, ed è interessante notare che alcune specie sono note per prosperare in ambienti estremamente difficili, come laghi salati e sorgenti termali.

Per maggiori informazioni sugli Archei, controllare Berkeley resource o, naturalmente, wikipedia - Archaea.

Sospensione della ricerca sugli Archeobatteri

Al momento abbiamo una lunga lista di archeobatteri da analizzare, ma abbiamo cambiato le priorità a causa di alcune nuove idee molto interessanti riguardanti la previsione della funzionalità delle proteine basate su tecniche di apprendimento automatico (che in realtà si basa più sulla statistica che sulla vera e propria intelligenza artificiale) che abbiamo si sono sviluppato in casa, e sulla revisione dei dati del proteoma per topi e umani

Abbiamo deciso di re-immettere questi nuovi dati relativi ai topi e agli umani nel nostro sistema ed inviarli alla rete per ottenere le migliori strutture proteiche possibili. Apportando miglioramenti e aggiornamenti ai nostri metodi di pre e post-processing ed incrementanto il campionamento sulla rete (ora stiamo ripiegando 100.000 strutture per dominio, rispetto alle precedenti 30.000), saremo in grado di affrontare il problema della previsione della struttura della proteina in un modo nuovo con i migliori dati a disposizione.

In termini di bach di lavoro, quelli denominati da 'ox' a 'ql' (abbiamo saltato la lettera 'p' nel nome dei batch) sono costituiti dai dati delle proteine dei topi. Terminati i 'ql' faremo nuovamente deglistudi con dati umani.

Il primo momento culminante di questo progetto, insieme con le nostre nuove idee di previsione delle funzionalità delle proteine, sarà la nostra presenza ad un congresso nazionale che tratterà del rapporto struttura/funzione per le proteine, ospitato dalla University of California, San Diego, all'inizio di dicembre, dove presenteremo il lavoro della rete e la sua integrazione con i nostri nuovi metodi, speriamo in un effetto stupefacente!

Incrociate le dita per noi...

WCG - HPF2 Update 2011

Ultime news dai progetti

Articoli

Approfondimenti

Iniziative

Blog