The Lattice Project

AMBITO: Biologia

STATO: CHIUSO

ATTACH: http://boinc.umiacs.umd.edu/

VOTO: ( N.P. )

The Lattice Project, come WCG, è un progetto master che raccoglie diversi progetti nel campo della bioinformatica.

Lavorando con diversi ricercatori, aiutandoli ad organizzare e spedire i loro lavori ed ascoltando i loro feedback li hanno costantemente aiutati a migliorare il sistema e li hanno mostrato dove c'era bisogno di maggiore lavoro. Prendendo tutto come un insieme, il corpo dei progetti che hanno supportato è estremamente diverso. The Lattice Project è stato citato in diverse pubblicazioni che sono usciti dai loro studi. Qui sotto sono riportate informazioni generali riguardanti i tipi di analisi che hanno eseguito su Lattice, le applicazioni utilizzate ed i progetti specifici. Per maggiori informazioni, visitate la loro pagina ricerche (in inglese).

Phylogenetic Analysis - GARLI
Protein Sequence Comparison - HMMPfam
Conservation Reserve Network Design - MARXAN

Per ulteriori informazioni visitate il thread ufficiale presente nel nostro forum.

Il laboratorio Cummings ed altri utilizzano GARLI per inferire alberi filogenetici dai dati di nucleotidi o aminoacidi. Svariati modelli di nucleotidi, codoni o aminoacidi sono implementati per la massima stima di verosimiglianza (ML). Multiple ricerche per l'albero ML, così come il calcolo dei valori di bootstrap supportati, sono parallelizzati con The Lattice Project a livello di ricerche euristiche individuali (es. ogni nodo di calcolo ha effettuato almeno un ricerca euristica completa). Questa parallelizzazione è particolarmente utile per una grande quantità di calcoli relativamente corti, come è tipico nelle analisi del modello di bootstrap del nucleotide con un grande numero di ripetizioni.

Il progetto LepTree (www.leptree.net) indaga le relazioni evolutive all'interno dell'ordine degli insetti dei Lepidotteri (falene e farfalle), in particolare taxa superiori come famiglie, superfamiglie ed ordini di mezzo. Questa "filogenesi dorsale" molecolare è basata sull'analisi di 26 geni codificanti delle proteine nucleari (≈9 kb) per gli attuali 123 taxa ma il lavoro su una matrice di 550, 600 taxa è ben avviato. Il principale metodo di analisi utilizzato in questo studio è un modello di ricerca di nucleotidi ML in GARLI. Il modello più comunemente applicato è il modello tempo generalmente reversibile con una distribuzione gamma dei tassi ed una proporzione di siti invanrianti (GTR+G+I). Il progetto LepTree si basa fortemente sulle risorse computazionali fornite da The Lattice Project, dato che l'elevato numero di ricerche euristiche non è possibili eseguirle su una singolo pc desktop. La maggior parte di queste ricerche euristiche consiste nel replicare i bootstrap (più di 2000 per analisi), ma in aggiunta, a causa della natura euristica della ricerca, ricerche multiple (fino a 500) sono necessarie per la fiducia nell'aver trovato l'albero ML. Per il progetto LepTree, molte analisi di questi tipi vengono affettuate, per esempio, per i geni singoli e combinati, partizioni dati sinonime e non sinonime, con e senza vincoli topologici per la verifica delle ipotesi successive.

hmmpfam è parte del pacchetto HMMER. Il pacchetto HMMER utilizza il profilo dei modelli nascosti di Markov (HMMs) per caratterizzare regioni di sequenze aminoacide simili nelle famiglie proteiche, gruppi di proteine con funzioni similari trovati in organismi correlati. Il programma hmmpfam ricerca le sequenze proteiche delle proteine con funzione sconosciuta contro un set ben curato di modelli HMM, chiamati Pfam, da famiglie proteiche ben conosciute. Le sequenze proteiche sono assegnate ad una o più famiglie proteiche, sulla base di una combinazione statisticamente significativa, ad un Pfam HMM.

HMMPfam e RMIDb:

Il laboratorio Edwards fornisce il Database di Rapida Identificazione dei Microorganismi (RMIDb - www.RMIDb.org), una risorsa web ed un database liberamente disponibili per l'identificazione di batteri e virus utilizzando la spettrometria di massa. Il RMIDb ricerca sequenze proteiche da tutti i maggiori repository di sequenze proteiche, poi elabora le previste sequenze proteiche da genomi batterici sequenziati, per combinazioni di massa con masse sperimentali da spettri di massa. Le sequenze proteiche sono accuratamente classificate in accordo con razza, specie ed altri gruppi tassonomici ed in accordo con funzione proteica, localizzazione cellulare e processo biologico utilizzando le assegnazioni Pfam elaborate da hmmpfam e le loro classificazioni associate geneontologiche. La classificazione funzionale delle sequenze proteiche deve essere rielaborata utilizzando hmmpfam perché ognuna delle sorgenti delle sequenze proteiche utilizza differenti, a volte conflittuali, criteri per l'assegnazione Pfam, fornendo anche nessuna assegnazione per tutti. La classificazione funzionale delle sequenze proteiche permette di analizzare le proteine con la più alta probabilità di essere osservate per le combinazioni di massa, che diminuiscono il tempo di ricerca e aumentano la significatività statistica delle identificazioni delle speci.

HMMPfam per l'RMIDb su BOINC:

Il laboratorio Edwards sta utilizzando il servizio HMMPfam per elaborare le assegnazioni Pfam per tutte le sequenze proteiche di batteri, plasmi e virus da Swiss-Prot, TrEMBL, GenBank, RefSeq, e TIGR di CMR, oltre ad una serie completa di tutti le plausibili previsioni Glimmer dai genomi batterici RefSeq. Queste sequenze proteiche, e le loro assegnazioni Pfam, sono utilizzate in RMIDb. Il servizio HMMPfam viene utilizzato anche come un modello per le applicazioni bioinformatiche pesanti sull'infrastruttura Lattice Grid, una collaborazione tra i laboratori Cumming ed Edwards.

MARXAN è un sistema di supporto decisionale per la progettazione della conservazione delle reti di riserva. È utile per selezionare un sistema di riserva da un grande numero di potenziali siti che soddisfano un certo numero di criteri ecologici, sociali ed economici. Per esempio, certe specie o caratteristiche di conservazione devono essere ben protette all'interno dei sistemi di riserva, o il sistema di riserva non deve essere incluso in più di uno specificato numero di siti. L'utente traduce i loro criteri in una rappresentazione di obiettivi per la conservazione delle caratteristiche da proteggere (es. numero di popolazioni di ogni specie o percentuali di ogni tipo di habitat da includere nel sistema riserva), ed eventualmente un costo soglia o un livello desiderato di compattezza. MARXAN produrrà soluzioni di reti di riserva che rispondono a questi vincoli di progetto, mentre, simultaneamente, minimizzerà il costo del progetto (es. numero di siti necessari per soddisfare tutti gli obiettivi rappresentati).

Dati parziali e la Selezione delle Reti di Conservazione di Riserva:

Joanna Grand, Mail Neel, Michael Cummings (Università del Maryland), Taylor Ricketts (Fondo Mondiale della Natura) e Tony Rebelo (Istituto Nazionale per la Biodiversità del Sud Africa) stanno collaborando su un progetto che utilizza MARXAN per quantificare gli impatti del basare la selezione delle reti di riserva di conservazione su dati incompleti e parziali sulle distribuzioni delle specie. Molti dati delle distribuzioni delle specie sono parziali in qualche modo (es. maggiore intensità di campionamento vicino alle strade o all'interno delle attuali riserve); tuttavia, sono comunemente utilizzate per selezionare siti per l'inclusione in reti di riserve perché sono considerati i migliori dati disponibili. L'abilità delle reti di riserva di proteggere adeguatamente la biodiversità, quando i siti sono selezionati sulla base di incompleti o parziali dati, è poco conosciuta.

La prima serie di analisi ha comparato l'efficienza e l'efficacia delle soluzione delle reti di riserva di MARXAN da dati delle speci parziali e completi. Hanno utilizzato dati da un sondaggio praticamente esaustivo della famiglia delle piante a fioritura delle Proteaceae nella regione floristica del Capo in Sud Africa come loro linea base per dati "completi". La produzione di una sufficiente gamma di soluzioni per la comparazione con la soluzione diìei dati completi, hanno simulato 1000 parziali e casuali serie di dati incomplete dalla serie di dati completa delle Proteaceae. Poi hanno eseguito 1000 volte MARXAN per ogni serie di dati. Questo progetto di studio ha richiesto 1.2002x10⁷ esecuzioni separate di MARXAN che è stato possibile completare in sole poche settimane con l'esecuzione asincrona parallela sul sistema Lattice Grid.

Attualmente, stanno indagando quanto bene le reti di riserva proteggano le speci quando la loro progettazione è basata su dettagliati dati di distribuzione delle speci quando, invece, sono spesso incompleti e parziali, contro grossolani dati ambientali che sono più facili da acquisire e non sono affetti dal problema dell'influenza del campionamento. Quando compareranno le soluzioni generate con dati completi, parziali e casuali sulle specie e quelli generati con dati ambientali (classi di vegetazione) e combinazioni di entrambi i tipi di dati. Queste analisi richiedono più di 7.6 x 10⁷ esecuzioni separate di MARXAN e dovranno fare nuovamente affidamento sul sistema Lattice Grid per rendere questa enorme molte di elaborazioni fattibili.

Stato del progetto: progetto attivo

Iscrizione libera.

Requisiti minimi: nessuno

Gli sviluppatori non segnalano requisiti minimi da rispettare.

Screensaver: disponibile non disponibile

Note o immagine

Assegnazione crediti: fissati per singola WU/ variabili in base al tempo di elaborazione

Quorum = 1 (se è >1 le WU dovranno essere convalidate confrontando i risultati con quelli di altri utenti).

Applicazioni e WU disponibili: vedi scheda "Link"

Cliccare sulle icone relative alle "Applicazioni"

e allo "Stato del server"

Sistemi operativi supportati: vedi scheda "Info tecniche"

Dati specifici sull'elaborazione: vedi scheda "Info tecniche"

Per ottenere dati sulla durata media dell'elaborazione, la RAM necessaria e la dead line, consultare la scheda "Info tecniche" qui a destra. Per informazioni particolareggiate (specifiche per applicazione e sistema operativo, intervallo di backup e crediti assegnati) rifarsi alla pagina dei risultati del progetto WUprop@home.

Problemi comuni: nessuno

Non si riscontrano problemi significativi.

Supporto al progetto: supportato

Per unirsi al team BOINC.Italy consultare la scheda "Link" qui a destra cliccando sull'icona relativa al "JOIN"