- PLINK - Pagina 9

Pagina 9 di 17

PLINK

PLINK è un'applicazione per l'analisi dei dati di genotipo/fenotipo. Si focalizza sull'analisi della genotipizazzione di massa e così non ha il supporto per i passi precedenti l'ottenimento dei dati dalle attrezzature di laboratorio. Inoltre non supporta le fasi successive come visualizzazione o grafica sebbene sia integrato con altri strumenti come Haploview o il pacchetto statistico R. L'applicazione è in grado di eseguire diversi tipi di analisi che sono utili in una vasta gamma di campi della ricerca biomedica. Un tipico utilizzo comprende diverse esecuzioni di linee di comando con diverse serie di differenti parametri.

Sfida

CIC biogune utilizza PLINK per eseguire molti diversi tipi di analisi massice. La sua capacità di eseguire test di associazioni ed altri tipi di analisi utilizzando l'applicazione all'interno di un prezioso strumento per la ricerca su malattie ereditarie. La principale sfida per il CIC bioGUNE è quello di incrementare, con l'incremento della potenza di elaborazione di cui hanno bisogno, l'analisi delle grandi quantità di dati entro un tempo ed un costo accettabile. Lo scopo del porting ad EDGeS è migliorare la scalabilità e l'ottimizzazione dei loro sistemi IT.
L'applicazione può girare solamente da linea di comando. Esiste un'applicazione grafica (gPlink) che esegue l'applicazione da riga di comando ma solo con un limitato numero di analisi disponibili e può gestire solo una parte dei parametri esistenti, che nel caso tipico dell'attuale linea di comando sono eseguiti, devono essere rivisti e modificati. L'input e l'output sono dei file di testo i cui formati sono considerati standard nella communità scientifica. Per incrementare la velocità e ridurre la memoria, PLINK è in grado di utilizzare formati binari specifici. L'input per la fase di analisi è utilizzato anche in altri strumenti (come Haploview per la visualizzazione) quindi questo file intermedio deve essere, inoltre, incluso nel set di file di output.
L'applicazione ha una portata molto vasta ed è utile in diversi campi di ricerca. Dalla lunga lista delle analisi disponibili, quelle che i nostri utenti utilizzano più frequentemente sono l'unione e l'inferenza aplotipo. Anche l'analisi di imputazione sarà comunemente utilizzata nel prossimo futuro.
Come attuale utilizzo, l'applicazione richiede invocazioni multiple con differenti parametri e diventa dispensiva in termini di tempo umano. Utilizzando procedure automatiche e le risorse desktop/service grid riduceremo le richieste in termini di sforzo umano e faremo un migliore utilizzo delle risorse informatiche.

Utenti

CIC bioGUNE - Un centro di eccellenza per la ricerca biomedica

La parola "biogune" significa un sito per le bioscienze che è precisamente ciò che CIC bioGUNE: è un posto che attrae ricercatori talentuosi da tutto il mondo. Attraverso la creazione di progetti comuni con altre istituzioni scientifiche, è diventata, fin dalla sua inaugurazione nel Gennaio 2005, un centro di eccellenza per la ricerca biomedica. Conseguentemente, la missione di CIC bioGUNE è realizzare ricerca di livello internazionale focalizzata su obiettivi strategici di interesse globale ed allo stesso tempo supportare lo sviluppo dell'industria biotecnologica nei Paesi Baschi. Per raggiungere questo obiettivo è necesario, nelle parole di Charles Baudelaire, andare "nello sconosciuto per trovare il nuovo".

Soluzione

Durante l'analisi dei requisiti utente (come nell'applicazione analisi) era chiaro che PLINK è un'applicazione puramente sequenziale e che il suo uso attuale potrebbe essere notevolmente migliorato in diversi aspetti, oltre all'esecuzione parallela di differenti istanze. Uno scenario molto simile deriva dall'analisi funzionale dalla quale, attualmente, derivano due approcci abbastanza diversi (singola esecuzione e a livello di processo) che possono essere facilmente soddisfatti suddividendo lo sviluppo in due pezzi abbastanza indipendenti/specializzati:

il primo intende interagire direttamente con l'utente che si occuperà di tutta l'analisi del flusso di lavoro, porzioni del quale potrebbero essere realizzate con risorse locali. Noi chiameremo questo "flusso di lavoro applicativo PLINK" (wPLINK) e saranno utilizzate le altre applicazioni quando sarà necessario. Uno dei benefici di questa applicazione è di migliorare l'esperienza utente con l'incapsulamento del flusso di lavoro e parallelizzare lo sforzo anche nel caso che nessuna infrastruttura grid efficiente sia utilizzata.
la seconda applicazione (pPLINK) eseguirà la parallelizzazione reale di un singolo processo PLINK quando gli argomenti forniti lo permetteranno e destinati a girare sul server del Desktop Grid anche se potrebbe essere utilizzato dalla workstation dell'utente.

Per raggiungere questo obiettivo, l'applicazione master crea una directory speciale con un gruppo con permessi di scrittura sotto la locazione dell'applicazione master. L'applicazione master non ha alcuna logica relativa ai dati ed il suo compito è quello di creare workunit basate sui file di input e svolge un lavoro di base con il risultato. L'applicazione da linea di comando, che è il lato utente dell'applicazione master, prepara i dati di input e li divide come richiesto, copiando tutti i pezzi su questa cartella condivisa insieme ad un piccolo file metadata. Questi pezzi sono spediti verso il client del Desktop Grid per essere processato. Il file metadata descrive le workunit che saranno create e da anche all'applicazione master l'informazione richiesta per riconoscore quando tutte le wu di un singolo run sono finite, al fine di innescare l'attività di manutenzione corretta. Tutti i file relativi all'applicazione lato utente sono memorizzati in una directory differente sotto la cartella master condivisa e la comunicazione tra un'applicazione e l'altra è gestita da file presenti in quella directory.

L'architettura complessiva dell'intera soluzione è mostrata in figura. L'utente lavorerà tipicamente con wPLINK che è in grado di utilizzare entrambe le applicazioni stock PLINK e pPLINK. In aggiunta, pPLINK è disponibile anche per l'accesso diretto da parte dell'utente, per eseguire un'analisi più specifica rispetto alla precedente definizione standard del flusso di lavoro. L'applicazione pPLINK prepara l'input per l'applicazione master, memorizza in una specifica directory che è esaminata dall'applicazione master incaricata di spedire le workunit. I singoli risultati sono ricevuti e spacchettati dall'applicazione master sebbene l'attuale fusione è compiuta con l'applicazione pPLINK.

Uno degli scopi di pPLINK è quello di non far fare assolutamente alcun cambiamento al lavoro dell'utente. La wPLINK finge di disturbare per la semplificare il modo in cui l'utente lavora, prepara multiple fasi di lavorazione multiple in una singola fase.

Background

PLINK è un insieme di strumenti open-source per l'analisi dell'associazione genetica, progettato per eseguire una serie di basilari analisi su larga scala in maniera efficiente dal punto di vista dell'elaborazione.
PLINK èsi focalizza esclusivamente sull'analisi dei dati di genotipo/fenotipo quindi non c'è alcun supporto per i passi prima di questo. Attraverso l'integrazione con gPLINK e Haploview, c'è qualche supporto per la seguente visualizzazione, annotazione e memorizzazione dei risultati.
PLINK è stato sviluppato da Shaun Purcell del Centro per la Ricerca Genetica Umana (Center for Human Genetic Research (CHGR)), del Massachusetts General Hospital (MGH) e dal Broad Institute of Harvard & MIT con il supporto di altri. Per maggiori informazioni: http://pngu.mgh.harvard.edu/purcell/plink/.

Il progetto EDGeS mantiene una infrastruttura Grid che connette Desktop Grid e Service Grid.

L'infrastruttura Grid di EDGeS.

EDGeS@home - - PLINK

Indice articoli

Articoli

Approfondimenti

Iniziative

Blog