Indice articoli

Valutazione attuale: 5 / 5

Stella attivaStella attivaStella attivaStella attivaStella attiva
 
SIMAP_banner




Cos’è SIMAP?
SIMAP è un database di somiglianze tra proteine e di domini proteici. Contiene quasi tutte le sequenze proteiche ad oggi pubblicate ed è continuamente aggiornato. Le somiglianze tra proteine sono calcolate usando l’algoritmo FASTA che fornisce un’ottima velocità e sensibilità. I domini proteici sono calcolati usando i metodi e le banche dati InterPro. SIMAP è a nostro sapere l’unico progetto che combina la vasta conoscenza di tutte le proteine conosciute e la capacità di aggiornarle progressivamente.

Per cosa è usato SIMAP?

A causa dell’enorme numero di sequenze proteiche conosciute nelle banche dati pubbliche risulta chiaro che molte di queste non verranno studiate sperimentalmente nel prossimo futuro. Tuttavia, le proteine che si sono evolute da un comune antenato (le cosiddette ortologhe) spesso presentano la stessa funzione. Così è possibile intuire la funzione di una proteina non ancora studiata da una sua ortologa di cui si conosce la funzione. Un ben noto esempio è l’indagine sui geni e le proteine del topo. In molti casi i risultati sono validi anche per i geni e le proteine umane. Le somiglianze tra proteine ci danno informazioni sulle relazioni tra le proteine e sono necessarie per la predizione degli ortologhi.
I domini delle proteine (spesso chiamati domini funzionali) sono i mattoni strutturali delle proteine. Sono responsabili dell’attività di una certa proteina, come per esempio legare piccole molecole, catalizzare le reazioni o legare altre proteine per creare complessi più grandi. La conoscenza dei domini proteici è tenuta in enormi depositi come l’InterPro database. La predizione dei domini nelle nuove proteine sequenziate è basata su questi databases e fornisce un'automatica annotazione funzionale di queste proteine. Quindi calcoliamo i domini proteici per tutte le proteine all’interno di SIMAP, così da fornire il più grande sistema al mondo di predizione della funzione delle proteine.
Esistono molti metodi bioinformatici a cui ci si può collegare per ciò che concerne la somiglianza proteica e i domini. Il nostro database di somiglianze tra proteine fornisce dati sulle somiglianze e domini già calcolati e rappresenta lo spazio delle proteine conosciute. Questo apre nuove prospettive rispetto al metodo comunemente utilizzato che consiste nel ricalcolare in maniera ripetitiva questo tipo di dati. SIMAP è regolarmente aggiornato. La matrice di somiglianze viene semplicemente estesa se si presentano nuove sequenze. L’utilizzo di SIMAP è completamente disponibile per scopi educativi e ricerche pubbliche.

Perché abbiamo bisogno del calcolo distribuito per SIMAP?

I costi computazionali per calcolare i dati delle somiglianze dipendono dal quadrato delle sequenze contenute. Quindi lo sforzo computazionale per tenere la matrice aggiornata cresce costantemente. La nostra risorsa interna che esegue calcoli per SIMAP da anni non è più sufficiente per tenere conto di tutte le nuove sequenze. E’ per questo che abbiamo implementato per la piattaforma BOINC il client di SIMAP che è basato sull’algoritmo FASTA per scoprire la somiglianze tra sequenze.
La situazione per i domini proteici è diversa ma di complessità simile. I costi computazionali sono proporzionali al numero di sequenze e al numero di tipi di domini. A causa della crescita dello spazio delle frequenze e dei continui aggiornamenti nei database dei domini lo sforzo computazionale per tenere aggiornata la predizione dei domini cresce costantemente.

 


Accedi per commentare