Gli approcci alla ricerca computazionale

Insieme al Dott. Antonio Candiello, dell'Istituto Nazionale di Fisica Nucleare, vediamo quali sono i differenti approcci possibili alle necessità della ricerca computazionale:

HPC (High Performance Computing)
GC (Grid Computing)
P2P (Peer to Peer Computing)

"La ricerca scientifica è un'attività umana avente lo scopo di scoprire, interpretare e revisionare fatti, eventi, comportamenti o teorie relative alla natura usando i metodi scientifici, cioè basati sul metodo scientifico. La ricerca scientifica è la metodologia usata per accrescere la conoscenza all'interno della scienza." (fonte: Wikipedia)

Questo eccezionale strumento di progresso umano, spesso è percepito come qualcosa di distante da noi e di sola competenza di cervelloni e menti geniali.

Questa distanza è la causa per cui la ricerca soffre, da sempre, di carenze strutturali e strumentali.

Nonostante ciò, essa continua ad andare avanti ed evolvere. Negli ultimi anni un cambiamento nel metodo ha portato ad una notevole accelerazione nel conseguimento di risultati: si è passati dalla pura sperimentazione all'integrazione con analisi e simulazioni computerizzate che permettono di risparmiare anni di lavoro.

La chiave quindi sono i mezzi informatici. Tuttavia, le necessità spesso eccedono le disponibilità.

Ma vediamo quali sono i possibili approcci alla ricerca computazionale:

"Intanto, precisiamo i termini. “Computing” è correntemente compreso anche dai non specialisti – ad indicare una qualche forma di capacità di esecuzione di istruzioni in forma sequenziale. Quando si passa al “supercomputing”, appaiono diverse tipologie strutturali.

1) HPC

La terminologia corrente utilizzata per risorse di calcolo centralizzate ad alta densità è calcolo ad alte prestazioni (high performance computing, HPC), ovvero il tema prevalente di SC07, che riflette la focalizzazione americana su questo modello architetturale. Questo è il modello storicamente più noto e quello si fa riferimento in forma implicita il supercalcolatore monolitico. Strutturalmente è abbastanza semplice (sono migliaia di processori posti in calcolo parallelo), ma le applicazioni devono essere ritagliate su misura quasi caso per caso e supercalcolatore per supercalcolatore. Il più potente di oggi è Blue Gene di IBM (circa 1 petaflop di potenza, che sono 1.000.000.000.000.000 di operazioni in virgola mobile al secondo).

2) GC

Gli europei, dopo il lavoro pionieristico di Ian Foster sul modello altamente distribuito e condiviso delle griglie computazionali (grid computing, GC), hanno duramente lavorato su un middleware di produzione quale strategia per ridurre le notevoli esigenze in termini di risorse di calcolo richieste dalle simulazioni scientifiche. Questo è un modello di nuova estrazione (nasce nel 1999), che a fronte di una certa complessità architetturale, si pone però come tecnologia in grado di asserire un nuovo "standard" per la distribuzione del calcolo verso risorse aggregate che compongono elevate capacità di calcolo. La più grande grid attuale è quella del circuito europeo EGEE (European Grid for E-sciencE), con diverse decine di migliaia di server distribuiti geograficamente aggregati dal maturo middleware di produzione gLite, che dal 2008 sarà in grado di processare i ben 17 petabytes di dati prodotti annualmente dagli eventi di fisica dell'acceleratore di Ginevra (LHC, che sarà acceso nel 2008, è il più potente acceleratore mai costruito al mondo).

3) P2P

Nel frattempo, un modello verticale ed altamente scalabile (anche se inadatto ad una forma generale di calcolo standard) è emerso dalle possibilità offerte dalla vasta comunità di internet: il modello del peer to peer (P2P), dove milioni di PC sono resi utilizzabili dai proprietari nelle fasi di inattività (i programmi, che si attivano quali screen-savers, sono denominati “cpu scavengers”). L'avvio del modello l'ha dato Seti@Home, piccolo software scritto dai ricercatori in cerca di forme di vita aliena con i radiotelescopi, che non avendo fondi per l'acquisto delle ingenti risorse di calcolo necessarie all'individuazione dei possibili segnali positivi in mezzo al rumore cosmico, hanno chiesto la contribuzione volontaria di milioni di persone tramite l'attivazione di un software nei propri PC in grado di attivarsi nei momenti di inutilizzo (in fase di accensione degli screensavers). Le più recenti incarnazioni del modello vedono diversi progetti eticamente connotati attivi in tal senso; in questa categoria si inserisce BOINC (Berkeley Open Infrastructure for Network Computing) con circa 780 Teraflop di potenza, POCO MENO DEL PIÙ POTENTE SUPERCOMPUTER DEL MONDO."

(Si ringrazia per il contributo il Dott. Antonio Candiello, PhD, Grid Computing Technology Transfer Office, INFN Sezione di Padova)

A questo punto dovrebbe essere chiaro a cosa serve BOINC: fornire, GRATUITAMENTE, la capacità di analisi di un supercomputer (780 Teraflop!) a tutti quegli istituti di ricerca che non se lo possono permettere.

Pensate a quanti milioni di dollari può costare comprare e mantenere in funzione un Supercomputer come BlueGene. BOINC fornisce la stessa potenza, GRATIS.

I progetti sono tanti e negli ambiti più disparati, ma ognuno di essi merita la nostra attenzione e, perchè no, il nostro supporto.

Gli approcci alla ricerca computazionale

Ultime news dai progetti

Articoli

Approfondimenti

Iniziative

Blog