astroale ha scritto:
io 15Gb di HD a disposizione li metterei volentieri, ma credevo che il vero motivo per cui non è utilizzabile il calcolo distribuito su BOINC fosse dovuto al rapporto tra dati da trasferire e tempo richiesto per elaborarli, ovvero se la mia adsl impiega un giorno a scaricare i 15Gb e poi la WU viene elaborata in 2 ore finisce che le CPU degli utenti non vengono sfruttate a dovere ... sempre che gli utenti tengano accesi abbastanza a lungo i PC per scaricare una WU da 15Gb.
Invece per quanto riguarda la proprietà intellettuale dei dati e la possibilità di alterazione delle elaborazioni, un sacco di progetti BOINC attivi hanno dimostrato che la piattaforma da questo punto di vista è ormai sufficientemente stabile e sicura per garantire la consistenza delle elaborazioni e la protezione dei dati.
la piattaforma al momento lavora senza proteggere i dati. Significherebbe, se proprio li si volesse proteggere in fase di elaborazione, doverle riscrivere e non è vantaggioso visto che LHC per ora non ha urgente bisogno di potenza di elaborazione. Con tutte le nazioni che collaborano e i soldi investiti, non è quello il problema!!
Occhio comunque alla distinzione: io sono perché i dati siano completamente disponibili come quelli di LEP (non è vero che nessuno li ha usati, magari loro non lo sanno, certo non sono diventati famosi!), anche se magari questo comporta un impegno aggiunto per archiviarli e pubblicarli. Però le ricerche e le indagini che ci fai su ci sta che siano riservate, in modo che se hai avuto l'idea geniale non tutti vengano a saperla prima che tu abbia avuto tempo per pubblicarla. Questo non impedisce a chiunque voglia provarci di lanciare una propria analisi alla ricerca di qualcosa sul monte dati disponibile.
Per il resto, LHC non produce dati che vanno elaborati tutti allo stesso modo, tipo quelli di einstein@home, per fare un esempio.
I dati tipici provenienti dagli esperimenti (4 principali e 2 secondari) di LHC sono "grezzi", cioè non sono altro che una serie di registrazioni di impulsi elettrici in uno spazio tridimensionale. Su tutti gli esperimenti agiscono dei trigger, cioè dispositivi che decidono quando questi impulsi siano da salvare e quando invece siano da buttare perché non interessanti. Non si può salvare tutto perché è informaticamente impossibile e perché sarebbe completamente inutile. Ne vengono conservate percentuali minime rispetto al totale.
Su questi dati poi vengono svolti dei compiti di ricostruzione, partendo dai singoli punti si ricostruisce un'intera traccia, la traiettoria percorsa dalla particella, e si ricavano le energie depositate nei vari calorimetri.
E' su questi dati che poi dopo si fanno le indagini, ma bisogna rendersi conto che soprattutto per le indagini più interessanti si cercano eventi rari. Questo cosa significa? Dover passare in rassegna tanti di quei dati alla ricerca di quelli giusti da stufarsi. Si parla di miriadi di gigabyte da scaricare, decisamente non approcciabile ad oggi. La grid invece possiede già tutti i dati in ciascuna sede di elaborazione, meglio, no? Contate poi che i lavori tornano ancora molto in fretta, segno che non c'è molto carico sulla grid, quindi ripeto, per lhc@home non c'è nessuna urgenza.