KOPI - Pagina 2

Pagina 2 di 6

Introduzione - Ricerca plagio multilingue

Si incontrano contenuti che sono plagiati, o copiati, parola per parola sempre più spesso, sia nell'educazione superiore sia nella vita scientifica. Per trovare tali contenuti, diverse soluzioni sono già state impostate, di cui KOPI Plagiarism Checker (controllore di plagio), creato dal MTA SZTAKI DSD, è il migliore che si conosca in lingua ungherese (http://kopi.sztaki.hu/). Tuttavia, la diffusione di Internet ed il fatto che sempre più persone parlano lingue straniere, si è generata una nuova forma di plagio. Oggi la maggior parte degli studenti possono parlare almeno una lingua straniera (generalmente l'inglese) ad un livello che permette loro di trovare materiale rilevante di un determinato argomento su siti stranieri e anche di tradurli. Questa abilità è anche l'aspettativa nei confronti degli studenti, dato che al giorno d'oggi una tesi che non contiene riferimenti alla letteratura straniera non è accettata da molte università e/o facoltà. La conoscenza delle lingua straniera permette agli studenti di tradurre tali materiali e di utilizzarli, senza riportare la loro fonte, come una loro idea dei nostri pezzi di lavoro, invece di rielaborare questi materiali. Data tale situazione, anche quando professori ed insegnati cercano di controllare una parte sospetta ed inseriscono una frase in ungherese, il controllore di plagio, basato sul web, non può individuare un contenuto pertinente in inglese. Per questa ragione, i responsabili del progetto credono fortemente che sia giunto il momento di muoversi da un controllo di plagio monolingua, così nel 2010 hanno iniziato un anno di ricerca su come sia possibile classificare un testo in ungherese come un proprio pezzo di lavoro di uno studente, oppure come una mera traduzione.
Come risultato della loro ricerca, hanno sviluppato un algoritmo che gli aiuta a trovare una traduzione di una frase o di un testo velocemente, anche in un grande contenuto in lingua straniera. Per facilitare questa funzione di ricerca, hanno elaborato le fonti estere prima. Dato che necessita di una grande capacità di elaborazione e tempo, hanno deciso di collocare l'elaborazione del test, specialmente quella di Wikipedia, su un GRID.

Il ruolo di SZDG

Wikipedia Inglese consiste di quasi 4 milioni di articoli, che sono circa 30GB, senza le figure ed i dati accessori. Per elaborare una grande quantità di dati, che richiedono una grande quantità di risorse di elaborazione, è molto difficile. Per garantire che il database del controllo di plagio sia aggiornato, abbiamo processato i set di dati di Wikipedia su base mensile. Siamo in grado di fare questo con i volontari di SZTAKI Desktop Grid: abbiamo diviso il set di dati in parti più piccole, trasferiti in un formato testuale, divisi in frasi e poi abbiamo preso tutte le radici di tutte le parole.
KOPI è un servizio di libero utilizzo e si propongono di migliorare la qualità dell'istruzione superiore ungherese ed il valore delle lauree eliminando potenziali abusi di informazioni in lingua straniera.
Ulteriori informazioni le potete trovare sul sito di KOPI. (in Inglese).

kopi

SZTAKI Desktop Grid - KOPI

Indice articoli

Articoli

Approfondimenti

Iniziative

Blog