Il sarcoma in Mapping Cancer Markers

In questo aggiornamento, il team del progetto MCM spiega come stiano determinando quali geni e quali firme genetiche siano i più promettenti per quanto riguarda la diagnosi del tumore ai polmoni. Inoltre verrà introdotto il prossimo tipo di tumore – il sarcoma – che sarà preso aggiunto al progetto.
Il progetto MCM, attualmente, continua a processare working units per il dataset del cancro alle ovaie: mentre stiamo accumulando questi risultati, contemporaneamente stiamo continuando ad analizzare i risultati dal dataset del tumore polmonare.

Modelli di familiarità genetica dei biomarcatori nel cancro polmonare
Nei tumori, e nella biologia umana in generale, gruppi multipli di biomarcatori (geni, proteine, microRNA, ecc) possono avere modelli di attività simili e quindi utilità clinica, aiutando la diagnosi, la prognosi o la previsione dell’utilità di un determinato trattamento. Per ogni sottotipo tumorale, si possono trovare un gran numero di questi gruppi di biomarcatori, ognuno con potere predditivo simile; tuttavia i metodi statistici e quelli basati sulla IA riescono ad identificarne uno solo da un determinato insieme di dati.
Noi abbiamo due scopi principali in MCM: 1) trovare buoni gruppi di biomarcatori per i tumori che stiamo studiando e 2) identificare come e perché questi biomarcatori formino questi utili gruppi, così da creare un approccio euristico che troverà tali gruppi per ogni malattia tumorale senza la necessità di mesi di calcolo su WCG. Il primo obiettivo ci fornirà non solo informazioni che, dopo la convalida sperimentale, potrebbero essere estremamente utili nella pratica clinica, ma, soprattutto, genererà dati che utilizzeremo per validare la nostra euristica.

Figura 1: Gruppi di proteine unite per interazioni similari e funzioni biologiche simili.

I gruppi multipli di biomarcatori esistono principalmente a causa della ridondanza e del “cablaggio” complesso del nostro sistema biologico: per esempio la rete umana di interazione proteina-proteina altamente interconnessa ci permette di vedere come le singole proteine svolgono diverse funzioni molecolari e, insieme, contribuiscono a specifici processi biologici, come mostrato nella Figura 1. Molte di queste interazioni si possono trasformare da “sane” a “malate” (portando, quindi a patologie come i tumori ed altre), influenzando, a loro volta, le funzioni di queste proteine. Attraverso queste analisi, miriamo a costruire modelli di questi processi, che a loro volta potrebbero essere utilizzati per progettare nuovi approcci terapeutici.
Due gruppi specifici di biomarcatori possono apparire diversi l'uno dall'altro, eppure funzionano in modo equivalente perché le proteine svolgono funzioni molecolari simili. Tuttavia, l'uso di questi gruppi di biomarcatori per la “stratificazione” del paziente potrebbe non essere semplice. Gruppi di biomarcatori, spesso, non sono convalidati da nuove coorti di pazienti o quando sono misurati da diverse analisi biologiche, e ci sono centinaia di possibili combinazioni da considerare. Alcuni gruppi di biomarcatori, per esempio, possono avere tutti i reagenti disponibili (per l’analisi di laboratorio), mentre altri devono essere sviluppati (o sono molto costosi); possono anche avere diversa robustezza, sensibilità e accuratezza, influenzando il loro potenziale come biomarcatori clinicamente utili.
A tutt’oggi, non esiste un approccio efficace per trovare tutti i gruppi validi di biomarcatori necessari per raggiungere l'obiettivo definito, come la previsione accurata del rischio del paziente o la risposta al trattamento.
Il primo obiettivo dell’MCM è di avere una più profonda comprensione delle “regole” del perché e del come le proteine interagiscono e possono essere combinate per formare un gruppo di biomarcatori, cosa essenziale per comprendere il loro ruolo e la loro applicabilità. Pertanto, stiamo utilizzando l'esclusiva risorsa computazionale di World Community Grid per esaminare sistematicamente il panorama di gruppi utili di biomarcatori per molteplici tipi di tumori e con diverse finalità (diagnosi e prognosi). In tal modo abbiamo stabilito un punto di riferimento per l'identificazione e la convalida dei biomarcatori dei geni tumorali. Allo stesso tempo, stiamo applicando metodi di apprendimento non supervisionati, come il clustering gerarchico alle proteine, che raggruppano per potere predittivo e funzione biologica.
La combinazione di questo clustering e dei pattern di World Community Grid ci consente di identificare cluster genici generalizzati che forniscono approfondimenti più precisi sullo sfondo molecolare dei tumori e danno luogo a gruppi più affidabili di biomarcatori di geni per la diagnosi e la prognosi del cancro. Attualmente, ci stiamo concentrando sui risultati della prima fase del set di dati sul cancro del polmone, che si sono concentrati su un'esplorazione sistematica dell'intero spazio di potenziali gruppi di biomarcatori a lunghezza fissa.

Figura 2: Flusso di lavoro della ricerca MCM-gene-modello-famiglia. I risultati dell'analisi della World Community Grid combinati con il clustering non controllato di geni, identifica un insieme di famiglie di modelli genetici, generalizzando i gruppi di biomarcatori. Infine, i risultati vengono valutati utilizzando noti biomarcatori del cancro e utilizzando annotazioni funzionali, come i percorsi di segnalazione, la funzione e i processi di ontologia genetica.

Come descritto sopra nella Figura 2, World Community Grid ha calcolato circa 10 miliardi di gruppi di biomarcatori selezionati in modo casuale, per aiutarci a capire la distribuzione delle dimensioni dei gruppi e delle combinazioni di biomarcatori che funzionano bene, che a loro volta utilizzeremo per convalidare approcci euristici. L'analisi ha mostrato che circa 45 milioni di gruppi di biomarcatori avevano un'alta capacità predittiva e superato la soglia di qualità. Questa valutazione ci fornisce un quadro dettagliato e sistematico di quali geni e gruppi genetici portano le informazioni più preziose per la diagnosi del cancro del polmone. L'aggiunta di dati sulla rete di interazione tra percorsi e proteine ci consente di interpretare e capire ulteriormente come e perché questi gruppi di biomarker funzionano bene, e quali processi e funzioni portino queste proteine.
Allo stesso tempo, abbiamo usato i dati del cancro del polmone per scoprire gruppi di geni simili: supponiamo che questi geni (o le proteine codificate) soddisfino funzioni biologiche simili o siano coinvolti negli stessi processi molecolari.

Figura 3: Valutazione del cluster (insieme di geni) gerarchico dei dati sul cancro ai polmoni, utilizzando il parametro di collegamento completo, per diversi numeri di gruppi indicati con il valore K (da 100 a 1000). Il primo grafico mostra il valore della silhouette - una metrica di qualità in questo raggruppamento, cioè la misura di quanto ogni oggetto si rapporta al suo cluster rispetto ad altri cluster. Il secondo grafico mostra la distanza inter- e intra-cluster e il rapporto tra distanza intra / inter cluster.

Per trovare gli appropriati algoritmi di clustering e il giusto numero di gruppi di geni (cluster) utilizziamo diverse misure per valutare la qualità di ogni singolo clustering. Ad esempio la figura 3 qui sopra mostra i risultati della valutazione del clustering gerarchico per diversi numeri di cluster: al fine di valutarne la qualità, abbiamo utilizzato il valore della sagoma/silhouette (metodo per valutare la coerenza all'interno di cluster di dati, ovvero la misura di quanto ogni oggetto si rapporta al proprio cluster rispetto ad altri cluster). Un alto valore della silhouette indica una buona configurazione di clustering, e l’immagine mostra un notevole aumento del valore della sagoma nei gruppi di 700 geni. Dal momento che questo indica un incremento significativo nella qualità, abbiamo selezionato successivamente questo cluster per ulteriori analisi.
Non tutte le combinazioni di funzioni biologiche (o la loro mancanza) porteranno allo sviluppo del cancro e saranno biologicamente importanti. Nella fase successiva, applichiamo una ricerca statistica per indagare quali combinazioni di cluster sono più comuni tra i biomarcatori ben preformanti, e quindi risultano in gruppi di geni o famiglie di modelli. Poiché è probabile che alcune famiglie di modelli genetici si verifichino anche a caso, utilizziamo l'analisi dell'arricchimento per garantire che la selezione contenga solo famiglie che si verificano significativamente più spesso di quelle casuali.
Nella fase successiva abbiamo convalidato le famiglie modello generalizzate selezionate, utilizzando un set indipendente di 28 set di dati sul cancro del polmone. Ognuno di questi studi riporta uno o più gruppi di biomarcatori di geni up-down o down-regolati che sono indicativi per il cancro del polmone.

Figura 4: Viene mostrata una selezione di famiglie di modelli ad alte prestazioni e il modo in cui sono supportate da 28 firme geniche precedentemente pubblicate. Ogni cerchio nella figura indica la forza del supporto: la dimensione del cerchio rappresenta il numero di cluster della famiglia che, laddove ci sia, è trovato significativamente più spesso nella firma di questo studio. Il colore del cerchio indica, invece, il valore medio calcolato per tutti i cluster di quella famiglia di modelli.

Figura 5: Una delle famiglie di pattern genetici più frequenti è una combinazione del cluste cluster 1, 7 e 21. Abbiamo annotato ogni cluster con i percorsi usando pathDIP e lo abbiamo visualizzato usando nuvole di parole (più grande è la parola/frase, più frequentemente si verifica).

La visualizzazione della nuvola di parole indica che il cluster 7 è coinvolto in percorsi correlati ai GPCR (recettore accoppiato a proteine G) e ai NHR (recettori ormonali nucleari). Al contrario, i geni nel cluster 1 sono altamente arricchiti nell'EGFR1 (recettore del fattore di crescita epidermico) e nelle vie di regolazione traslazionale. Le mutazioni che influenzano l'espressione di EGFR1, una proteina transmembrana, hanno dimostrato di provocare diversi tipi di cancro, e in particolare il cancro del polmone (come abbiamo mostrato precedentemente in Petschnigg et al., J Mol Biol 2017; Petschnigg et al., Nat Methods 2014). Il cluster 21 indica, d’altro canto, un grosso coinvolgimento con i microRNA, come noi (ed altri) abbiamo dimostrato in passato (Tokar et al., Oncotarget 2018; Becker-Santos et al., J Pathology, 2016; Cinegaglia et al., Oncotarget 2016).
Le aberrazioni aumentano l'attività della chinasi di EGFR1, portando a iper-attivazione delle vie di segnalazione pro-sopravvivenza a valle e successiva divisione cellulare incontrollata. La scoperta di EGFR1 ha avviato lo sviluppo di approcci terapeutici contro vari tipi di cancro incluso il cancro del polmone. Il terzo gruppo di geni sono obiettivi comuni dei microRNA.

Figura 6: Valutazione di percorsi arricchiti per il cluster 1. Qui abbiamo utilizzato il nostro portale di analisi per l'arricchimento del pathway pubblicamente disponibile che si chiama pathDIP (Rahmati et al., NAR 2017). La rete è stata generata con il nostro strumento di visualizzazione e analisi della rete NAViGaTOR 3(http://ophid.utoronto.ca/navigator).

L'illustrazione finale valuta i 20 percorsi più significativi per il cluster 1. La dimensione dei nodi di percorso corrisponde al numero di geni coinvolti e la larghezza dei bordi corrisponde alla quantità di geni in sovrapposizione tra i percorsi: si può vedere che tutti i percorsi coinvolti nella traduzione sono altamente sovrapposti. I percorsi correlati all'mRNA formano un altro componente altamente connesso nel grafico: il percorso di EGFR1, in particolare, è fortemente sovrapponibile a molti altri percorsi, indicando che i geni che sono interessati da tali percorsi sono coinvolti in un meccanismo molecolare simile.

Sarcoma
Dopo il tumore polmonare e quello ovarico, ci focalizzeremo sul sarcoma. I sarcomi sono un gruppo eterogeneo di tumori maligni, relativamente rari e sono tipicamente categorizzati in base alla morfologia e al tipo di tessuto connettivo in cui si manifestano, inclusi grasso, muscoli, vasi sanguigni, tessuti cutanei profondi, nervi, ossa e cartilagini, comprendendo poco meno del 10% di tutti i tumori (Jain 2010). I sarcomi possono verificarsi ovunque nel corpo umano, dalla testa ai piedi, possono svilupparsi in pazienti di qualsiasi età (bambini compresi) e spesso variano in aggressività, anche all'interno dello stesso sottotipo di organo o tessuto (Honore 2015). Questo suggerisce che una descrizione istologia per organo o per tessuto non è sufficiente per una corretta e completa classificazione della malattia né aiuta nella selezione del trattamento migliore.
La diagnosi dei sarcomi pone un particolare dilemma, non solo per la loro relativa frequenza, ma anche per la loro diversità, con più di 70 sottotipi istologici e per la nostra insufficiente comprensione delle caratteristiche molecolari di questi sottotipi (Jain 2010).
In tal senso, recenti studi scientifici si sono concentrati sulle classificazioni molecolari dei sarcomi sulla base di alterazioni genetiche, come geni di fusione o mutazioni oncogeniche. Mentre la ricerca ha raggiunto importanti sviluppi nel controllo “locale” / salvataggio degli arti, il tasso di sopravvivenza per i sarcomi dei tessuti molli "ad alto rischio" (STS) non è migliorato in modo significativo, specialmente nei pazienti con un sarcoma grande, profondo e di grado elevato - stadio III (Kane III 2018).
Per questi tutti questi motivi, nella prossima fase dell'analisi della World Community Grid, ci concentreremo sulla valutazione del background genomico del sarcoma. Utilizzeremo diverse informazioni e tecnologie di sequenziamento per ottenere una conoscenza più ampia tra i diversi livelli di aberrazioni genetiche e le implicazioni regolative. Forniremo una descrizione più dettagliata dei dati e degli incentivi nel prossimo aggiornamento.

Il sarcoma in Mapping Cancer Markers

Articoli

Approfondimenti

Iniziative

Blog