Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele...

21
1 Rezumatul Etapei 1. Proiect IntelUro. Prin colaborarea partenrilor consortiului IntelUro s-au realizat: 1) o platforma software integrata compusa din a) Modul clinic de inregistrare elctronica a pacientilor (EMR), b) Modul Patologic, c) Modul Imagistic, d) Modul de Biologie Moleculara si e) Modul Bioinformatic. Acesta a fost conceput la cele mai inalte standarde internationale, depasind chiar unele dintre acestea, fiind accesibil ati de pe PC cit si de pe dispozitive mobile, cum ar fi Telefoane Inteligente, Tablete, etc., pe sistemele de operare Windows, Android si IOS. Elementele avansate de programare au fost solutionate prin achizitionarea serviciilor unor firme specializate si de software customizat. S-au stabilit protocoalele multidisciplinare ce vor fi folosite in proiect urmarindu-se respectarea standardelor internationale larg acceptate si compatibilitatea cu studii similare. In prima etapa proiectul IntelUro a realizat pe deplin obiectivele propuse. Mai mult, partenerul UMF, prin mobilizarea unor resurse proprii, a largit gama investigatiilor posibile la pacientii proiectului, ceilalti parteneri dezvoltind instrtumentele necesare integrarii acestora in problematica predictiei recurentei si a progresiei. Posibilitati de Predictie a recurentei si a progresiei. Protocoale: Clinic, Imagistic, Patologic si de Biologie Moleculara. Modul clasic de a clasifica pacienții cu tumori vezicale TaT1 este de a-i împărți în grupe de risc pe baza factorilor de prognostic derivati din analizele multivariate. Folosind o astfel de tehnică, pacienții sunt clasificati in grupuri cu risc scăzut, intermediar și de risc inalt. Cu toate acestea atunci când se utilizează aceste grupuri de risc nu se face nici o distincție între riscul de reaparitie si riscul de progresie al tumorii. În scopul de a anticipa separat riscurile pe termen scurt și pe termen lung de recurenta si progresie pentru pacientii cu cancer vezical superficial, Organizatia Europeana pentru Cercetare si Tratamentul Cancerului (EORTC) a dezvoltat un sistem de notare a factorilor de risc și tabele de risc. Sistemul de notare se bazează pe cei mai importanti 6 factori cu semnificatie clinica si patologica: numarul de tumori, marimea tumorii, rata de recurenta precedenta, stadializare T, prezenta de Cis concomitent, gradul tumoral. Acest sistem de calcul al probabilitatii de recurenta si progresie este valabil pentru pacientii care nu au beneficiat de un al doilea TURV sau de terapie cu BCG. Factor Recurenta Progresie Numarul de tumori 1 0 0 2-7 3 3 >8 6 3 Diametrul tumorii <3 cm 0 0 <3 cm 3 3 Recurenta precedenta <1 recurenta/an 2 2 <1 recurenta/an 4 2 Element T Ta 0 0

Transcript of Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele...

Page 1: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

1

Rezumatul Etapei 1. Proiect IntelUro.

Prin colaborarea partenrilor consortiului IntelUro s-au realizat: 1) o platforma software

integrata compusa din a) Modul clinic de inregistrare elctronica a pacientilor (EMR), b)

Modul Patologic, c) Modul Imagistic, d) Modul de Biologie Moleculara si e) Modul

Bioinformatic. Acesta a fost conceput la cele mai inalte standarde internationale, depasind

chiar unele dintre acestea, fiind accesibil ati de pe PC cit si de pe dispozitive mobile, cum ar fi

Telefoane Inteligente, Tablete, etc., pe sistemele de operare Windows, Android si IOS.

Elementele avansate de programare au fost solutionate prin achizitionarea serviciilor unor

firme specializate si de software customizat. S-au stabilit protocoalele multidisciplinare ce vor

fi folosite in proiect urmarindu-se respectarea standardelor internationale larg acceptate si

compatibilitatea cu studii similare. In prima etapa proiectul IntelUro a realizat pe deplin

obiectivele propuse. Mai mult, partenerul UMF, prin mobilizarea unor resurse proprii, a largit

gama investigatiilor posibile la pacientii proiectului, ceilalti parteneri dezvoltind

instrtumentele necesare integrarii acestora in problematica predictiei recurentei si a progresiei.

Posibilitati de Predictie a recurentei si a progresiei. Protocoale: Clinic, Imagistic,

Patologic si de Biologie Moleculara.

Modul clasic de a clasifica pacienții cu tumori vezicale TaT1 este de a-i împărți în

grupe de risc pe baza factorilor de prognostic derivati din analizele multivariate. Folosind o

astfel de tehnică, pacienții sunt clasificati in grupuri cu risc scăzut, intermediar și de risc

inalt. Cu toate acestea atunci când se utilizează aceste grupuri de risc nu se face nici o

distincție între riscul de reaparitie si riscul de progresie al tumorii.

În scopul de a anticipa separat riscurile pe termen scurt și pe termen lung de recurenta

si progresie pentru pacientii cu cancer vezical superficial, Organizatia Europeana pentru

Cercetare si Tratamentul Cancerului (EORTC) a dezvoltat un sistem de notare a factorilor de

risc și tabele de risc. Sistemul de notare se bazează pe cei mai importanti 6 factori cu

semnificatie clinica si patologica: numarul de tumori, marimea tumorii, rata de recurenta

precedenta, stadializare T, prezenta de Cis concomitent, gradul tumoral. Acest sistem de

calcul al probabilitatii de recurenta si progresie este valabil pentru pacientii care nu au

beneficiat de un al doilea TURV sau de terapie cu BCG.

Factor Recurenta Progresie

Numarul de tumori

1 0 0

2-7 3 3

>8 6 3

Diametrul tumorii

<3 cm 0 0

<3 cm 3 3

Recurenta precedenta

<1 recurenta/an 2 2

<1 recurenta/an 4 2

Element T

Ta 0 0

Page 2: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

2

T1 1 4

Cis concominent

Nu 0 0

Da 1 6

Grad tumoral *OMS 1973

G1 0 0

G2 1 0

G3 2 5

Scor total 0-17 0-23

Scor Probabilitate de recurenta in

primul an

Probabilitate de recurenta in

primii 5 ani

Grupul de risc

% (95% CI) % (95% CI)

0 15 (10-19) 31 (24-37) Low risk

1-4 24 (21-26) 46 (42-49) Risc intermediar

5-9 38 (35-41) 62 (58-65)

10-17 61 (55-67) 78 (73-84) Risc inalt

Pentru pacientii care au beneficiat de terapie cu BCG, s-a dezvoltat un sistem de notare a

sapte factori cu rol prognostic: varsta si sexul pacientului, numarul de tumori, episoadele

recurentiale, stadiul T, asocierea de Cis, gradul tumoral. Acest sistem dezvoltat de CUETO

(Club Urologico Espanol de Tratamiento Oncologico) inca nu a fost validat pe termen lung.

Fără nici un tratament, aproximativ 54% dintre pacienții cu Cis progreseaza la forma invaziva

a bolii. Din păcate, nu există factori de prognostic de încredere, care fie folositi pentru a

prezice cursul bolii și sa identifice cazurile cele mai periculoase. Publicațiile actuale se

bazează pe o analiză retrospectivă de serii mici de pacienți și concluziile lor nu sunt omogene.

Unele studii au raportat prognostic mai rau in Cis concomitent cu tumorile T1, comparativ cu

CSI primar sau Cis extins.

Diverse publicații au arătat că răspunsul la tratamentul intravezical cu BCG sau chimioterapie

este un factor important de prognostic pentru progresia ulterioară și decesul cauzat de

cancerul vezical. Aproximativ 10-20% din cei ce raspund complet la tratament progreseaza în

cele din urmă la forme musculo-invazive de boala, comparativ cu 66% din cei care nu

raspund la tratament.

Follow-up-ul pacientilor cu tumori vezicale superficiale

Ca urmare a riscului de reaparitie si progresie, pacienții cu tumori vezicale TaT1 trebuie să fie

urmariti imagistic si endoscopic. Frecvența cistoscopiei si a invetigatiilor imagistice ar trebui

să fie determinate de gradul de risc pentru fiecare pacient in parte. Prin utilizarea tabelelor de

risc suntem capabili de a anticipa riscurile pe termen scurt și lung de recurenta si progresie

individual, la fiecare pacient, și se poate adapta programul de follow-up corespunzător.In

planificarea programului de follow-up, următoarele aspecte ar trebui să fie luate în

considerare:

Page 3: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

3

1. Diagnosticul prompt al formelor musco-invazive si a celor cu grad inalt neinvazive

muscular este crucial, intarzierea in diagnostic si terapie poate fi amenintatoare de

viata pentru pacient.

2. Recurenta tumorala in grupul cu risc scazut este aproape intotdeauna corelata cu

gradul si stadiul tumoral scazut.

3. Prima cistoscopie de control trebuie efectuata la 3 luni de la TURV pentru pacientii

TaT1

4. Riscul de recurenta la nivelul tractului urinar superior creste la pacientii cu tumori cu

risc inalt si multiple.

Cistoscopia este singura investigatie imagistica utila in evaluarea pacientilor cu cancer vezical

TaT1. Pacientii cu cancer vezical TaT1 cu risc scazut de recurenta si progresie trebuie sa

efectueze prima cistoscopie de control la 3 luni post TURV. Daca aceasta este negativa,

urmatoarea cistoscopie se va efectua la 9 luni de la cistoscopia de control, ca mai apoi sa fie

efectuata anual timp de 5 ani.

Pacientii cu tumori vezicale TaT1 cu risc inalt de progresie si cei cu Cis trebuie sa efectueze o

cistoscopie completata de citologie urinara la 3 luni post TURV. Daca acestea sunt negative

cistoscopia si citologie trebuie efectuate la interval de 3 luni pe o durata de 2 ani, apoi la

intervale de 6 luni in urmatorii 3 ani, apoi anual. Examinarea imagistica a tractului urinar

superior este recomandata anual.

Pacientii cu tumori vezicale TaT1 cu risc intermediar beneficiaza de evaluare prin

cistoscopie/citologie in functie de factori prognostici si factori personali/subiectivi.

Daca pe parcursul follow-up-ului citologia urinara este pozitiva, fara modificari la cistoscopie,

biopsiile repatate sau biopsiile recolatate folosind agenti fotodinamici sunt recomadate.

Investiile ce evalueaza tractul urinar superior (URO-CT) sau tractul urinar inferior (biopsie

din uretra prostatica) sunt recomandate.

Ecografia a fost utilizata din ce in ce mai frecvent ca instrument initial de a evalua tractul

urinar. Ecografia abdominala este folosita in descrierea elementelor renale, detectarea

hidronefrozei si vizualizarea maselor intraluminare din vezica urinara. Aceasta poate fi la fel

de precisa ca urografia in diagnosticarea obstructiei tractului urinar.Este un instrument util in

investigarea pacientilor cu hematurie ce au obstructie, dar nu poate exclude prezenta tumorilor

de tract urinar superior.

Tomografia coputerizata ridica procentajul acuratetei diagnostice in aprecierea infiltratiei

parietovezicale a tumorii si in decelarea adenopatiilor pelvine.

In momentul de fata in cazul tumorilor vezicale TaT1 nu exista date ce sa sa indice ca

imagistica de rutina (CT; Urografie) poate oferi o diagnosticare mai precoce a tumorilor

vezicale. Orice schimbare in grad, o citologie pozitiva sau hematurie inexplicabila necesita o

investigare imagistica tractului urinar superior.

I. Protocoale si Modul Bioniformatic.

Page 4: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

4

Modul bioinformatic integreaza in diverse workflow-uri de analiza a datelor microRNA si

mRNA submodule, implementate în special în limbajul de programare R (Bioconductor),

realizate de echipa de informaticienti a SAIA impreuna cu firme specializate in programarea

avansata. Exemplificăm fluxul de lucru pe un set de date de microarray (microARN extras din

plasmă) ce a stat la baza unei invenții a Dr. A. Floares (Director IntelUro) în parteneriat cu

MD Anderson Cancer Center Texas, USA (platforma Illumina two-color) realizată pentru 38

de probe: 18 indivizi sănătoși, 20 indivizi cu cancer de vezică. Valorile reprezintă.

Preprocesarea datelor de exprimare genică. Modulul de Preprocesare cuprinde suita de

etape necesare în preprocesarea datelor microarray pentru toate platformele importante –

Agilent (platforma ce va fi utilizată de partenerul UMF), Affymetrix si Illumina. Fluxul de

lucru (descris în [1]) pentru acest modul cuprinde următoarele etape: a) Transformarea

datelor: Logaritmarea în baza 2 [2], b) Filtrarea datelor, c) Corecția zgomotului de

fundal, d) Abordarea valorilor lipsă (algoritmul KNN (k Nearest Neighbours) considerat

cel mai performant [3], e) Normalizarea și îndepărtarea efectelor de masă (în cadrul chip-

ului, realizată prin metodele print-tip lowess [4] si global lowess [5], între chip-uri, realizată

prin metodele quantile [6] si VSN [7].

Analiza de explorare & Controlul calității datelor: density plot, box plot, PCA, bar plot,

MA plot, hierarchical clustering etc.

De exemplu, utilizarea graficului PCA a rezultat în identificarea efectelor de masă

determinate de timpul diferit de rulare a experimentelor. Asupra datelor de test am aplicat

două metode grafice de investigare, density plot si boxplot, înainte și după normalizare.

Figură 1 Density plot a distribuției intensităților logaritmate înainte de normalizare

Page 5: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

5

Figură 2 Boxplot a distribuției intensităților logaritmate înainte de normalizare

Figură 3 Density plot și boxplot a distribuției intensităților logaritmate după normalizare

Page 6: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

6

II. Analiza exprimării diferenţiale

Analiza exprimării diferenţiale implică identificarea genelor cu exprimare semnificativ

diferită între fenotipuri distincte. Procesul mai este cunoscut și sub termenul de comparație a

claselor [8]. Platforma suportă multiple metode printre care: 1) t-test, 2) t-test (mediană), 3) t-

test (min std), 4) t-test (median, min std), 5) SNR (Signal to Noise Ratio), 6) SNR (median),

7) SNR (min std), 8) ANOVA.

Datorită faptului că se testează un număr mare de gene faţă de ipoteza nulă a exprimării

nediferenţiate, este posibil ca rezultatele să includă multe valori fals-pozitive. Modulul

permite ajustarea pentru testarea multiplă prin diferite metode statistice, printre care rata de

falsă descoperire (False Discovery Rate) [9] şi rata de eroare “family-wise” (Family Wise

Error Rate) [10].

De exemplu, pentru datele test s-a aplicat t-test între cele două clase (normal și tumoră).

Figura 4 redă graficul și tabelul rezultat pentru genele activate, ordonate crescător în funcție

de punctajului obținut.

Figură 4 Rezultate t-test: genele activate ordonate crescător după punctaj

III. Analiza clustering

Page 7: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

7

Analiza clustering are ca scop identificarea și gruparea genelor cu exprimare similară,

apoi corelarea acestor rezultate cu semnificația lor biologică. Analiza se bazează pe ipoteza că

genele co-reglate și înrudite funcțional se vor exprima cel mai probabil simultan, deci se vor

putea grupa în clustere. Tehnicile de clustering pot fi aplicate pentru a identifica grupuri de

experimente (pacienți), gene sau ambele.

Atunci când analiza de clustering se efectuează asupra genelor, are ca scop:

identificarea grupurilor de gene co-reglate

identificarea tiparelor de exprimare genice spațiale sau temporale

reducerea redundanței în modele de predicție

În cazul în care analiza este utilizată pentru a grupa experimente, are ca scop:

identificarea de noi clase biologice (de exemplu, noi clase tumorale)

detectarea artefactelor experimentale

facilitarea vizualizării datelor

Metode de clustering

1. Hierarchical clustering [11]

Metoda implică gruparea a câte două elemente în funcție de distanța dintre ele (cele mai

apropiate elemente fiind unite primele). Rezultatul constă într-o structură tip arbore

(dendrogramă) a căror noduri corespund a - elementelor inițiale (frunzele arborelui) și b -

unui grup de noduri (nodurile interne ale arborelui). Există mai mule modalități de evaluare a

distanței: corelație Perason, Spearman, distanța Euclidiană, tau Kendall. Dendrograma poate

fi vizualizată cu ajutorul unei termograme.

Exemplu: asupra datelor test am aplicat hierarchical clustering pentru genele

corespunzătoare miARN. Investigarea vizuală relevă genele puternic diferențiate între cele

două clase (normal și tumoră). 10 dintre aceste gene au fost identificate și prin analiza

expresiei diferențiale efectuată anterior (punctaj ridicat).

Page 8: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

8

Figură 5 Hierarchical clustering pentru genele corespunzătoare miARN: selecție a genelor semnificativ diferențiate

2. K-means clustering [12]

Metoda grupează elementele într-un număr de clustere specificat de utilizator (parametrul

k). Algoritmul selectează randomic un punct central pentru fiecare cluster apoi atribuie

fiecare punct din date celui mai apropiat punct central din clustere. Apoi, se recalculează

în mod recurent un nou punct central pentru fiecare cluster, în funcție de valoare medie a

membrilor, până când toate punctele sunt împărțite pe clustere.

3. SOM [13]

Algoritmul creează și ajustează iterativ o tabelă 2D de clustere pentru a reflecta structura

globală în setul de date de exprimare genică. Formatul tabelei este selectat randomic (ex. 3

x 2 ) și asociate cu spațiul de k dimensiuni a datelor de exprimare. Rezultatul este un set

de clustere organizate într-o tabelă 2D, unde clusterele similare sunt dispuse în apropiere

și se oferă un sumar al datelor.

4. Non-negative matrix factorization (NMF) [14]

Algoritmul identifică tipare de exprimare contextuale a genelor din sisteme biologice

complexe. Principiul de reducere a dimensiunii prin factorizarea matricei include

următorii pași: pornid de la o matrice dată N x M (matricea A) cu valori pozitive,

algoritmul calculează iterativ o aproximare, A ~ WH, unde W este o matrice N x k, H o

matrice k x M, ambele fiind constrânse la valori pozitive. Algoritmul pornește de la

matrici inițializate cu valori randomice, de dimensiuni corespunzătoare W și H. Aceste

două matrici sunt actualizate iterativ pentru a minimaliza distanța Euclidiană dintre A și

Page 9: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

9

WH (sau o altă măsură de divergență). Metoda implementată calculează de asemenea un

factor de apartență la rînd și la coloană, în funcție de amplitudinea maximă.

5. Consensus clustering [15]

Pachetul determină numărul optim de clustere prin rularea repetată a unui algoritm de

clustering selectat, apoi evaluează stabilitatea clusterelor identificate. Metoda suportă

următorii algoritmi de clustering: hierarchical clustering, K-means clustering, self-

organizing maps (SOM) și non-negative matrix factorization (NMF).

6. Hierarchical Ordered Partitioning And Collapsing Hybrid (HOPACH) [16]

HOPACH construiește un arbore ierarhic de clustere, prin partiționarea recursivă a setului

inițial de date odată cu ordonarea și unirea clusterelor la fiecare nivel. Algoritmul

utilizează Mean/Median Split Silhoutette (MSS) ca și crieriu pentru a identifica nivelul

din arbore cu omogentiatera maximă a clusterelor. În continuare, arborele construit este

parcurs de sus în jos pentru a produce o listă ordonată a elementelor. La sfârșit, se aplică

metoda boostrap pentru a estima probabilitatea ca fiecare element să aparțină de fiecare

cluster. HOPACH a fost proiectat specific pentru date de microarray.

Page 10: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

10

Figură 6 Raportul obținut prin aplicarea consensus clustering pentru algoritmul NMF (k=2)

Page 11: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

11

Bibliografie

1. Sanchez, A. and M.C. de Villa, A Tutorial Review of Microarray Data Analysis. 2008,

Barcelona: Universitat de Barcelona.

2. Hahne, F., et al., Bioconductor Case Studies. 2008: Springer.

3. Cover, T.M., Estimation by the nearest neighbor rule. Vol. IT-14. 1966: Systems Theory

Laboratory, Stanford Electronics Laboratories, Stanford University.

4. Yang, Y.H., et al., Normalization for cDNA microarray data: a robust composite method

addressing single and multiple slide systematic variation. Nucleic Acids Res, 2002. 30(4): p.

e15.

5. Cleveland, W.S., Robust Locally Weighted Regression and Smoothing Scatterplots. Journal of

the American Statistical Association, 1979. 74(368): p. 829-836.

6. Bolstad, B.M., et al., A comparison of normalization methods for high density oligonucleotide

array data based on variance and bias. Bioinformatics, 2003. 19(2): p. 185-93.

7. Huber, W., et al., Variance stabilization applied to microarray data calibration and to the

quantification of differential expression. Bioinformatics, 2002. 18 Suppl 1: p. S96-104.

8. Walker, J.M., Methods in molecular biology. Biological methods. 1984, Clifton: Humana.

9. Benjamini, Y. and Y. Hochberg, Controlling the False Discovery Rate: A Practical and

Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society. Series B

(Methodological), 1995. 57(1): p. 289-300.

10. Hochberg, Y. and A.C. Tamhane, Multiple comparison procedures. 1987: John Wiley

\\&amp; Sons, Inc. 450.

11. Eisen, M.B., et al., Cluster analysis and display of genome-wide expression patterns. Proc

Natl Acad Sci U S A, 1998. 95(25): p. 14863-8.

12. MacQueen, J.B. and W.M.S.I.U.O.C.L. ANGELES., Some Methods for Classification and

Analysis of Multivariate Observations. 1966: Defense Technical Information Center.

13. Tamayo, P., et al., Interpreting patterns of gene expression with self-organizing maps:

methods and application to hematopoietic differentiation. Proc Natl Acad Sci U S A, 1999.

96(6): p. 2907-12.

14. Brunet, J.P., et al., Metagenes and molecular pattern discovery using matrix factorization.

Proc Natl Acad Sci U S A, 2004. 101(12): p. 4164-9.

15. Monti, S., et al., Consensus Clustering: A Resampling-Based Method for Class Discovery and

Visualization of Gene Expression Microarray Data. Mach. Learn., 2003. 52(1-2): p. 91-118.

16. J. van der Laan, M. and K.S. Pollard, A new algorithm for hybrid hierarchical clustering with

visualization and the bootstrap. Journal of Statistical Planning and Inference, 2003. 117(2): p.

275-303.

Page 12: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

12

Predictie & Clasificare

Unele din cele mai cunoscute metode de clasificare sunt K-nearest neighbors (KNN) [Ripley

(1996)], probabilistic neural network (PNN) [Specht (1990)] si Support Vector Machines

(SVM) [Scholkopf and Smola (2002)]. În metoda KNN se folosesc k vecini, cei mai apropiaţi

de înregistrarea ce se vrea a fi clasificată. Metoda K Nearest Neighbour este utilizată datorită

simplităţii şi robusteţii metodei. Numărul de vecini (k) se poate optimiza prin cross-validation

[Barrier (2007)]. Probabilistic neural network (PNN) este o rețea neuronală Feedforward,

care a fost derivată din rețeaua Bayesian și un algoritm statistic numit Kernel Fisher

discriminant analysis. În PNN, operațiunile sunt organizate într-o rețea cu mai multe straturi

Feedforward patru straturi: de intrare, ascuns, sablon şi de ieşire. Support Vector Machines

(SVM) este o metdă de clasificare cu un fundament matematic solid ce functionează bine

pentru date multidimensionale.

În metoda de clasificare cu metoda centroizilor contractaţi [Tibshirani and al. (2003)]

se calculează centroizi standard pentru fiecare clasă. Acesta este media expresia genelor

pentru fiecare gena din fiecare clasă împărțită la deviația standard a clasei pentru acea genă.

Clasificarea consideră profilul expresiei genice a unui nou eșantion și îl compară cu fiecare

dintre centroizii clasei. Clasa al cărui centroid este cel mai apropiat este clasa prezisă pentru

aceast nou eșantion.

Fiecare clasă este contractată folosind un anumit prag. Această contracție constă în

mutarea centroidului spre pragul zero, setarea este egală cu zero în cazul în care ajunge la

zero. De exemplu, în cazul în care pragul de a fost de 2.0, un centroid de 3.3 ar fi micsorat la

1.3, un centroid de -3.2 ar fi diminuat la -1.2, și un centroid de 1.1 ar fi redus la zero. După

contractare nou eșantion este clasificat de regulă în cel mai apropiat centroid. Pentru valoarea

pragului se utilizează în general valoarea pragului minim de validarea încrucişării la rata erorii

de clasificare greşită. Această contracție are două avantaje: se poate face clasificare mai

precisă prin reducerea zgomotului şi se face selecția automată a genelor. În cazul în care o

genă este redusă la zero pentru toate clasele, atunci acesta este eliminată din regula de

predicție.

Rezultate pe datele de test

Pentru datele noastre de test am ales clasificarea cu metoda centroizilor contractaţi.

Se realizează un set de date de antrenare.

Se realizează validarea încrucişată a clasificatorului

Page 13: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

13

Reprezentarea grafică a curbelor de eroare cu validare incrucişată este prezentată în

continuare.

Figură 7 Reprezentarea erorilor de clasificare defectuoasă relativ la numaărul de gene şi valoarea de prag

Matricea cu ratele de eroare pentru pragul 1.0

Normal Tumor Class Error rate

Normal 14 4 0.2222222

Tumor 1 19 0.0500000

Rata totala a erorii = 0.131

Figură 8 Ratele de eroare pentru pragul 1.0

Reprezentarea grafică a claselor de probabilităţi la validarea încrucişată pentru valoarea

pragului de 1.0

Page 14: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

14

Figură 9 Reprezentarea claselor de probabilităţi la validare încrucişată

Reprezentarea grafică a centroizilor claselor

Figură 10 Reprezentarea centroizilor claselor

Reprezentarea grafică a estimării falsei rate de descoperire.

Page 15: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

15

Figură 11 Estimarea ratei false de descoperire

Tabelul cu cele mai semnificative gene pentru pragul 2.0

Id Normal-score Tumor-score [1]. hsa-miR-33b 0.231 -0.2079

[2]. hsa-miR-1826 0.2082 -0.1874 [3]. hsa-miR-923-P 0.1935 -0.1741

[4]. hsa-miR-1246 0.1816 -0.1634

[5]. hsa-miR-92b 0.1783 -0.1604 [6]. hsa-miR-1268-AS 0.0846 -0.0761

[7]. hsa-miR-1290 0.0625 -0.0563 [8]. hsa-mir-1914 0.0479 -0.0431

Reprezentarea grafică a celor mai semnificative gene, folosind valoarea prag 2.0.

Page 16: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

16

Figură 12 Reprezentarea celor mai semnificative gene

Bibliografie

[Ripley (1996)] B. D. Ripley. Pattern Recognition and Neural Networks. Cambridge

University Press, Cambridge, UK, 1996.

[Barrier (2007)] A. Barrier, P.-Y. Boelle, A. Lemoine, A. Flahault, S. Dudoit, and M.

Huguier. [gene expression proling in colon cancer]. Bull Acad Natl Med, 191(6):1091-101;

discussion 1102,3, June 2007.

[Dudoit (2002)] S. Dudoit, J. Fridlyand, and T. P. Speed. Comparison of discrimination

methods for the classication of tumors using gene expression data. Journal of the American

Statistical Association, 97(457), 2002.

[Specht (1990)] D.F. Specht. Probabilistic neural networks. Neural Networks, 3:109–118,

1990.

[Scholkopf and Smola (2002)] B. Scholkopf and A. Smola. Learning with Kernels. MIT

Press, 2002.

[Tibshirani and al. (2003)] R. Tibshirani, T. Hastie, B. Narasimhan and G. Chu, Class

Prediction by Nearest Shrunken Centroids, with Applications to DNA Microarrays, Statist.

Sci. 18(1): 104-117, 2003.

Page 17: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

17

1. Determinarea profilului funcțional al miARN-urilor diferențial exprimate

Descoperirea moleculelor de miARN în serul pacienților bolnavi de cancer a deschis

perspectiva utilizării acestor specii moleculare ca biomarkeri puternici care pot fi obținuți prin

tehnici non-invazive. Acești biomarkeri ar putea fi utili pentru detectarea cancerului, stabilirea

țesutului de origine și pentru clasificarea cancerelor în subtipuri [17].

Unul din scopurile finale al studiilor de genomică funcțională este de a transforma

listele de miARN-uri exprimate diferențial într-un profil funcțional, capabil să ofere o mai

bună înțelegere a mecanismelor implicate în inițierea și evoluția cancerului [18].

Acest studiu va integra atât date

pentru miARN plasmatic,

miARN tisular cât și date de

exprimare pentru ARN mesager.

Figura alăturată prezintă schema

de lucru pentru această etapă.

1.1 Determinarea genelor

țintă pentru miARN

diferențial exprimate

Cu toate că anumite miARN pot regla chiar sute de gene țintă, studii recente bazate pe

analize microarray si tehnici proteomice au arătat că gradul de represie la nivelul țintelor

individuale este de cele mai multe ori scăzut [19-21]. Pentru a îndeplini eficient o funcție

biologică specifică, miARN-urile tind sa regleze gene localizate in cadrul aceleiași căi. Astfel,

analiza bioinformatică a căilor la care s-a atașat informația pentru țintele posibile ale miARN

reprezintă o metodă puternică pentru descoperirea funcțiilor biologice ale miARN [22].

Bazele de date mirWalk, DIANA – microT și TargetScan au fost alese pentru

determinarea genelor țintă a celor 25 de molecule de miARN diferențial exprimate,

descoperite în etapele anterioare.

Figură 13. Schema de lucru

Page 18: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

18

Figură 14. Lista de miARN diferențial exprimate

Pentru identificatorii miARN care nu au fost recunoscuți, am realizat determinarea

manuală a țintelor genice posibile folosind trei unelte informatice accesibile prin Internet:

miRanda, RNAhybrid și TargetSpy.

Listele cu gene țintă pentru fiecare miARN au fost descărcate și incluse ulterior într-un

fișier Excel comun.

Figură 15. Lista cu asocieri miARN-genă țintă

Au fost filtrate datele pentru îndepărtarea valorilor duplicate și s-au păstrat doar acele

asocieri miARN-genă țintă cu valoare p <0,005. S-a obținut o listă cu 1814 asocieri.

1.2 Obținerea listei de gene-țintă co-reglate de miARN diferențial exprimate

Aplicând opțiunea “Pivot Function” în Excel, pentru lista de miARN-uri cu ținte genice

deduse, am obținut un tabel în care genele țintă sunt ordonate în funcție de numărul de

miARN-uri individuale care ar putea interacționa cu transcriptele acestora.

Având în vedere că efectul moleculelor individuale de miARN asupra fiecărei gene țintă

este unul redus, am păstrat în lista obținută anterior doar acele gene-țintă comune pentru

cel puțin 3 miARN-uri din cele diferențial exprimate.

MicroRNA Gene RefseqID Pvalue

  hsa-miR-1290      GRIP1      NM_021150     0.0000  

  hsa-miR-1290      LMLN      NM_033029     0.0000  

  hsa-miR-1290      SLAMF6      NM_052931     0.0000  

  hsa-miR-1290      TAL2      NM_005421     0.0000  

  hsa-miR-1290      C9orf126      NM_173690     0.0001  

  hsa-miR-1290      LZTFL1      NM_020347     0.0001  

  hsa-miR-1290      MMD2      NM_001100600     0.0001  

  hsa-miR-1290      SLAMF6      NM_052931     0.0001  

  hsa-miR-1290      TRIM56      NM_030961     0.0001  

……………………………… …………………… ………………………………. …………………

Page 19: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

19

Figură 16. Lista genelor co-reglate de miARN

1.3 Analiza profilului funcțional al miARN-urilor diferențial exprimate pe baza

genelor co-reglate

Pentru analiza căilor și a proceselor biologice în care sunt implicate genele co-reglate

deduse anterior, am utilizat facilitatea “Enrichment analysis” oferită de programul

MetaCoreTM

(achizitionat in proiect). Acesta folosește formula distribuției hipergeometrice

pentru a calcula valoarea statistică p, care reflectă probabilitatea identificării întâmplătoare a

unei anumite căi sau proces biologic [22].

MetaCoreTM

integrează o serie de instrumente concepute pentru analiza funcţională a

datelor microarray, metabolice, SAGE, proteomice, siARN, SNP și a celor fenotipice.

Programele integrate în MetaCoreTM

utilizează o bază de date proprie, de calitate înaltă,

îngrijită manual.

După încărcarea listei de gene co-reglate, am selectat opțiunea „Enrichment analysis”

oferită de MetaCoreTM

Rezultatele oferite în urma analizei sunt redate sub forma unor liste de procese, boli, căi și

rețele biologice ordonate în funcție de relevanță și scor statistic (-log10p)

Figură 17. Principalele funcții moleculare identificate pentru genele co-reglate

Gene țintă hsa-miR-1181 hsa-miR-1201 ....................... hsa-miR-1246 hsa-miR-937 hsa-miR-96* Total

   C9orf126    1 ....................... 1 1 14

   USP13    ....................... 1 1 9

   C10orf92    1 ....................... 8

   GTF2H5    ....................... 1 1 7

   DNHD1    1 ....................... 1 7

   STK17B    1 ....................... 6

   GRIP1    ....................... 6

   TNRC6C    ....................... 4

   SLC25A30    1 ....................... 4

...................................................................................................................................................................................

Page 20: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

20

Figură 18. Căi și procese relevante asociate cu genele co-reglate deduse

Figură 19. Căile de semnalizare implicate în inițierea mitozei. Produși ai genelor co-reglate apar marcați pe hartă cu indicatoare roșii.

Page 21: Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele propuse. Mai mult, partenerul UMF, ... Ecografia a fost utilizata din ce in ce mai

21

17. Wittmann, J. and H.-M. Jäck, Serum microRNAs as powerful cancer biomarkers. Biochimica

et biophysica acta, 2010. 1806(2): p. 200-207.

18. Zhang, J., et al., Secretory miRNAs as novel cancer biomarkers. Biochim Biophys Acta, 2012.

1826(1): p. 32-43.

19. Wang, Y.-P. and K.-B. Li, Correlation of expression profiles between microRNAs and mRNA

targets using NCI-60 data. BMC Genomics, 2009. 10(1): p. 218.

20. Selbach, M., et al., Widespread changes in protein synthesis induced by microRNAs. Nature,

2008. 455(7209): p. 58-63.

21. Baek, D., et al., The impact of microRNAs on protein output. Nature, 2008. 455(7209): p. 64-

71.

22. Chen, S.J. and H.C. Chen, Analysis of targets and functions coregulated by microRNAs.

Methods Mol Biol, 2011. 676: p. 225-41.