Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele...
Transcript of Rezumatul Etapei 1. Proiect IntelUro. Modul clinic … · 1 Rezumatul Etapei 1. ... obiectivele...
1
Rezumatul Etapei 1. Proiect IntelUro.
Prin colaborarea partenrilor consortiului IntelUro s-au realizat: 1) o platforma software
integrata compusa din a) Modul clinic de inregistrare elctronica a pacientilor (EMR), b)
Modul Patologic, c) Modul Imagistic, d) Modul de Biologie Moleculara si e) Modul
Bioinformatic. Acesta a fost conceput la cele mai inalte standarde internationale, depasind
chiar unele dintre acestea, fiind accesibil ati de pe PC cit si de pe dispozitive mobile, cum ar fi
Telefoane Inteligente, Tablete, etc., pe sistemele de operare Windows, Android si IOS.
Elementele avansate de programare au fost solutionate prin achizitionarea serviciilor unor
firme specializate si de software customizat. S-au stabilit protocoalele multidisciplinare ce vor
fi folosite in proiect urmarindu-se respectarea standardelor internationale larg acceptate si
compatibilitatea cu studii similare. In prima etapa proiectul IntelUro a realizat pe deplin
obiectivele propuse. Mai mult, partenerul UMF, prin mobilizarea unor resurse proprii, a largit
gama investigatiilor posibile la pacientii proiectului, ceilalti parteneri dezvoltind
instrtumentele necesare integrarii acestora in problematica predictiei recurentei si a progresiei.
Posibilitati de Predictie a recurentei si a progresiei. Protocoale: Clinic, Imagistic,
Patologic si de Biologie Moleculara.
Modul clasic de a clasifica pacienții cu tumori vezicale TaT1 este de a-i împărți în
grupe de risc pe baza factorilor de prognostic derivati din analizele multivariate. Folosind o
astfel de tehnică, pacienții sunt clasificati in grupuri cu risc scăzut, intermediar și de risc
inalt. Cu toate acestea atunci când se utilizează aceste grupuri de risc nu se face nici o
distincție între riscul de reaparitie si riscul de progresie al tumorii.
În scopul de a anticipa separat riscurile pe termen scurt și pe termen lung de recurenta
si progresie pentru pacientii cu cancer vezical superficial, Organizatia Europeana pentru
Cercetare si Tratamentul Cancerului (EORTC) a dezvoltat un sistem de notare a factorilor de
risc și tabele de risc. Sistemul de notare se bazează pe cei mai importanti 6 factori cu
semnificatie clinica si patologica: numarul de tumori, marimea tumorii, rata de recurenta
precedenta, stadializare T, prezenta de Cis concomitent, gradul tumoral. Acest sistem de
calcul al probabilitatii de recurenta si progresie este valabil pentru pacientii care nu au
beneficiat de un al doilea TURV sau de terapie cu BCG.
Factor Recurenta Progresie
Numarul de tumori
1 0 0
2-7 3 3
>8 6 3
Diametrul tumorii
<3 cm 0 0
<3 cm 3 3
Recurenta precedenta
<1 recurenta/an 2 2
<1 recurenta/an 4 2
Element T
Ta 0 0
2
T1 1 4
Cis concominent
Nu 0 0
Da 1 6
Grad tumoral *OMS 1973
G1 0 0
G2 1 0
G3 2 5
Scor total 0-17 0-23
Scor Probabilitate de recurenta in
primul an
Probabilitate de recurenta in
primii 5 ani
Grupul de risc
% (95% CI) % (95% CI)
0 15 (10-19) 31 (24-37) Low risk
1-4 24 (21-26) 46 (42-49) Risc intermediar
5-9 38 (35-41) 62 (58-65)
10-17 61 (55-67) 78 (73-84) Risc inalt
Pentru pacientii care au beneficiat de terapie cu BCG, s-a dezvoltat un sistem de notare a
sapte factori cu rol prognostic: varsta si sexul pacientului, numarul de tumori, episoadele
recurentiale, stadiul T, asocierea de Cis, gradul tumoral. Acest sistem dezvoltat de CUETO
(Club Urologico Espanol de Tratamiento Oncologico) inca nu a fost validat pe termen lung.
Fără nici un tratament, aproximativ 54% dintre pacienții cu Cis progreseaza la forma invaziva
a bolii. Din păcate, nu există factori de prognostic de încredere, care fie folositi pentru a
prezice cursul bolii și sa identifice cazurile cele mai periculoase. Publicațiile actuale se
bazează pe o analiză retrospectivă de serii mici de pacienți și concluziile lor nu sunt omogene.
Unele studii au raportat prognostic mai rau in Cis concomitent cu tumorile T1, comparativ cu
CSI primar sau Cis extins.
Diverse publicații au arătat că răspunsul la tratamentul intravezical cu BCG sau chimioterapie
este un factor important de prognostic pentru progresia ulterioară și decesul cauzat de
cancerul vezical. Aproximativ 10-20% din cei ce raspund complet la tratament progreseaza în
cele din urmă la forme musculo-invazive de boala, comparativ cu 66% din cei care nu
raspund la tratament.
Follow-up-ul pacientilor cu tumori vezicale superficiale
Ca urmare a riscului de reaparitie si progresie, pacienții cu tumori vezicale TaT1 trebuie să fie
urmariti imagistic si endoscopic. Frecvența cistoscopiei si a invetigatiilor imagistice ar trebui
să fie determinate de gradul de risc pentru fiecare pacient in parte. Prin utilizarea tabelelor de
risc suntem capabili de a anticipa riscurile pe termen scurt și lung de recurenta si progresie
individual, la fiecare pacient, și se poate adapta programul de follow-up corespunzător.In
planificarea programului de follow-up, următoarele aspecte ar trebui să fie luate în
considerare:
3
1. Diagnosticul prompt al formelor musco-invazive si a celor cu grad inalt neinvazive
muscular este crucial, intarzierea in diagnostic si terapie poate fi amenintatoare de
viata pentru pacient.
2. Recurenta tumorala in grupul cu risc scazut este aproape intotdeauna corelata cu
gradul si stadiul tumoral scazut.
3. Prima cistoscopie de control trebuie efectuata la 3 luni de la TURV pentru pacientii
TaT1
4. Riscul de recurenta la nivelul tractului urinar superior creste la pacientii cu tumori cu
risc inalt si multiple.
Cistoscopia este singura investigatie imagistica utila in evaluarea pacientilor cu cancer vezical
TaT1. Pacientii cu cancer vezical TaT1 cu risc scazut de recurenta si progresie trebuie sa
efectueze prima cistoscopie de control la 3 luni post TURV. Daca aceasta este negativa,
urmatoarea cistoscopie se va efectua la 9 luni de la cistoscopia de control, ca mai apoi sa fie
efectuata anual timp de 5 ani.
Pacientii cu tumori vezicale TaT1 cu risc inalt de progresie si cei cu Cis trebuie sa efectueze o
cistoscopie completata de citologie urinara la 3 luni post TURV. Daca acestea sunt negative
cistoscopia si citologie trebuie efectuate la interval de 3 luni pe o durata de 2 ani, apoi la
intervale de 6 luni in urmatorii 3 ani, apoi anual. Examinarea imagistica a tractului urinar
superior este recomandata anual.
Pacientii cu tumori vezicale TaT1 cu risc intermediar beneficiaza de evaluare prin
cistoscopie/citologie in functie de factori prognostici si factori personali/subiectivi.
Daca pe parcursul follow-up-ului citologia urinara este pozitiva, fara modificari la cistoscopie,
biopsiile repatate sau biopsiile recolatate folosind agenti fotodinamici sunt recomadate.
Investiile ce evalueaza tractul urinar superior (URO-CT) sau tractul urinar inferior (biopsie
din uretra prostatica) sunt recomandate.
Ecografia a fost utilizata din ce in ce mai frecvent ca instrument initial de a evalua tractul
urinar. Ecografia abdominala este folosita in descrierea elementelor renale, detectarea
hidronefrozei si vizualizarea maselor intraluminare din vezica urinara. Aceasta poate fi la fel
de precisa ca urografia in diagnosticarea obstructiei tractului urinar.Este un instrument util in
investigarea pacientilor cu hematurie ce au obstructie, dar nu poate exclude prezenta tumorilor
de tract urinar superior.
Tomografia coputerizata ridica procentajul acuratetei diagnostice in aprecierea infiltratiei
parietovezicale a tumorii si in decelarea adenopatiilor pelvine.
In momentul de fata in cazul tumorilor vezicale TaT1 nu exista date ce sa sa indice ca
imagistica de rutina (CT; Urografie) poate oferi o diagnosticare mai precoce a tumorilor
vezicale. Orice schimbare in grad, o citologie pozitiva sau hematurie inexplicabila necesita o
investigare imagistica tractului urinar superior.
I. Protocoale si Modul Bioniformatic.
4
Modul bioinformatic integreaza in diverse workflow-uri de analiza a datelor microRNA si
mRNA submodule, implementate în special în limbajul de programare R (Bioconductor),
realizate de echipa de informaticienti a SAIA impreuna cu firme specializate in programarea
avansata. Exemplificăm fluxul de lucru pe un set de date de microarray (microARN extras din
plasmă) ce a stat la baza unei invenții a Dr. A. Floares (Director IntelUro) în parteneriat cu
MD Anderson Cancer Center Texas, USA (platforma Illumina two-color) realizată pentru 38
de probe: 18 indivizi sănătoși, 20 indivizi cu cancer de vezică. Valorile reprezintă.
Preprocesarea datelor de exprimare genică. Modulul de Preprocesare cuprinde suita de
etape necesare în preprocesarea datelor microarray pentru toate platformele importante –
Agilent (platforma ce va fi utilizată de partenerul UMF), Affymetrix si Illumina. Fluxul de
lucru (descris în [1]) pentru acest modul cuprinde următoarele etape: a) Transformarea
datelor: Logaritmarea în baza 2 [2], b) Filtrarea datelor, c) Corecția zgomotului de
fundal, d) Abordarea valorilor lipsă (algoritmul KNN (k Nearest Neighbours) considerat
cel mai performant [3], e) Normalizarea și îndepărtarea efectelor de masă (în cadrul chip-
ului, realizată prin metodele print-tip lowess [4] si global lowess [5], între chip-uri, realizată
prin metodele quantile [6] si VSN [7].
Analiza de explorare & Controlul calității datelor: density plot, box plot, PCA, bar plot,
MA plot, hierarchical clustering etc.
De exemplu, utilizarea graficului PCA a rezultat în identificarea efectelor de masă
determinate de timpul diferit de rulare a experimentelor. Asupra datelor de test am aplicat
două metode grafice de investigare, density plot si boxplot, înainte și după normalizare.
Figură 1 Density plot a distribuției intensităților logaritmate înainte de normalizare
5
Figură 2 Boxplot a distribuției intensităților logaritmate înainte de normalizare
Figură 3 Density plot și boxplot a distribuției intensităților logaritmate după normalizare
6
II. Analiza exprimării diferenţiale
Analiza exprimării diferenţiale implică identificarea genelor cu exprimare semnificativ
diferită între fenotipuri distincte. Procesul mai este cunoscut și sub termenul de comparație a
claselor [8]. Platforma suportă multiple metode printre care: 1) t-test, 2) t-test (mediană), 3) t-
test (min std), 4) t-test (median, min std), 5) SNR (Signal to Noise Ratio), 6) SNR (median),
7) SNR (min std), 8) ANOVA.
Datorită faptului că se testează un număr mare de gene faţă de ipoteza nulă a exprimării
nediferenţiate, este posibil ca rezultatele să includă multe valori fals-pozitive. Modulul
permite ajustarea pentru testarea multiplă prin diferite metode statistice, printre care rata de
falsă descoperire (False Discovery Rate) [9] şi rata de eroare “family-wise” (Family Wise
Error Rate) [10].
De exemplu, pentru datele test s-a aplicat t-test între cele două clase (normal și tumoră).
Figura 4 redă graficul și tabelul rezultat pentru genele activate, ordonate crescător în funcție
de punctajului obținut.
Figură 4 Rezultate t-test: genele activate ordonate crescător după punctaj
III. Analiza clustering
7
Analiza clustering are ca scop identificarea și gruparea genelor cu exprimare similară,
apoi corelarea acestor rezultate cu semnificația lor biologică. Analiza se bazează pe ipoteza că
genele co-reglate și înrudite funcțional se vor exprima cel mai probabil simultan, deci se vor
putea grupa în clustere. Tehnicile de clustering pot fi aplicate pentru a identifica grupuri de
experimente (pacienți), gene sau ambele.
Atunci când analiza de clustering se efectuează asupra genelor, are ca scop:
identificarea grupurilor de gene co-reglate
identificarea tiparelor de exprimare genice spațiale sau temporale
reducerea redundanței în modele de predicție
În cazul în care analiza este utilizată pentru a grupa experimente, are ca scop:
identificarea de noi clase biologice (de exemplu, noi clase tumorale)
detectarea artefactelor experimentale
facilitarea vizualizării datelor
Metode de clustering
1. Hierarchical clustering [11]
Metoda implică gruparea a câte două elemente în funcție de distanța dintre ele (cele mai
apropiate elemente fiind unite primele). Rezultatul constă într-o structură tip arbore
(dendrogramă) a căror noduri corespund a - elementelor inițiale (frunzele arborelui) și b -
unui grup de noduri (nodurile interne ale arborelui). Există mai mule modalități de evaluare a
distanței: corelație Perason, Spearman, distanța Euclidiană, tau Kendall. Dendrograma poate
fi vizualizată cu ajutorul unei termograme.
Exemplu: asupra datelor test am aplicat hierarchical clustering pentru genele
corespunzătoare miARN. Investigarea vizuală relevă genele puternic diferențiate între cele
două clase (normal și tumoră). 10 dintre aceste gene au fost identificate și prin analiza
expresiei diferențiale efectuată anterior (punctaj ridicat).
8
Figură 5 Hierarchical clustering pentru genele corespunzătoare miARN: selecție a genelor semnificativ diferențiate
2. K-means clustering [12]
Metoda grupează elementele într-un număr de clustere specificat de utilizator (parametrul
k). Algoritmul selectează randomic un punct central pentru fiecare cluster apoi atribuie
fiecare punct din date celui mai apropiat punct central din clustere. Apoi, se recalculează
în mod recurent un nou punct central pentru fiecare cluster, în funcție de valoare medie a
membrilor, până când toate punctele sunt împărțite pe clustere.
3. SOM [13]
Algoritmul creează și ajustează iterativ o tabelă 2D de clustere pentru a reflecta structura
globală în setul de date de exprimare genică. Formatul tabelei este selectat randomic (ex. 3
x 2 ) și asociate cu spațiul de k dimensiuni a datelor de exprimare. Rezultatul este un set
de clustere organizate într-o tabelă 2D, unde clusterele similare sunt dispuse în apropiere
și se oferă un sumar al datelor.
4. Non-negative matrix factorization (NMF) [14]
Algoritmul identifică tipare de exprimare contextuale a genelor din sisteme biologice
complexe. Principiul de reducere a dimensiunii prin factorizarea matricei include
următorii pași: pornid de la o matrice dată N x M (matricea A) cu valori pozitive,
algoritmul calculează iterativ o aproximare, A ~ WH, unde W este o matrice N x k, H o
matrice k x M, ambele fiind constrânse la valori pozitive. Algoritmul pornește de la
matrici inițializate cu valori randomice, de dimensiuni corespunzătoare W și H. Aceste
două matrici sunt actualizate iterativ pentru a minimaliza distanța Euclidiană dintre A și
9
WH (sau o altă măsură de divergență). Metoda implementată calculează de asemenea un
factor de apartență la rînd și la coloană, în funcție de amplitudinea maximă.
5. Consensus clustering [15]
Pachetul determină numărul optim de clustere prin rularea repetată a unui algoritm de
clustering selectat, apoi evaluează stabilitatea clusterelor identificate. Metoda suportă
următorii algoritmi de clustering: hierarchical clustering, K-means clustering, self-
organizing maps (SOM) și non-negative matrix factorization (NMF).
6. Hierarchical Ordered Partitioning And Collapsing Hybrid (HOPACH) [16]
HOPACH construiește un arbore ierarhic de clustere, prin partiționarea recursivă a setului
inițial de date odată cu ordonarea și unirea clusterelor la fiecare nivel. Algoritmul
utilizează Mean/Median Split Silhoutette (MSS) ca și crieriu pentru a identifica nivelul
din arbore cu omogentiatera maximă a clusterelor. În continuare, arborele construit este
parcurs de sus în jos pentru a produce o listă ordonată a elementelor. La sfârșit, se aplică
metoda boostrap pentru a estima probabilitatea ca fiecare element să aparțină de fiecare
cluster. HOPACH a fost proiectat specific pentru date de microarray.
10
Figură 6 Raportul obținut prin aplicarea consensus clustering pentru algoritmul NMF (k=2)
11
Bibliografie
1. Sanchez, A. and M.C. de Villa, A Tutorial Review of Microarray Data Analysis. 2008,
Barcelona: Universitat de Barcelona.
2. Hahne, F., et al., Bioconductor Case Studies. 2008: Springer.
3. Cover, T.M., Estimation by the nearest neighbor rule. Vol. IT-14. 1966: Systems Theory
Laboratory, Stanford Electronics Laboratories, Stanford University.
4. Yang, Y.H., et al., Normalization for cDNA microarray data: a robust composite method
addressing single and multiple slide systematic variation. Nucleic Acids Res, 2002. 30(4): p.
e15.
5. Cleveland, W.S., Robust Locally Weighted Regression and Smoothing Scatterplots. Journal of
the American Statistical Association, 1979. 74(368): p. 829-836.
6. Bolstad, B.M., et al., A comparison of normalization methods for high density oligonucleotide
array data based on variance and bias. Bioinformatics, 2003. 19(2): p. 185-93.
7. Huber, W., et al., Variance stabilization applied to microarray data calibration and to the
quantification of differential expression. Bioinformatics, 2002. 18 Suppl 1: p. S96-104.
8. Walker, J.M., Methods in molecular biology. Biological methods. 1984, Clifton: Humana.
9. Benjamini, Y. and Y. Hochberg, Controlling the False Discovery Rate: A Practical and
Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society. Series B
(Methodological), 1995. 57(1): p. 289-300.
10. Hochberg, Y. and A.C. Tamhane, Multiple comparison procedures. 1987: John Wiley
\\& Sons, Inc. 450.
11. Eisen, M.B., et al., Cluster analysis and display of genome-wide expression patterns. Proc
Natl Acad Sci U S A, 1998. 95(25): p. 14863-8.
12. MacQueen, J.B. and W.M.S.I.U.O.C.L. ANGELES., Some Methods for Classification and
Analysis of Multivariate Observations. 1966: Defense Technical Information Center.
13. Tamayo, P., et al., Interpreting patterns of gene expression with self-organizing maps:
methods and application to hematopoietic differentiation. Proc Natl Acad Sci U S A, 1999.
96(6): p. 2907-12.
14. Brunet, J.P., et al., Metagenes and molecular pattern discovery using matrix factorization.
Proc Natl Acad Sci U S A, 2004. 101(12): p. 4164-9.
15. Monti, S., et al., Consensus Clustering: A Resampling-Based Method for Class Discovery and
Visualization of Gene Expression Microarray Data. Mach. Learn., 2003. 52(1-2): p. 91-118.
16. J. van der Laan, M. and K.S. Pollard, A new algorithm for hybrid hierarchical clustering with
visualization and the bootstrap. Journal of Statistical Planning and Inference, 2003. 117(2): p.
275-303.
12
Predictie & Clasificare
Unele din cele mai cunoscute metode de clasificare sunt K-nearest neighbors (KNN) [Ripley
(1996)], probabilistic neural network (PNN) [Specht (1990)] si Support Vector Machines
(SVM) [Scholkopf and Smola (2002)]. În metoda KNN se folosesc k vecini, cei mai apropiaţi
de înregistrarea ce se vrea a fi clasificată. Metoda K Nearest Neighbour este utilizată datorită
simplităţii şi robusteţii metodei. Numărul de vecini (k) se poate optimiza prin cross-validation
[Barrier (2007)]. Probabilistic neural network (PNN) este o rețea neuronală Feedforward,
care a fost derivată din rețeaua Bayesian și un algoritm statistic numit Kernel Fisher
discriminant analysis. În PNN, operațiunile sunt organizate într-o rețea cu mai multe straturi
Feedforward patru straturi: de intrare, ascuns, sablon şi de ieşire. Support Vector Machines
(SVM) este o metdă de clasificare cu un fundament matematic solid ce functionează bine
pentru date multidimensionale.
În metoda de clasificare cu metoda centroizilor contractaţi [Tibshirani and al. (2003)]
se calculează centroizi standard pentru fiecare clasă. Acesta este media expresia genelor
pentru fiecare gena din fiecare clasă împărțită la deviația standard a clasei pentru acea genă.
Clasificarea consideră profilul expresiei genice a unui nou eșantion și îl compară cu fiecare
dintre centroizii clasei. Clasa al cărui centroid este cel mai apropiat este clasa prezisă pentru
aceast nou eșantion.
Fiecare clasă este contractată folosind un anumit prag. Această contracție constă în
mutarea centroidului spre pragul zero, setarea este egală cu zero în cazul în care ajunge la
zero. De exemplu, în cazul în care pragul de a fost de 2.0, un centroid de 3.3 ar fi micsorat la
1.3, un centroid de -3.2 ar fi diminuat la -1.2, și un centroid de 1.1 ar fi redus la zero. După
contractare nou eșantion este clasificat de regulă în cel mai apropiat centroid. Pentru valoarea
pragului se utilizează în general valoarea pragului minim de validarea încrucişării la rata erorii
de clasificare greşită. Această contracție are două avantaje: se poate face clasificare mai
precisă prin reducerea zgomotului şi se face selecția automată a genelor. În cazul în care o
genă este redusă la zero pentru toate clasele, atunci acesta este eliminată din regula de
predicție.
Rezultate pe datele de test
Pentru datele noastre de test am ales clasificarea cu metoda centroizilor contractaţi.
Se realizează un set de date de antrenare.
Se realizează validarea încrucişată a clasificatorului
13
Reprezentarea grafică a curbelor de eroare cu validare incrucişată este prezentată în
continuare.
Figură 7 Reprezentarea erorilor de clasificare defectuoasă relativ la numaărul de gene şi valoarea de prag
Matricea cu ratele de eroare pentru pragul 1.0
Normal Tumor Class Error rate
Normal 14 4 0.2222222
Tumor 1 19 0.0500000
Rata totala a erorii = 0.131
Figură 8 Ratele de eroare pentru pragul 1.0
Reprezentarea grafică a claselor de probabilităţi la validarea încrucişată pentru valoarea
pragului de 1.0
14
Figură 9 Reprezentarea claselor de probabilităţi la validare încrucişată
Reprezentarea grafică a centroizilor claselor
Figură 10 Reprezentarea centroizilor claselor
Reprezentarea grafică a estimării falsei rate de descoperire.
15
Figură 11 Estimarea ratei false de descoperire
Tabelul cu cele mai semnificative gene pentru pragul 2.0
Id Normal-score Tumor-score [1]. hsa-miR-33b 0.231 -0.2079
[2]. hsa-miR-1826 0.2082 -0.1874 [3]. hsa-miR-923-P 0.1935 -0.1741
[4]. hsa-miR-1246 0.1816 -0.1634
[5]. hsa-miR-92b 0.1783 -0.1604 [6]. hsa-miR-1268-AS 0.0846 -0.0761
[7]. hsa-miR-1290 0.0625 -0.0563 [8]. hsa-mir-1914 0.0479 -0.0431
Reprezentarea grafică a celor mai semnificative gene, folosind valoarea prag 2.0.
16
Figură 12 Reprezentarea celor mai semnificative gene
Bibliografie
[Ripley (1996)] B. D. Ripley. Pattern Recognition and Neural Networks. Cambridge
University Press, Cambridge, UK, 1996.
[Barrier (2007)] A. Barrier, P.-Y. Boelle, A. Lemoine, A. Flahault, S. Dudoit, and M.
Huguier. [gene expression proling in colon cancer]. Bull Acad Natl Med, 191(6):1091-101;
discussion 1102,3, June 2007.
[Dudoit (2002)] S. Dudoit, J. Fridlyand, and T. P. Speed. Comparison of discrimination
methods for the classication of tumors using gene expression data. Journal of the American
Statistical Association, 97(457), 2002.
[Specht (1990)] D.F. Specht. Probabilistic neural networks. Neural Networks, 3:109–118,
1990.
[Scholkopf and Smola (2002)] B. Scholkopf and A. Smola. Learning with Kernels. MIT
Press, 2002.
[Tibshirani and al. (2003)] R. Tibshirani, T. Hastie, B. Narasimhan and G. Chu, Class
Prediction by Nearest Shrunken Centroids, with Applications to DNA Microarrays, Statist.
Sci. 18(1): 104-117, 2003.
17
1. Determinarea profilului funcțional al miARN-urilor diferențial exprimate
Descoperirea moleculelor de miARN în serul pacienților bolnavi de cancer a deschis
perspectiva utilizării acestor specii moleculare ca biomarkeri puternici care pot fi obținuți prin
tehnici non-invazive. Acești biomarkeri ar putea fi utili pentru detectarea cancerului, stabilirea
țesutului de origine și pentru clasificarea cancerelor în subtipuri [17].
Unul din scopurile finale al studiilor de genomică funcțională este de a transforma
listele de miARN-uri exprimate diferențial într-un profil funcțional, capabil să ofere o mai
bună înțelegere a mecanismelor implicate în inițierea și evoluția cancerului [18].
Acest studiu va integra atât date
pentru miARN plasmatic,
miARN tisular cât și date de
exprimare pentru ARN mesager.
Figura alăturată prezintă schema
de lucru pentru această etapă.
1.1 Determinarea genelor
țintă pentru miARN
diferențial exprimate
Cu toate că anumite miARN pot regla chiar sute de gene țintă, studii recente bazate pe
analize microarray si tehnici proteomice au arătat că gradul de represie la nivelul țintelor
individuale este de cele mai multe ori scăzut [19-21]. Pentru a îndeplini eficient o funcție
biologică specifică, miARN-urile tind sa regleze gene localizate in cadrul aceleiași căi. Astfel,
analiza bioinformatică a căilor la care s-a atașat informația pentru țintele posibile ale miARN
reprezintă o metodă puternică pentru descoperirea funcțiilor biologice ale miARN [22].
Bazele de date mirWalk, DIANA – microT și TargetScan au fost alese pentru
determinarea genelor țintă a celor 25 de molecule de miARN diferențial exprimate,
descoperite în etapele anterioare.
Figură 13. Schema de lucru
18
Figură 14. Lista de miARN diferențial exprimate
Pentru identificatorii miARN care nu au fost recunoscuți, am realizat determinarea
manuală a țintelor genice posibile folosind trei unelte informatice accesibile prin Internet:
miRanda, RNAhybrid și TargetSpy.
Listele cu gene țintă pentru fiecare miARN au fost descărcate și incluse ulterior într-un
fișier Excel comun.
Figură 15. Lista cu asocieri miARN-genă țintă
Au fost filtrate datele pentru îndepărtarea valorilor duplicate și s-au păstrat doar acele
asocieri miARN-genă țintă cu valoare p <0,005. S-a obținut o listă cu 1814 asocieri.
1.2 Obținerea listei de gene-țintă co-reglate de miARN diferențial exprimate
Aplicând opțiunea “Pivot Function” în Excel, pentru lista de miARN-uri cu ținte genice
deduse, am obținut un tabel în care genele țintă sunt ordonate în funcție de numărul de
miARN-uri individuale care ar putea interacționa cu transcriptele acestora.
Având în vedere că efectul moleculelor individuale de miARN asupra fiecărei gene țintă
este unul redus, am păstrat în lista obținută anterior doar acele gene-țintă comune pentru
cel puțin 3 miARN-uri din cele diferențial exprimate.
MicroRNA Gene RefseqID Pvalue
hsa-miR-1290 GRIP1 NM_021150 0.0000
hsa-miR-1290 LMLN NM_033029 0.0000
hsa-miR-1290 SLAMF6 NM_052931 0.0000
hsa-miR-1290 TAL2 NM_005421 0.0000
hsa-miR-1290 C9orf126 NM_173690 0.0001
hsa-miR-1290 LZTFL1 NM_020347 0.0001
hsa-miR-1290 MMD2 NM_001100600 0.0001
hsa-miR-1290 SLAMF6 NM_052931 0.0001
hsa-miR-1290 TRIM56 NM_030961 0.0001
……………………………… …………………… ………………………………. …………………
19
Figură 16. Lista genelor co-reglate de miARN
1.3 Analiza profilului funcțional al miARN-urilor diferențial exprimate pe baza
genelor co-reglate
Pentru analiza căilor și a proceselor biologice în care sunt implicate genele co-reglate
deduse anterior, am utilizat facilitatea “Enrichment analysis” oferită de programul
MetaCoreTM
(achizitionat in proiect). Acesta folosește formula distribuției hipergeometrice
pentru a calcula valoarea statistică p, care reflectă probabilitatea identificării întâmplătoare a
unei anumite căi sau proces biologic [22].
MetaCoreTM
integrează o serie de instrumente concepute pentru analiza funcţională a
datelor microarray, metabolice, SAGE, proteomice, siARN, SNP și a celor fenotipice.
Programele integrate în MetaCoreTM
utilizează o bază de date proprie, de calitate înaltă,
îngrijită manual.
După încărcarea listei de gene co-reglate, am selectat opțiunea „Enrichment analysis”
oferită de MetaCoreTM
Rezultatele oferite în urma analizei sunt redate sub forma unor liste de procese, boli, căi și
rețele biologice ordonate în funcție de relevanță și scor statistic (-log10p)
Figură 17. Principalele funcții moleculare identificate pentru genele co-reglate
Gene țintă hsa-miR-1181 hsa-miR-1201 ....................... hsa-miR-1246 hsa-miR-937 hsa-miR-96* Total
C9orf126 1 ....................... 1 1 14
USP13 ....................... 1 1 9
C10orf92 1 ....................... 8
GTF2H5 ....................... 1 1 7
DNHD1 1 ....................... 1 7
STK17B 1 ....................... 6
GRIP1 ....................... 6
TNRC6C ....................... 4
SLC25A30 1 ....................... 4
...................................................................................................................................................................................
20
Figură 18. Căi și procese relevante asociate cu genele co-reglate deduse
Figură 19. Căile de semnalizare implicate în inițierea mitozei. Produși ai genelor co-reglate apar marcați pe hartă cu indicatoare roșii.
21
17. Wittmann, J. and H.-M. Jäck, Serum microRNAs as powerful cancer biomarkers. Biochimica
et biophysica acta, 2010. 1806(2): p. 200-207.
18. Zhang, J., et al., Secretory miRNAs as novel cancer biomarkers. Biochim Biophys Acta, 2012.
1826(1): p. 32-43.
19. Wang, Y.-P. and K.-B. Li, Correlation of expression profiles between microRNAs and mRNA
targets using NCI-60 data. BMC Genomics, 2009. 10(1): p. 218.
20. Selbach, M., et al., Widespread changes in protein synthesis induced by microRNAs. Nature,
2008. 455(7209): p. 58-63.
21. Baek, D., et al., The impact of microRNAs on protein output. Nature, 2008. 455(7209): p. 64-
71.
22. Chen, S.J. and H.C. Chen, Analysis of targets and functions coregulated by microRNAs.
Methods Mol Biol, 2011. 676: p. 225-41.