-BIOINFORMATICA-BUDEANU

download -BIOINFORMATICA-BUDEANU

of 71

Transcript of -BIOINFORMATICA-BUDEANU

  • UNIVERSITATEA ACADEMIEI DE TIINE A MOLDOVEICENTRUL DE CERCETARE I FORMARE PROFESIONAL

    BIOLOGIE MOLECULAR

    Maria DUCA, Alexei LEVICHI, Viorel MUNTEANU, Oleg BUDEANU, Angela PORT

    BIOINFORMATICAGhid practic pentru analiza genelor

    i proteinelor

    Chiinu 2010

  • 3Cap

    itolu

    l

    CZU ...

    AAceast lucrare a fost elaborat i editat n cadrul proiectului "Activitatea funcional a genomului la plante"

    GRUPUL DE AUTORI:

    Maria DUCA Doctor habilitat n biologie, profesor universitar, membru corespondent al AM, rector UnAM. Alexei LEVICHI Doctor n biologie, ef Laboratorul Bioinformatic, UnAM.Viorel MUNTEANUCercettor tiinif ic, Laboratorul Bioinformatic, UnAM.Oleg BUDEANU Doctor n biologie, cercettor tiintif ic coordonator, Laboratorul Genomic.Angela PORT Doctor n biologie, confereniar universitar, ef catedr Biologie, UnAM.

    Descrierea CIP a Camerei Naionale a Crii

    Bioinformatica. Ghid practic pentru analiza genelor i proteinelor / Maria Duca, Alexei Levichi, Viorel Munteanu, Oleg Budeanu, Angela Port; Universitatea Academiei de tiine din Moldova. Editerra-Prim. Chiinu: [Tipografia], 2010, [152 pag].

    Nr de exemplare

    ISBN ...

    Maria Duca, Alexei Levichi, Viorel Munteanu, Oleg Budeanu, Angela Port

    Universitatea Academiei de tiine din Moldova

    ISBN

    CUPRINSPREFA ............................................................................................................................................ 5

    CAPitolul 1. ISTORIC I ELEMENTE DE BAZ N BIOINFORMATIC 1.1. Scurt istoric i direcii de cercetare n Bioinformatic .............................................................1.2. Baze de date, diversitate i importan ........................................................................................1.3. Formate i instrumente de nregistrare a secvenelor ...............................................................

    Capitolul 2. PRINCIPII DE CUTARE A SECVENELOR N BAZE DE DATE2.1. Modaliti de cutare a informaiei. Organisme-model de analiz a genomului ..................2.2. Aspecte privind analiza bioinformatic a secvenelor de interes ............................................2.3. Analiza BLAST ...............................................................................................................................

    CAPitolul 3. ANALIZA PERECHILOR DE SECVENE PRIN ALINIERE3.1. Modele de aliniere a secvenelor. Alinierea global i local ...................................................3.2. Aplicarea matricelor de scor, gap-urilor i penalitilor n alinierea secvenelor .................3.3. Instrumente bioinformatice utilizate n alinierea unei perechi de secvene ..........................

    CAPitolul 4. ALINIEREA MULTIPL A SECVENELOR4.1. Tipuri de aliniere multipl. Alinierea multipl global i local a secvenelor ......................4.2. Analiza statistic a alinierii secvenelor .......................................................................................4.3. Instrumente bioinformatice utilizate n alinierea multipl a secvenelor ................................

    CAPitolul 5. ANALIZA FILOGENETIC5.1. Alegerea secvenelor pentru obinerea arborilor filogenetici ....................................................5.2. Metode utilizate n analiza filogenetic ........................................................................................5.3. Programe utilizate n analiza filogenetic (PHYLIP i PAUP) ..................................................

    CAPitolul 6. MODELAREA STRUCTURII SECUNDARE A ARN-ului6.1. Caracteristici ale structurii secundare i teriare ale ARN-lui ..................................................6.2. Metode i programe utilizate n modelarea structurii secundare ale ADN-lui ......................

    CAPitolul 7. IDENTIFICAREA GENELOR7.1. Metode de identificare a genelor la procariote i eucariote .......................................................7.2. Instrumente bioinformatice utilizate n identificarea genelor ...................................................

    CAPitolul 8. CLASIFICAREA I MODELAREA STRUCTURII PROTEINELOR8.1. Clasificarea proteinelor n baza similaritii secvenelor ...........................................................8.2. Vizualizarea structurii moleculare a proteinelor .........................................................................8.3. Modelarea structurii proteinelor utiliznd instrumente bioinformatice ..................................

    CAPitolul 9. ANALIZA GENOMULUI9.1. Genomul eucariot i procariot .....................................................................................................9.2. Asamblarea secvenelor genomului i identificarea genelor ....................................................9.3. Resurse Web i instrumente computaionale pentru analiza genomului ...............................Glosar de termeni ...................................................................................................................................Bibliografie selectiv .............................................................................................................................

  • 4C

    apito

    lul

    5

    Cap

    itolu

    l

    Capitolul 1. ISTORIC I ELEMENTE DE BAZ N BIOINFORMATIC Baze de date format analiz bioinformatic software GenBank EMBL SwissProt FASTA

    1.1. Scurt istoric i direcii de cercetare n BioinformaticInstrumentele i tehnicile de cuantificare sunt indispensabile oricrui tip de

    analiz indiferent de domeniu, tiine exacte sau cele ale vieii. Analiza matematic, statistic, tehnica de calcul sunt aplicate de ctre cercettorul biolog n sinteza, prelu-crarea, interpretarea i integrarea diferitor tipuri de informaii. Numeroase exemple demonstreaz utilitatea operaiilor de calcul i biostatistic n activitatea de fiecare zi a laboratorului, aa ca: pregtirea reagenilor de diferit concentraie procentual, molar, normal etc., a seriilor de diluii, monitorizarea dezvoltrii coloniilor bacte-riene, estimarea schimbrilor n ecosisteme privind diversitatea vegetal /animal sau ali factori de inciden a cror fluctuaie numeric /cantitativ are un impact esenial asupra mediului ambiant i societii. Prin analiza cantitativ a caracterelor variabile geneticienii celebri Gregor Mendel i Thomas Morgan au reuit s descopere princi-piile i legile motenirii genetice. Pronosticarea ratei de cretere a populaiei umane, studierea cineticii enzimatice sau descrierea modelului de debit cardiac se realizeaz prin intermediul a mii de ecuaii difereniale etc.

    Cu toate acestea, nici unul dintre exemplele prezentate nu poate fi atribuit unui mod de analiz bioinformatic, apariia creia se datoreaz descoperirii structurii ADN-ului (1953) i dezvoltrii exponeniale a biologiei moleculare.

    Acumularea unui volum mare de cunotine noi impunea, pe de o parte, nece-sitatea structurrii informaiei n subdomenii de cercetare, iar pe de alt parte, dicta utilizarea unor perspective de studiu mai moderne. Dilema informaional care se accentua odat cu dezvoltarea componentei moleculare a tiinelor biologice a fost i este rezolvat cu ajutorul computerelor i soft-urilor, care sunt n perfecionare

    1Is

    To

    rIC

    I

    El

    EM

    En

    TE

    dE

    BA

    z

    n B

    IoIn

    fo

    rM

    AT

    IC

    PREFA

    La unul din cursurile sale publice, Bruce Alberts, emerit savant, cunoscut dup manualul Molecular Cell Biology, la moment redactor ef al revistei tiinifice Science, a afirmat c n ultimul deceniu cererea pentru specialitii bioinformaticieni a crescut exponenial i va crete n continuare n urmtorii 20-30 ani. n acest context, este im-portant s beneficiem de oportunitile pe care le ofer unul din cele mai noi domenii ale tiinelor - Bioinformatica.

    Bioinformatica reprezint o direcie tiinific nou, interdisciplinar, cu o evolu-ie ascendent catalizat de dezvoltarea tehnologiilor informaionale (TI) i realizrile n domeniul biologiei moleculare din ultimile decenii, n special secvenierea genomului la diverse specii de plante i animale. Performana actual a infrastructurii computaionale asigur o abordare sistemic a organismelor vii, prin integrarea datelor obinute la diferi-te nivele de organizare a genomului i mbinarea elementelor in vivo, in vitro si in silico ale experimentului biologic.

    Utilizarea instrumentelor bioinformatice n scopul elucidrii unor probleme mul-tidisciplinare, care implica soluii inteligente, cu un nalt grad de complexitate i creativitate devine un obiectiv al proiectelor de cercetare fundamental i aplicativ n biologie, agricultur i medicin, determinnd astfel, o cerere ridicat n dezvoltarea competenelor profesionale n domeniu. Astfel, majoritatea universitilor prestigioase din Europa, Statele Unite i Japonia ofer studii la nivel de masterat i doctorat n Bioinformatic. Un specialist n bioinformatic deine o palet larg de perspective n cariera sa profesional, fiind solicitat n diverse domenii ale tiinelor vieii, statisticii, informaticii, diagnosticului medical, farmaceuticii etc. i posibiliti mari de angajare n industria tehnicilor informaionale care a devenit condiie obligatirie a vieii sociale.

    Se contureaz dou ci de formare a specialistului bioinformatician: -n tiine exacte (informatic, computere, fizic, statistic, matematic, chimie,

    inginerie, etc.), care intenioneaz s profeseze n domeniile promitoare ale tehnicii computerizate;

    -n tiine ale vieii (biologie, chimie, medicin, etc.), care urmresc utilizrea teh-nologiilor informaionale n rezolvarea diverselor probleme biologice i mai puin acti-vitatea experimental de laborator.

    Cartea este adresat viitorilor specialiti n domeniul tiine ale vieii, constituind un suport metodologic n pregtirea cercettorilor, cadrelor universitare, precum i tu-turor celor care sunt interesai n cunoaterea tehnicilor informaionale de prelucrare a datelor biologice i integrare pe vertical a informaiei la nivel molecular i pn la nivel de populaii, specii i comuniti interspecifice. Ne exprimm sperana, c informaia cuprins n lucrarea de fa va contribui la dezvoltarea unor noi capaciti de analiz i interpretare a realizrilor din domeniu conform exigenelor la nivel internaional.

    Aducem mulumirile noastre dnei dr. Manuela Elisabeta Sidoroff (Preedinte-Director general al Institutului Naional de Cercetare-Dezvoltare pentru tiine Biologi-ce, Bucureti, Romnia) pentru sugestiile valoroase n elaborarea acestui manual.

    Autorii

  • 6C

    apito

    lul

    7Managementul i sistemul transparent de operare a datelor biologice, la care

    asistm n ultimii ani, a determinat finalizarea mai multor proiecte de secveniere a ge-nomului, precum i iniierea multiplelor proiecte pentru studiul transcriptome-ului i proteome-ului la diverse organisme, conferind bioinformaticii o importan deosebit n cercetrile la nivel molecular. Caracterul multidisciplinar al bioinformaticii necesit competene n diverse domenii: Biologie Molecular, Genetic, Informatic, Matema-tic, Tehnici Computaionale, Chimie, Fizic, Inginerie, etc.

    Bioinformatica, din punct de vedere operaional, include dou domenii mari: instrumentele de calcul i bazele de date, care sunt aplicate n generarea de informaii biologice pentru a nelege mai profund sistemele vii.

    Instrumentele de calcul includ software-ul pentru scrierea secvenei, analiza structural i funcional, formarea i gestionarea bazelor de date biologice (Fig. 1.2.).

    Figura 1.2. Obiective ale bioinformaticii

    Bioinformatic este esenial nu numai pentru cercetrile fundamentale ale ge-nomului, dar ctig tot mai mult teren n domeniile aplicative ale biotehnologiei (in-dustriale, agricole, alimentare), tiinelor medicale, farmaceutic (Fig. 1.3.). Studiile computaionale a interaciunii protein - ligand stau la baza crerii noilor medicamente sintetice. Cunoaterea structurii proteice tridimensionale permite crearea proteinelor cu un grad major de afinitate i specificitate pentru receptorii proteinei-int. Aceste realizri reduc semnificativ timpul i costurile necesare pentru a elabora medicamente sau ali compui cu activitate biologic cu mai puine efecte secundare.

    Para

    graf

    ul

    continu n ultimii 30 - 40 de ani. Aceste cerine ale mediului academic au catalizat dezvoltarea unei noi discipline Bioinformatica (BI), care are scopul de a analiza can-titativ informaiile referitoare la macromolecule biologice cu ajutorul computerelor i a algoritmilor de programare.

    Primul proiect major n bioinformatic a fost realizat de Margaret Dayhoff n anul 1965, care a format o baz de date primar a secvenelor proteice (Fig. 1.1). Mai trziu, specialistul n fizica teoretic, Walter Goad a efec-tuat prima asamblare a secvenelor ADN n baza de date, elabornd i prima baz de date de secvene proteice - Protein Information Resource (PIR).

    La nceputul anilor 1970, Brookhaven National la-boratory dispunea de o Banc de Date pentru arhivarea structurii tridimensionale a proteinelor. Tot n acea peri-oad a fost elaborat algoritmul de aliniere a secvenei pri-mare pas fundamental n dezvoltarea bioinformaticii, fcnd accesibil compararea secvenelor, obiectiv practi-cat n investigaiile biologiei contemporane.

    Primul algoritm al descifrrii structurii proteinei a fost propus de Chou i Fasman n anul 1974. Acest al-goritm poate fi considerat pionier n evoluia prezicerii structurii proteinelor cu toate c este destul de rudimentar conform standardului de astzi. Peste ase ani (1980) a fost nfiinat GenBank i bazele de date cu algoritmi rapizi de cutare, cum ar fi FAStA propus de William Pearson i BlASt de Stephen Altschul.

    Iniial, genele i proteinele erau secveniate una cte una folosind tehnici inco-mode care limitau cantitatea datelor generate. Dezvoltarea unui echipament mai so-fisticat i elaborarea unor tehnici noi de analiz a determinat industrializarea biologiei moleculare i, odat cu aceasta, apariia premizelor pentru realizarea celui mai mare proiect pentru secvenierea genomului uman. Astfel, s-a dezvoltat o infrastructur pu-blic care conine milioane de secvene de acizi nucleici, proteine i date despre acestea ntr-un mod structurat.

    Avansarea rapid a tehnicilor de secveniere a biopolimerilor i elaborarea algoritmilor folosii pentru analiza alinierii a determinat mrirea vitezei de cumu-lare a informaiei n bazele de date (mai mult de 850000 baze pe or). n paralel se accentua i dezvoltarea rapid a resurselor informatice, inclusiv Protein Informa-tion Resource, Swiss-PROT, Protein Research Foundation (PRF) i Protein Data Bank (PDB).

    Dinamica performanei sistemelor de calcul a dus de asemenea la dezvoltarea de noi algoritmi pentru descoperirea structurii i testarea datelor secvenierii. Aceste orientri au continuat n anii 1990 cu nfiinarea centrului National Center for Biote-chnology information (NCBI) i organizarea n Europa a institutului European Bioin-formatics institute (EBI). n octombrie 1992, NCBI i-a asumat rspunderea pentru GenBank ADN sequence database - prima baz de secvene de nucleotide care rmne i pn astzi cea mai cuprinztoare surs de informaii cu acces liber pentru public.

    Figura 1.1. Margaret Day-hoff, 1965. Elaboreaz pri-ma baz de date a secven-elor proteice

    APLICAII

    Modelarea structurii acidului nucleic

    Comparareagenomului Modelarea cilor

    metabolice

    Modelarea structurii proteinei

    FilogenieModelarea structurii

    genei i promotoruluiProfilul expresiei

    genelor

    Clasificarea structurii proteinei

    Descoperirea motivului

    Modelarea structurii proteinei

    Compararea structurii proteinei

    Cutarea secvenelor n bazele de date

    DEZvOLTAREA SOFTuRILOR

    FORMAREA I COORDONAREA BAZELOR DE DATE

    Alinierea secvenelor

    Modelarea localizrii subcelulare a prote

    inelor

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    1 1

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

  • 8C

    apito

    lul

    9

    Cap

    itolu

    l

    Figura 1.3. Intersectarea tehnologiilor cu diverse ramuri ale biologiei

    1.2. Baze de date, diversitate i importanBaza de date (BD) reprezint o modalitate de stocare a informaiilor i datelor

    pe un suport cu posibilitatea manipulrii acestora prin intermediul sistemelor de ges-tiune i accesrii rapide a acestora.

    Sistemele de gestiune a bazelor de date (SGDB) includ totalitatea programelor utilizate pentru crearea, prelucrarea i ntreinerea bazei de date i conine:

    module comune cu cele ale sistemelor de operare ale calculatoarelor, module cu funcii specifice. Subsistemele monitor includ programele de control ale perifericelor i sistemul

    de gestiune al fiierelor. Subsistemele externe sunt alctuite din procesorul de definiie i programul de administrare. ntre utilizator i sistem exist dou interfee: definirea BD i utilizarea BD. Definirea unei baze de date se execut sub controlul procesorului de definiie (PD), capabil s prelucreze programe de descriere, formulate folosind lim-baje specializate, cunoscute sub denumirea de limbaje de definiie a datelor (LDD).

    Cel mai rspndit tip de baze de date este cel relaional n care datele sunt me-morate sub form de tabele. O baz de date relaional mai poate conine: indicatori, utilizatori i grupuri de utilizatori, tipuri de date, mecanisme de securitate i de gesti-une a operaiilor etc.

    ntr-o baz de date biologic se colecteaz secvene i structuri ale biopolimeri-lor), informaii obinute din testele de laborator, experimente in silico, in vitro, in vivo etc. BD sunt proiectate ca rezervoare, concepute pentru a stoca date eficient i raional cu scopul sintezei unificate i accesibilitii la noi tipuri de informaii prin standardi-zarea datelor n diferite BD (Fig. 1.4.).

    Figura 1.4. Diversitatea datelor stocate n baze de date genomice

    Pentru eficiena de accesare a datelor genetice, genomice i proteomice, care sunt att de variate ca coninut i complexitate, se impun urmtoarele criterii pentru o BD (http://nar.oupjournals.org):

    accesibilitate - pstrarea i gestionarea datelor oferite de cercettori, asigurnd accesul liber la informaie;

    compatibilitate - acceptarea i utilizarea strict a standardelor unice pentru po-sibilitatea schimbului, utilizrii i facilitii nelegerii datelor;

    actualitatea i complexitatea seturilor de date actualizarea prin negociere i transfer permanent de date;

    portabilitate - accesibilitatea descrcrii seturilor de date i a sistemelor software ntregi pentru utilizarea la nivel local;

    calitate adnotarea s fie efectuat de biologi de o nalt calificare, iar cea auto-mat s fie supus unui control de calitate foarte riguros.

    Revista tiinific Nucleic Acids Research (http://nar.oupjournals.org/) public anual lista de baze de date noi i reactualizate, accesibile on-line, care include pentru anul 2010:

    Biblioteca virtual (Virtual Library) i alte resurse consacrate organismelor model i geneticii cu numeroase referine pe Internet (http://ceolas.org/VL/

    Medicina Tradiional Complementar

    Agricultura de generaie nou

    Culturi rezistentela boli

    Suplimente alimentare

    Culturi nalt pro-ductive

    Substanele naturaleNutriceutice

    Bolile tropicale

    Testrile clinice

    Instrumentele diagnos-tice i biomedicale Vaccinurile

    Biomateriale Enzime/catalize

    Chimia verde

    Biocombustibil

    Tehnologiile microbieneBioinformatica

    AGRICULTURA

    SNTATEA BIOTEHNOLOGIA

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    1

    Ci metabolice

    Compui chimici

    Interaciuni moleculare

    Familii de proteine,domenii i motive

    Expresia genelor

    Genomuri

    Publicaii i ontologie

    Secvenele nucleotidice i proteice

    Proteomuri

    Structuriproteice

    SISTEME BIOLOGICE

    1Is

    To

    rIC

    I

    El

    EM

    En

    TE

    dE

    BA

    z

    n B

    IoIn

    fo

    rM

    AT

    IC

  • 10C

    apito

    lul

    11

    Cap

    itolu

    l

    mo; http://www.nih.gov/science/models/; http://www.ornl.gov/TechResour-ces/Human_Genome/);

    institutul Naional de Cercetare a Genomului Uman (National Human Ge-nome Research Institute, NHGRI) susine o serie de surse privind genomul (http://www.genome.gov/);

    departamentul energiei (Department of Energy: DOE) administreaz un site dedicat proiectului de secveniere a genomului uman (http://public.ornl.gov/hgmis/);

    portalul ExPASy prezint referine la variate resurse informaionale (http://www.expasy.org/).

    n BD se stocheaz informaii privind att secvene genetice individuale, ct i poziia relativ a lor, orientare, prezena /absena funciei acestora. BD a proteinelor nu se limiteaz numai la sinteza i acumularea de secvene proteice, dar ofer i posibili-tatea prediciei structurilor 3-D a secvenelor de proteine i funciile acestora, precum i informaii despre genele codificatoare.

    Cea mai mare baz de date genomic, n care sunt stocate secvenele colectate timp de 25 ani n forma n care au fost determinate, interpretate i publicate de autorii lor, servind ca o punte ntre trecutul i prezentul biologiei moleculare, este GenBank, n consoriu cu NCBI, EMBL, i DDBJ. n cazul proteinelor cele mai multe legturi ntre gene, proteine i funcii se bazeaz pe UniProtKB / Swiss-Prot - sursa central de secvene proteice finanat de Institutul Elveian de Bioinformatic (SIB) n colaborare cu Institutul European de Bioinformatic (EBI).

    Bazele de date se difereniaz dup tipul de informaii asupra structurilor mole-culare, precum i datele suplimentare care descriu secvenele nregistrate (tab. 1.1).

    Tabelul 1.1. Resurse principale ale datelor moleculare

    BAZA DE DATE, uRL DESCRIERE SuCCINT

    GenBankhttp://ncbi.nlm.nih.gov/genbanknregistrri: 106533156756 nt n 108431692 secvene, (08.2009).

    una din cele mai rapide i mai cunoscute arhive de sec-vene genetice; are structura unui fiier textual ASCII; fiierele conin informaii privind numere de acces i numele genei, clasificarea filogenetic i referinele la sursa din literatur.

    EMBLwww.ebi.ac.uk/emblnregistrri: 281478752483 nt n185231366 secvene (03.2010).

    baza de date a secvenelor ADN i ARN colectate din literatura tiinific, cereri de brevet i depuse direct de cercettori; colectarea datelor se face n colaborare cu GenBank (SUA) i Baza de Date ADN din Japonia (DDBJ); se dubleaz ca volum de informaie la fiecare 18 luni.

    SwissProthttp://expasy.org/sprotnregistrare: 182146551 aa n517100 secvene (06.2010).

    baza de date de secvene aminoacidice care ofer un nivel nalt de integrare cu alte baze de date.

    PROSITEhttp://expasy.org/prositenregistrri: 1579 documentate, 1308 patternuri, 888 de profiluri, 883 structuri ProRule (05.2010).

    conine informaii stocate de la Universitatea Amos Bairoch din Geneva; structuri la nivel secundar i teriar reprezentate 3D; informaii despre motive i domene din diverse familii proteice.

    RCSBPDBwww.rcsb.org/pdb/home/home.donregistrri: 65378 structuri (05.2010).

    conine informaii despre structura 3-D a macromoleculelor biologice obinute prin cristalografia cu raze X, RMN i Cryo-EM. Este gestionat de Universitatea de Stat din New Jersey i San Diego Supercomputer Center de la Universitatea din California.

    MGI (Mouse Genome Informatics)www.informatics.jax.orgnregistrri: 2982774 secvene nucleotidice, 237923 secvene proteice, 6829181 secvene de transcripi.

    baza de date complet de informaii genetice a oarecelui de laborator; conine cca. 15500 de surse bibliografice.

    n afar de bazele de date de stocare a secvenelor nucleotidelor si proteinelor exist baze de date a glucidelor (The Glycan Structure Database - www.glycosuite.com), lipidelor (The Lipid Bank - lipidbank.jp) i a altor compui chimici (ChemID-plus - http://chem.sis.nlm.nih.gov/chemidplus/) (tab. 1.2.). Informaiile sunt clasifica-te pe domenii din punct de vedere taxonomic sau/i funcional.

    Tabelul 1.2. Baze de date privind diveri compui chimici, organisme i procese fiziologobiochimice

    BAZA DE DATE, uRL DESCRIERE SuCCINT

    International ImmunoGenetics database (IMGT) www. imgt.cines.fr

    specializat n Imunoglobuline, receptorii celulelor T, moleculele complexului major de histocompati-bilitate (MHC, Major Histocompatibility Complex) a speciilor de vertebrate.

    REBASEwww. rebase.neb.com

    baza de date a enzimelor de restricie, ADN metil-transferaze; conine 4990 gene ale proteinelor de restricie i 8080 de gene ale proteinelor de modifi-care a enzimilor.

    CAZy www.cazy.org/CAZY/

    surs informaional despre enzime implicate n crearea, degradarea i modificarea legturilor glico-zidice.

    MEROPSwww. merops.sanger.ac.uk

    baza de date cu informaii despre proteaze.

    Protein Kinase Resource (PKR) www.pkr.genomics.purdue.edu/pkr/

    sursa de informaii privind familiile enzimatice ale proteinkinazelor.

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    1 1

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

  • 12C

    apito

    lul

    13

    Cap

    itolu

    l

    Nuclear Receptor Signaling Atlas (NuRSA)www.nursa.org

    sursa de informaii privind receptorii nucleari, co-activatori, corepresori i liganzii lor.

    www. senselab.med.yale.edu

    baze de date cu informaii ce in de proteinele implicate n procesele neurale, canale de ioni, re-ceptori membranari, neurotransmiteri i neuromo-dulatori, i receptorii olfactivi.

    Clusters of Orthologous Groups (COG) www.ncbi.nlm.nih.gov/COG

    baza de date ce regrupeaz proteinele a cel puin trei linii filogenetice majore ce corespund domene-lor conservate ancestrale.

    SwissModelwww. swissmodel.expasy.org

    server automat care modeleaz omologia structu-ral a proteinelor; accesibil prin serverul ExPASy.

    Class, Architecture, Topology, Homologous superfamily (CATH)www.cathdb.info

    furnizeaz clasificarea ierarhic a structurilor do-menelor proteice.

    Structural Classification Of Proteins (SCOP)www. scop.mrc-lmb.cam.ac.uk/scop/

    furnizeaz descrierea relaiilor structurale i evolu-tive dintre toate proteinele cu structur cunoscut.

    National Center for Biotechnology Information (NCBI)www.ncbi.nlm.nih.gov/Structure/

    integreaz n sine instrumentele pentru vizualizare i analiza comparativ.

    PubMed www.ncbi.nlm.nih.gov/PubMed

    baza de date bibliografic cu peste 19 mln de ci-taii.

    WormBase www.wormbase.org

    baza de date a genomului Caenorhabditis elegans

    TAIRwww.arabidopsis.org

    baza de date a genomului Arabidopsis

    DDBJwww.ddbj.nig.ac.jp

    baza de date a secvenelor nucleotidice primare din Japonia

    ExPASYhttp://expasy.org/

    baza de date proteomice

    OMIMwww.ncbi.nlm.nih.gov/OMIM

    informaia despre genetica bolilor umane

    Fly Basehttp://ybase.org

    baza de date a genomului Drosophila

    HIvdatabaseswww.hiv.lanl.gov

    baza de date a secvenelor HIV i a informaiilor imunologice de specialitate

    Microarray Gene expression databasewww.ebi.ac.uk/microarray

    baza de date a DNA microarray i instrumentele de analiz

    SRShttp://srs.ebi.ac.uk

    sistem general de cutare a secvenelor

    PIRhttp://pir.georgetown.edu/pirwww/

    stocheaz secvenele proteice adnotate

    Dintre numeroasele faciliti oferite de instrumentele bioinformatice i bazele de date putem enumera:

    identificarea secvenelor similare n fragmentele noi descoperite cu funcie i structur nc necunoscut i secvenele (stocate n baze de date) la care structura i funcia sunt cunoscute;

    studiul funciei proteinei necunoscute prin intermediul programelor, de ex., PROSITE sau SMART de cutare i extragere rapid a informaiilor existente n ba-zele de date;

    analiza structurilor prin efectuarea comparaiei structurii unei proteine ne-cunoscute cu cea a proteinelor din baza de date a structurilor cunoscute. Dese-ori, proteinele cu structur secundar, teriar i cuaternar similar au aceleai funcii.

    1.3. Formate i instrumente de nregistrare a secvenelorCalculatorul stocheaz informaia secvenelor sub form de rnduri de carac-

    tere numite iruri de caractere. Fiecare caracter este depozitat n cod binar n cea mai mic unitate de memorie numit bit, avnd o posibil valoare de 0 sau 1. O structur de opt bii formeaz un octet, numit i bait. Cu opt bii se pot reprezenta toate nume-rele naturale ntre 0 i 255 (28 = 256). Fiecare din aceste combinaii sunt reprezentate prin echivalentul lor ASCII (American Standard Code for Information Interchange). Unele din caracterele ASCII sunt identice cu caracterele de pe tastatur, altele repre-zint caractere speciale i control, de exemplu, semnalizarea sfritului unui ir sau al ntregului text din fiier. Un fiier ce conine numai caractere ASCII este numit fiier ASCII. Toate valorile binare pot fi scrise n format hexadecimal care corespund formatului decimal 0, 1,......, 9 i literelor A, B, .... F.

    O secven de ADN este de obicei stocat n calculator ca o serie de cuvinte de 8 bii. O secven proteic apare ca o serie de cuvinte de 8 bii n form binar ce corespunde cu literele aminoacidului. Majoritatea din programele de analiz a secvenelor, pe lng faptul c necesit ca secvena de ADN sau protein, s fie fiier ASCII, lucreaz cu fiiere n format special, de exemplu, formatul FASTA (vezi mai jos). Folosirea programelor n ferestre separate a simplificat mult unele probleme, pre-cum copierea din Web browser a unei secvene de pe site-ul Entrez ntr-un program ce execut translarea.

    Pentru a analiza la calculator secvenele proteice este mai convenabil utilizarea unei singure litere ce desemneaz aminoacidul. De exemplu, GenBank conine nre-gistrri din secvenele translate, simbolul aminoacidului fiind o singur liter. Pentru unii aminoacizi denumirea de o liter provine de la litera cu care se ncepe denumirea aminoacidului respectiv (de. ex., C pentru cistein), pentru ali aminoacizi este folo-sit o liter fonetic similar (R pentru Arginin) sau o liter apropiat alfabetic (K,

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    1 1

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

  • 14C

    apito

    lul

    15

    Cap

    itolu

    l

    Lizin). Una din dificulti este folosirea n soft-uri de analiz a secvenelor cu for-

    mat diferit (tab. 1.3.). Dei aceste formate reprezint fiiere ASCII, ele se pot deosebi prin prezena unor caractere sau cuvinte care indic unde se pot gsi informaii referitoare la aceast secven. O list mai ampl de formate a sec-venelor poate fi gsit pe site-ul http://emboss.sourceforge.net/ docs/themes/SequenceFormats.html.

    Tabelul 1.3. Formatele secvenelor i descrierea lor

    FORMATuL DESCRIERE SuCCINT

    RAW Format de ordine, care nu conine nici un antet. Spaiul i numerele sunt de obicei tolerate.

    FASTA Formatul de baz. Format de ordine care conine o linie de antet i secvena.

    PIR Format de ordine similar cu fasta.

    MSF Format de aliniere multipl a secvenelor.

    CLUSTAL Format de aliniere multipl a secvenelor (funcioneaz cu T-COFEE).

    TXT Format textual.

    GIF, JPEG, PNG, PDF

    Format grafic. Nu se utilizeaz pentru a stoca informaii importante.

    XML eXtensible Markup Language

    Bazele de date de pe portalul NCBI conin informaii cu privire la descrie-rea fiecrei secvene pe care le conine, referine bibliografice i alte informaii des-pre funciile standard ale secvenei aminoacizilor corespunztoare secvenei ADN, ARNm, a regiunilor codificatoare i a regiunii mutaiilor importante. Aceast infor-maie este organizat n cmpuri, fiecare coninnd un identificator aflat la nceputul fiecrui ir de caractere. n unele nregistrri din bazele de date pentru identificatori pot fi folosite abrevieri, (de exemplu RF de la referin) sau identificatorii pot avea subcmpuri (Fig. 1.5.).

    Subcmpul CDS (CoDing Sequence) n cmpul FEATURES red secvena aminoacidic obinut prin translare a unui cadru de citire deschis potenial cu-noscut, de ex., un set consecutiv de cuvinte din trei litere care ar putea fi codoni ce indic consecutivitatea aminoacizilor dintr-o secven de proteine. Programele din calculator presupun automat c aceast secven se afl ntre identificatorii ORIGIN i //.

    LOCUS GU265762 795 bp cRNA linear VRL 01-FEB-2010DEFINITION Influenza A virus(A/Berlin/109/2009(H1N1)) segment 6 neura-minidase (NA) gene, partial cds.ACCESSION GU265762VERSION GU265762.1 GI:281313053DBLINK Project:37813KEYWORDS .SOURCE Influenza A virus (A/Berlin/109/2009(H1N1))ORGANISM Influenza A virus (A/Berlin/109/2009(H1N1)) Viruses; ssRNA negative-strand viruses; Orthomyxoviridae; Influenzavirus A. Chariteplatz 1, Berlin 10117, GermanyCOMMENT Swine influenza A (H1N1) virus isolated during human swine flu outbreak of 2009.FEATURES Location/Qualifiers source 1..795

    /organism=Influenza A virus (A/Berlin/109/2009(H1N1)) /mol_type=viral cRNA /strain=A/Berlin/109/2009 /serotype=H1N1 /isolation_source=nasopharyngeal swab /host=Homo sapiens /db_xref=taxon:697595 /segment=6 /country=Germany /collection_date=Oct-2009 /PCR_primers=fwd_seq: gaatccaaaccaaaagataataacc, rev_seq: attcgagccatgccagttatcc /note=lineage: swl

    ORIGIN 1 gaatccaaac caaaagataa taaccattgg ttcggtctgt atgacaattg gaatggctaa 61 cttaatatta caaattggaa acataatctc aatatggatt agccactcaa ttcaacttgg 121 gaatcaaaat cagattgaaa catgcaatca aagcgtcatt acttatgaaa acaacacttg 181 ggtaaatcag acatatgtta acatcagcaa caccaacttt gctgctggac agtcagtggt 241 ttccgtgaaa ttagcgggca attcctctct ctgccctgtt agtggatggg ctatatacag 301 taaagacaac agtataagaa tcggttccaa gggggatgtg tttgtcataa gggagccatt 361 catatcatgc tcccccttgg aatgcagaac cttcttcttg actcaagggg ccttgctaaa 421 tgacaaacat tccaatggaa ccattaaaga caggagccca tatcgaaccc taatgagctg 481 tcctattggt gaagttccct ctccatacaa ctcaagattt gagtcagtcg cttggtcagc 541 aagtgcttgt catgatggca tcaattggct aacaattgga atttctggcc cagacaatgg 601 ggcagtggct gtgttaaagt acaacggcat aataacagac actatcaaga gttggagaaa 661 caatatattg agaacacaag agtctgaatg tgcatgtgta aatggttctt gctttactgt 721 aatgaccgat ggaccaagtg atggacaggc ctcatacaag atcttcaaaa tagaaaaggg 781 aaagatagtc aaatc//

    Figura 1.5. nregistrarea unei secvene de ADN n formatul GenBank

    Secvena include numere pe fiecare ir pentru a fi uor detectat de operator. Deoarece numrul secvenei i suma de control (checksum) este folosit de progra-mele de calculator pentru verificarea compoziiei secvenei, aceste numere nu trebuie modificate manual, cu excepia programelor care sunt destinate pentru aceste operaii. Formatul secvenelor folostite de GenBank trebuie deseori schimbat pentru a fi folo-site n soft-uri de analiz.

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    1 1

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

  • 16C

    apito

    lul

    17

    Cap

    itolu

    l

    Formatul de secven FASTA Formatul secvenelor FASTA include trei pri (Fig. 1.6.): (1) rndul de comentarii cu

    indicatorul > n prima coloan, urmat de numele i originea secvenei; (2) secvena cu de-numirea de o liter a aminoacidului; (3) optional, * indicnd sfritul secvenei (poate lipsi). Prezena simbolului * poate fi esenial pentru interpretarea corect a unei secvene de ctre soft - urile de analiz. Acest format reprezint un mod foarte convenabil de a copia secvena dintr-o fereastr n alta deoarece n el nu se conin numere sau alte caractere ce nu aparin secvenei, motiv pentru care formatul FASTA este folosit de multe soft-uri de analiz.

    >MCHU - Calmodulin - Human, rabbit, bovine, rat, and chickenADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPE-FLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREADIDGD-GQVNYEEFVQMMTAK*

    Figura 1.6. Formatul secvenelor FASTA

    Formatul FASTA este similar cu cel al bazei de date NBRF (National Biomedical Re-search Foundation) ce conine informaii despre proteine, cu excepia simbolului > din primul rnd a primei coloane, urmat de informaia despre secven. Al doilea rnd conine informaie ce permite identificarea secvenei, iar al treilea conine secvena propriu zis.

    Format de secven European Molecular Biology Laboratory Data LibraryEuropean Molecular Biology Laboratory Data (EMBL) ntreine bazele de date

    a secvenelor de ADN i de proteine. EMBL este foarte asemntor cu GenBank. Di-ferena principal fiind folosirea identificatorului ORIGIN de ctre GenBank pentru a desemna nceputul secvenei, pe cnd EMBL nu conine variante de secvenele transla-te, fiecare dintre acestea fiind prezentat ca o nregistrare diferit n baza de date. Astfel, formatele date trebuie modificate dup necesitile soft-ului de analiz. Formatul de ieire DDBJ a secvenei ADN este similar cu cel al GenBank (Fig.1.7.).

    ID Y08501; SV 2; circular; genomic DNA; STD; PLN; 366924 BP.AC Y08501; Y08502;PR Project:11796;DT 17-JAN-1997 (Rel. 50, Created)DT 30-JUN-2009 (Rel. 101, Last updated, Version 20)DE Arabidopsis thaliana mitochondrial genomeKW complete genome.OS Arabidopsis thaliana (thale cress)OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons; rosids;OC eurosids II; Brassicales; Brassicaceae; Arabidopsis.OG MitochondrionDR UniProtKB/TrEMBL; Q3EC42; Q3EC42_ARATH.DR UniProtKB/TrEMBL; Q3EC49; Q3EC49_ARATH.SQ Sequence 366924 BP; 102464 A; 82661 C; 81609 G; 100190 T; 0 other; ggatccgttc gaaacaggtt agcctactat aatataagga ttggattcta ataagttcga 60 aacaggttag ccttagccta ctataggatt agatctttct tatcaaccta ctaacttctt 120 ccttgttggg atgagaaacc cttttgcaac caagcgtgct ttgagtttgt caagggaccc 180 atctgcattc agtttcactc tgaaaaccca tttacaaccg agaagattca tgtcaggtga 240 tgcgggaact aagtcccaag tgtgattctg tgttaatgcc gacatctctt cttgcatagc 300//

    Figura 1.7. Formatul secvenei EMBL

    Format de secven SwissProt SequenceFormatul nregistrrilor din aceast baz de date este similar cu EMBL, cu ex-

    cepia unei cantiti mai mari de informaie oferite despre proprietile fizice i chimi-ce a proteinei (Fig. 1.8.).

    ID 100K_RAT STANDARD; PRT; 889 AA.AC Q62671;DE 100 kDa protein (EC 6.3.2.-).SQ SEQUENCE 889 AA; 100370 MW; DD7E6C7A CRC32; MMSARGDFLN YALSLMRSHN DEHSDVLPVL DVCSLKHVAY VFQALIYWIK AMNQQTTLDT PQLERKRTRE LLELGIDNED SEHENDDDTS QSATLNDKDD ESLPAETGQN HPFFRRSDSM TFLGCIPPNP FEVPLAEAIP LADQPHLLQP NARKEDLFGR PSQGLYSSSA GSGKCLVEVT MDRNCLEVLP TKMSYAANLK NVMNMQNRQK KAGEDQSMLA EEADSSKPGP SAHDVAAQLK SSLLAEIGLT ESEGPPLTSF RPQCSFMGMV ISHDMLLGRW RLSLELFGRV FMEDVGAEPG SILTELGGFE VKESKFRREM EKLRNQQSRD LSLEVDRDRD LLIQQTMRQL NNHFGRRCAT TPMAVHRVKV TFKDEPGEGS GVARSFYTAI AQAFLSNEKL PNLDCIQNAN KGTHTSLMQR LRNRGERDRE REREREMRRS SGLRAGSRRD RDRDFRRQLS IDTRPFRPAS EGNPSDDPDP LPAHRQALGE RLYPRVQAMQ PAFASKITGM LLELSPAQLL LLLASEDSLR ARVEEAMELI VAHGRENGAD SILDLGLLDS SEKVQENRKR HGSSRSVVDM DLDDTDDGDD NAPLFYQPGK RGFYTPRPGK NTEARLNCFR NIGRILGLCL LQNELCPITL NRHVIKVLLG RKVNWHDFAF FDPVMYESLR QLILASQSSD ADAVFSAMDL AFAVDLCKEE GGGQVELIPN GVNIPVTPQN VYEYVRKYAE HRMLVVAEQP LHAMRKGLLD VLPKNSLEDL TAEDFRLLVN GCGEVNVQML ISFTSFNDES GENAEKLLQF KRWFWSIVER MSMTERQDLV YFWTSSPSLP ASEEGFQPMP SITIRPPDDQ HLPTANTCIS RLYVPLYSSK QILKQKLLLA IKTKNFGFV//

    Figura 1.8. Formatul secvenelor SwissProt

    Format de secven Genetic Computer GroupVersiunile anterioare ale programului Genetic Computer Group (GCG) erau ca-

    pabile s lucreze doar cu un singur format al secvenelor GCG. Versiunile mai recente accept i alte formate. Mai nti este redat informaia despre aceast secven i po-ziia ei n GenBank, urmat de un rnd de informaii despre secven i o valoare de control. Aceast valoare este furnizat pentru controlul acurateii secvenei prin adiia valorilor ASCII. Dac secvena nu a fost modificat, aceste valori rmn constante. n caz c una sau mai multe caractere din secven sunt modificate din greeal, pro-gramul va fi capabil sa detecteze aceast eroare datorit prezenei sumei de control (checksum), care nu va mai fi valabil pentru aceast secven. Rndurile informaio-nale sunt marcate la nceput i sfrit, astfel, sfritul rndului informaional reprezint nceputul secvenei (Fig. 1.9.). Restul textului nregistrrii este analizat de program ca corpul secvenei. Prezena rndului ce conine cifre este determinat de necesitatea de a marca sfritul secvenei, ntruct nu exist simbol special destinat acestui scop. Secvena nu trebuie modificat, excepie fcnd doar programele ce vor schimba i suma de control mpreun cu caracterele secvenei. Formatul secvenelor GCG uneori trebuie modificat prin aplicaii de reformatare n cazul altor soft-uri de analiz.

    >P1; ILEClexa repressor Escherichia coliMKALTARQQEVFDLIRDHISQTGMPPTRAEIAQRLGFRSPNAAEEHLKALARKGVIEIVSS

    Figura 1.9. Formatul nregistrrii NBRF

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    1 1

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

  • 18C

    apito

    lul

    19

    Cap

    itolu

    l

    Format de secven Plain/ASCII Staden

    Acest format de secvene este un fiier care include doar secvena propriu-zi-s fr alte informaii suplimentare. Este folosit de ctre programul Staden Sequence Analysis (http://staden.sourceforge.net) elaborat de ctre Roger Starden din Universi-tatea Cambridge. Secvena necesit formatare suplimentar pentru alte programe de analiz.

    Format de secven Abstract Syntax Notation

    Abstract Syntax Notation (ASN.1) este un limbaj descriptiv. ASN.1 (www.ncbi.nlm.nih.gov/Sitemap/Summary/asn1.html) a fost preluat de NCBI pentru astfel de date ca secvene, informaie taxonomic, structuri moleculare i sursele bibliografice. Formatul ASN.1 este unul foarte bine structurat i elaborat n special pentru a fi acce-sibil de pe calculator. Include i alte forme de secvene, de exemplu cele din GenBank. Secvenele pot fi accesate n formatul n care se afl n Entrez, cu toate c aceast infor-maie este mai greu de perceput fr ajutorul calculatorului.

    Format de secven XML

    XML este un format de date standard care devine tot mai folosit pentru a transfera date despre genom ntre calculatoare. Acest format const dintr-un ir de cmpuri amplasate sub form de arbore. Marcrile (tag-uri) folosite pentru a defini aceste cmpuri sunt foarte asemntoare cu cele utilizate n HTML pentru paginile Web n browser-e. De exemplu, o secven din GenBank privit din format XML va fi marcat prin i . Secvenele de pe GenBank pot fi accesate n format XML.

    Format de secven AceDB

    Acest format indic tipul secvenei, urmat de : i de un numr de inventariere sau un numr de acces. Secvena propriu-zis ncepe din rndul al doilea (Fig. 1.10.).

    DNA : "HSFAU1"

    ctaccattttccctctcgattctatatgtacactcgggacaagttctcctgatcgaaaacggcaaaactaaggccc-caagtaggaatgccttagttttcggggttaacaatgattaacactgagcctcacacccacgcgatgccctcagc

    Figura 1.10. Formatul AceDB

    Format de secven General Feature Format

    Formatul General Feature (GFF) este folosit pentru setul de programe de analiz EMBOSS (Fig. 1.11.). Acest format posed un ir de proprieti distinctive ce permit stocarea unor informaii suplimentare despre secven, de ex., nceputul

    i sfritul genei, care n combinaie cu modulele de programare, pot fi folosite pentru vizualizarea genei (http://emboss.sourceforge.net/docs/themes/Sequence-Formats.html).

    ##gff-version 2

    ##source-version EMBOSS 2.2.1

    ##date 2002-01-22

    ##DNA HSFAU

    ##ttcctctttctcgactccatcttcgcggtagctgggaccgccgttcagtcgccaatatgc

    ##agctctttgtccgcgcccaggagctacacaccttcgaggtgaccggccaggaaacggtcg

    ##cccagatcaaggctcatgtagcctcactggagggcattgccccggaagatcaagtcgtgc

    ##tcctggcaggcgcgcccctggaggatgaggccactctgggccagtgcggggtggaggccc

    ##tgactaccctggaagtagcaggccgcatgcttggaggtaaagttcatggttccctggccc

    ##gtgctggaaaagtgagaggtcagactcctaaggtggccaaacaggagaagaagaagaaga

    ##agacaggtcgggctaagcggcggatgcagtacaaccggcgctttgtcaacgttgtgccca

    ##cctttggcaagaagaagggccccaatgccaactcttaagtcttttgtaattctggctttc

    ##tctaataaaaaagccacttagttcagtcaaaaaaaaaa

    Fig.1.11. Formatul secvenelor GFF

    Format de secven Genetic Data Environment

    Formatul Genetic Data Environment (GDE) este folosit de ctre un sistem ela-borat de Steven Smith (http://help.arb-home.de/gde.html). GDE este incorporat ntr-o interfa SEQLAB i este asemntor cu ASN.1 folosit pentru stocarea tuturor tipurilor de informaie despre secven. Fiierul const din cmpuri separate, limitate de paran-teze, fiecare avnd rnduri specifice cu un marcaj propriu. Informaia care urmeaz dup fiecare markaj este plasat ntre " ".

    Astfel de formate precum GCG, plain i staden pot conine doar o singur sec-ven per file, ce nu permite folosirea lor pentru alinierea multipl sau analiza filogene-tic. n general, programul de baz care permite lucrul cu cca. 50 de tipuri de formate i derivatele lor este EMBOSS (http://emboss.sourceforge.net).

    Secvenele sunt nregistrate prin intermediul instrumentelor bioinformatice, de ex., Tbl2asn de pe NCBI. Acesta reprezint un program cu linia de comand, care au-tomatizeaz crearea nscrierilor de secvene pentru nregistrarea n GenBank. n pro-gramul dat sunt aplicate multe funcii precum Sequin i genereaz fiierile .sqn pen-tru nregistrarea n GenBank. Tbl2asn poate fi descrcat de pe ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/tbl2asn. Este necesar doar de a descrca versiunea corect pentru platforma corespunztoare a calculatorului, de a dezarhiva, redenumi fiierul n tbl2asn i de a configura programul.

    1Is

    To

    rIC

    I

    El

    EM

    En

    TE

    dE

    BA

    z

    n B

    IoIn

    fo

    rM

    AT

    IC

    1Is

    To

    rIC

    I

    El

    EM

    En

    TE

    dE

    BA

    z

    n B

    IoIn

    fo

    rM

    AT

    IC

  • 20C

    apito

    lul

    21

    Cap

    itolu

    l

    Se utilizeaz urmtoarele ase tipuri de fiiere de date: Fiierul model (template) conine textul ASN.1, extensia este .sbt submit-

    block object; Datele despre secvena nucleotidic n formatul FASTA, extensia .fsa; Tabelul de caracteristici, extensia .tbl; Secvena proteic, extensia .pep; Tabel de surs, extensia .src; Scorul de calitate, extensia .qvl.

    Pentru a opera cu comenzile este propus un set de argumente aplicate n de-penden de informaia necesar pentru extragere (http://www.ncbi.nlm.nih.gov/Genbank/tbl2asn2.html)

    -p Path to Files [String] -t Template File [File In] -a s FASTA Set (= Batch submission when multiple sequences in the .fsa file)-r Path for Results [String] -V v Validate with Normal Stringency-Z Discrepancy Report Output File [File Out]

    Sequin este un instrument creat de NCBI pentru nregistrarea i completarea n-trrilor n bazele de date a secvenelor GenBank, EMBL sau DDBJ. Acesta este capabil s manipuleze cu nregistrri simple care conin secvene unice scurte de ARNm i n-registrri complexe ce conin secvene lungi, adnotri multiple, seturi fragmentare de ADN, sau studii filogenetice i populaionale. Sequin 10.0 este disponibil de pe NCBI (http://www.ncbi.nlm.nih.gov/Sequin/ index.html). Poate fi utilizat pe calculatoarele Macintosh, PC/Windows i UNIX. Instruciunile pentru instalarea programului sunt ataate. Programul, mpreun cu documentaia de asisten i ajutor on-line, este dis-ponibil prin FTP anonim.

    Folosirea Sequin presupune o etap preliminar privind modul de crea-re a fiierelor Sequin (http://www.ncbi.nlm.nih.gov/projects/Sequin/sequin.hlp.html#OverviewofSequin) care pot fi prezentate sub form tabelar din 5 coloane, i anume (Fig. 1.12.):

    1: Start location of feature 2: Stop location of feature 3: Feature key Line2: 4: Qualifier key 5: Qualifier value.

    >Feature Sc_16

    1 7000 REFERENCE PubMed 8849441

  • 22C

    apito

    lul

    23

    Cap

    itolu

    l

    lul de programe GCG poate converti prin intermediul aplicaiei from orice format n format propriu GCG, iar aplicaia to permite efectuarea operaiei inverse. Funci-ile de convertire CGC: FROMEMBLE, FROMFASTA, FROMGENBANK, FROMIG, FROMPIR, FROMSTADEN, TOFASTA, TOIG, TOPIR, TOSTADEN. Module de convertire n formatele GenBak i EMBL nu exist.

    n afar de aceasta, modulul de programe CGC mai conine programele: GET-SEQ, care permite convertirea fiierelor ASCII n GCG; REFORMAT, permite for-matarea fiierului CGC recent editat; SPEW, permite transmiterea la alt calculator a secvenelor GCG prin intermediul unui fiier ASCII.

    Formatele recunoscute de ctre programul de conversie READSEQ sunt: Fasta/Pearson, Intelligenetics/Stanford, GenBank, National Biomedical Research Founda-tion (NBRF), European Molecular Biology Laboratory (EMBL), Genetics Computer group (GCG), DNA Strider, Fitch (pentru analize filogenetice), Phylogenetic Inferen-ce Package (PHYLIP v3.3, v3.4), Protein Information Resource (PIR sau CODATA), Multiple sequence format (MSF), Abstract Syntax Notation, Phylogenetic Analysis Using Parsimony (PAUP), formatul NEXUS.

    EXERCIII DE CONSOLIDARE A MATERIALuLuI

    Exerciiul 1.1.n care format este prezentat secven de mai jos?

    TCAAGCAGATCACTGTCCTTCGCCATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGG-GACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTG-TGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCT-GGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAA-CAATGCTGTACCAGCATCTGCTCCCTCTACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCATGCAGNCCCC-CACCCGCCGNCTTCTGCACCGAGAGAGATGGAATTAAACCCTTGAACCCAGCANANAAAAAAAAGAAATAAAA

    Indicai cum ar arta aceast secven n formatele EMBL, SwissProt, ASN.1, XML, FASTA.

    Exerciiul 1.2.Efectuai analiza statistic a secvenei prezentate n exerciiul anterior: de-

    terminai lungimea secvenei, calculai coninutul procentual al nucleotidelor. Determinai secvena ARNm i a proteinei care poate fi codificat de aceast secvena.

    Exerciiul 1.3.Accesai paginile Web ale urmtoarelor baze de date: GenBank, RefSeq Nucleo-

    tide, EMBL, DDBJ i PDB. Folosind criteriile funcionrii normale a unei baze de date, elaborai tabelul cu caracteristica acestor baze de date.

    Analizai articolul http://nar.oxfordjournals.org/cgi/content/full/38/suppl_1/D1. Care sunt direciile de baz BI de analiz a datelor?

    Dai exemple (3-5) de baze de date ce conin: secvene nucleotidice, secvene proteice, secvene specifice de ARN, date experimentale (de ex., microarray), referine bibliografice.

    Exerciiul 1.4.Analizai bazele de date accesibile online. Prezentai o descriere general a aces-

    tora, indicnd sursa (adresa paginii Web), referina la articol, dac sunt de acces public sau nu, tipul de secvene sau alte informaii biologice care sunt stocate.

    Exerciiul 1.5.Efectuai o cutare a instrumentelor de analiz n domeniul bioinformaticii. De-

    scriei n linii generale, indicnd sursa (pagina Web), referina bibliografic, dac sunt cu acces liber sau nu, metoda sau principiul care st la baza analizei datelor.

    1Is

    To

    rIC

    I

    El

    EM

    En

    TE

    dE

    BA

    z

    n B

    IoIn

    fo

    rM

    AT

    IC

    1Is

    To

    rIC

    I

    El

    EM

    En

    TE

    dE

    BA

    z

    n B

    IoIn

    fo

    rM

    AT

    IC

  • 24C

    apito

    lul

    25

    Cap

    itolu

    l

    Exerciiul 1.6.Analizai componentele de baz ale paginii centrale NCBI (www.ncbi.nlm.nih.

    gov) i resursele la care duc link-urile.

    Exerciiul 1.7.Efectuai analiza comparativ a numrului de nregistrri pentru oricare 5 specii

    model de studiu n raport cu specia Homo sapiens. Reprezentai grafic rezultatele obi-nute prin utilizarea programului Microsoft Excel sau unui alt program similar.

    Exerciiul 1.8.Analizai glosarul de termeni NCBI pentru a v familiariza cu terminologia utili-

    zat (http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=handbook&part=A1237).

    Exerciiul 1.9.Care sunt instrumentele de baz utilizate pe portalul NCBI? Care din ele pot fi folosite prin intermediul browserului i care pot fi instalate

    pe calculator? Dai o descriere scurt pentru fiecare din ele.

    Exerciiul 1.10.Analizai programul de nregistrare a secvenelor Sequin, folosind ghidul rapid

    (http://www.ncbi.nlm.nih.gov/projects/Sequin/QuickGuide/sequin.htm). Fii ateni la un set de termeni (modifier names) care au un sens i modalitate de completare strict i constant n majoritatea bazelor de date.

    Descriei etapele de baz de nregistrare a unei secvene n BD prin Sequin.

    1 1

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    IsT

    or

    IC

    I E

    lE

    ME

    nT

    E d

    E B

    Az

    n

    BIo

    Inf

    or

    MA

    TIC

    REFERINERevista tiinific Nucleic Acids Researchhttp://nar.oupjournals.org/http://nar.oxfordjournals.org/cgi/content/full/ 38/suppl_1/D1Virtual Libraryhttp://ceolas.org/VL/mo,http://www.nih.gov/science/models/; http://www.ornl.gov/TechResources/ Human_Genome/National Human Research Institute, NHGRIhttp://www.genome.gov/Department of Energy, DOEhttp://public.ornl.gov/hgmis/ExPASyhttp://www.expasy.org/GenBankhttp://ncbi.nlm.nih.gov/genbankEMBLwww.ebi.ac.uk/emblSwissProthttp://expasy.org/sprotPROSITEhttp://expasy.org/prositeRCSB-PDBwww.rcsb.org/pdb/home/home.doMouse Genome Informatics, MGIwww.informatics.jax.orgThe Glycan Structure Databasewww.glycosuite.comThe Lipid Banklipidbank.jpChemIDplus http://chem.sis.nlm.nih.gov/chemidplus/International ImmunoGenetics database, IMGThttp://imgt.cines.frREBASEhttp://rebase.neb.com

    Class, Architecture, Topology, Homologous super-family, CATHwww.cathdb.infoStructural Classification Of Proteins, SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/ National Center for Biotechnology Information, NCBIwww.ncbi.nlm.nih.gov/Structure/ PubMedwww.ncbi.nlm.nih.gov/PubMedWormBasewww.wormbase.orgTAIRwww.arabidopsis.orgDDBJwww.ddbj.nig.ac.jpOMIMwww.ncbi.nlm.nih.gov/OMIMFly Basehttp://flybase.orgHIVdatabaseswww.hiv.lanl.govMicroarray Gene expression databasewww.ebi.ac.uk/microarraySRShttp://srs.ebi.ac.ukPIRhttp://pir.georgetown.edu/pirwww/Staden Sequence Analysishttp://staden.sourceforge.netEMBOSShttp://emboss.sourceforge.net/docs/themes/ SequenceFormats.htmlhttp://emboss.sourceforge.netTbl2asn

  • 26C

    apito

    lul

    27

    Cap

    itolu

    l

    Capitolul 2. PRINCIPII DE CuTARE A SECvENELOR N BAZE DE DATE

    Organism-model BLAST scor numr de acces valoarea E procent de suprapunere identitate

    2.1. Modaliti de cutare a informaieiRealizarea cu succes a oricrui proiect de cercetare tiinific depinde de capa-

    citatea i deprinderile autorului de a cuta informaii n bazele de date, de a cunoate criteriile de selectare a rezultatelor obinute, analiza lor statistic i empiric, sinteza acestor date privind sistemele cunoscute i cele elaborate etc.

    Similar cererii de cutare a informaiei dup termini sau categorii prin utiliza-rea mainelor de cutare cunoscute (Yahoo, Google, AltaVista etc.) este esenial de a identifica cuvintele-cheie, astfel nct cutarea informaiilor n bazele de date s se sol-deze cu rezultatul dorit. n calitate de cuvnt-cheie poate servi orice informaie despre obiectul cutrii, precum denumirea completa sau abreviata a moleculei, denumirea speciei, funcia exercitat, esutul n care a fost determinat, autorii care au lucrat cu secvena, etc. Cu ct mai reuit sunt selectate cuvintele cheie, cu att mai specifice vor fi rezultatele cutrii, cu un numr de referine redus. Un alt criteriu important pentru a asigura succesul cutrii se rezum la cunoaterea exact i scrierea corect a denu-mirii secvenelor sau speciilor.

    Complexitatea rezultatelor extrase depinde i de gradul de specializare a bazei de date. O informaie multilateral poate fi obinut de pe portalul NCBI, prin cutarea n mai multe baze de date simultan (Fig. 2.1.).

    Figura 2.1. Pagin de referine a portalului NCBI

    NCBI, n cazul unei cereri de cutare generale, prezint rezultatele corespunz-toare cuvintelor-cheie i bazele de date unde au fost identificate. Urmtorul pas const n selectarea bazei de date necesare (PubMed, Entrez, EST, etc.) i analiza rezultatelor obinute, extrgnd din fiecare din ele informaiile de interes. Pot fi identificate cuvin-te-cheie noi pentru o cutare mai specific.

    Instrumentele plasate pe portal permit de a efectua cutarea i identificarea sec-venelor necunoscute. Aceasta se face n baza algoritmilor de aliniere, care, folosind principiile de omologie, pot da un rezultat de asemnare a secvenei cutate cu una sau mai multe secvene nregistrate n BD.

    Manipulrile cu secvenele de nucleotide sau aminoacizi n baza principiilor tran-scripiei i translaiei, contribuie la lrgirea i flexibilitatea cutrii. Metodele i instrumen-tele ce permit identificarea unor regiuni funcionale (diferite site-uri, ORF, regiunile in-tron-exonice, domene proteice etc.) sunt foarte utile n identificarea informaiei (Fig. 2.2.).

    Figura 2.2. Exemplul de identificare a regiunilor funcionale din secvene prin programul ORFFinder

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

  • 28C

    apito

    lul

    29

    Cap

    itolu

    l

    Dezvoltarea tehnicilor de modelare 3D a secvenelor proteice i perfectarea pro-gramelor de analiz a gelurilor electroforetice a facilitat cutarea informaiilor prin compararea imaginilor (Fig. 2.3.).

    Figura 2.3. Prezentare a unei structuri proteice 3D (Human erythrocyte catalase, P04040)

    i a unui profil de electroforez 2D

    Datorit faptului, c fiecare nregistrare n orice BD este unical i i se atribuie aa numitul numar (cod) de acces, care reprezint identificatorul secvenei/nregistrri, stocarea datelor este strict determinat i nu haotic. Totodat, informaia cutat poa-te fi lincat dup sensul su biologic cu alte nregistrri din aceeai sau alt BD. De ex. fiecare gen din BD al NCBI posed un numr de acces, care poate fi de forma NG_XXXX i este lincat semantic cu secvena ARNm, ce posed numrul de acces de forma NM_XXXX. Ambele numere de acces sunt lincate cu informaia privind pro-teina codificat prin numrul de acces de tipul NP_XXXX. Mai mult ca att, numrul de acces al secvenei genei are legtura cu cel al secvenei cromosomului (sau secvena ntreag a moleculei de ADN n cazul Procariotelor), care este de forma NC_XXXX. Astfel, cutarea anumitor date solicit o serie de operaii oferite de bazele de date.

    Un alt aspect al cutrii informaiilor este interconectarea bazelor de date ntre ele. Astfel, practic orice secven nregistrat face referina la autorii articolului n care a fost descris. Referinele la toate articole, abstractul i linkul, ctre baza de date extern unde acest articol este stocat, se afl n baza PubMed.

    n ultimii ani sunt elaborate standarde pentru crearea i completarea bazelor de date, ceea ce faciliteaz operarea ntre ele. Exist echipe de cercetare care analizeaz minuios secvenele nregistrate reducnd volumul de date prin eliminarea nregis-trrilor duplicate sau a celor dubioase, rearanjarea lor ntr-o form mai accesibil etc. Totodat, aceasta faciliteaz analiza explorativ a datelor pentru identificarea i valori-ficarea cunotinelor. Astfel, apar resurse, care devin n calitate de referin pentru alte tipuri de analize sau create dup un singur domeniu, precum Prostate Gene DataBase, Diatom EST database, Kidney Gene Database etc.

    Astzi, bazele de date reprezint un element esenial de informare i documen-tare a activitii oricrui laborator, ceea ce impune specialistul n domeniul biologiei contemporane sa-i dezvolte deprinderi de lucru cu ele.

    Dezvoltarea accelerat a tehnologiei de obinere a secvenelor i adnotarea lor a dus la completarea informaiilor despre o serie de genomuri a diferitor specii, care sunt uti-

    lizate n calitate de organismemodel n cercetarea mai multor procese i componente moleculare. Organismele-model sunt bine studiate, fapt determinat de o serie de ca-racteristici ale speciei, de ex., ritm de cretere i dezvoltare rapid, nu necesit condiii stringente de mediu, uor de analizat n cadrul laboratorului i posed un ir de avan-taje experimentale (tab. 2.1.).

    Tabelul 2.1. Lista organismelor model (http://www.ncbi.nlm.nih.gov/genomeprj)

    SPECIILE Cu GENOM SECvENIAT

    virusuri Fagul , X174, Virusul Mozaic al Tutunului (VMT)

    Prokariote Escherichia coli, Bacillus subtilis, Caulobacter crescentus

    Eukariote unicelulare

    Chlamydomonas reinhardtii, Saccharomyces cerevisiae, Dictyostelium discoideum

    Eukariote pluricelulare

    Aspergillus nidulans, Neurosporum crassa, Caenorhabditis elegans, Dro-sophila melanogaster, Ciona intestinalis, Arabidopsis thaliana, Zea mays, Medicago truncatula, Oryza sativa, Populus trichocarpa

    vertebrateDanio rerio, Takifugu rubsipes, Xenopus laevis, Cavia porcellus, Gallus gallus domesticus, Felis cattus, Canis lupus familiaris, Mus musculus, Ratus norvegicus, Rhesus macaque

    n funcie de scop i obiectivele cercetrii se apeleaz la baza de date a unui orga-nism model care poate fi inclus trivial n trei categorii (http://genome.wellcome.ac.uk/doc_WTD020803.html):

    model de studii genetice utilizate n cercetri genetice graie faptului c pot fi obinute n numr mare, ntruct au o perioada scurt a unei generaii, pot fi urm-rite pe parcursul mai multor generaii. Mutanii acestora dup diverse caractere sunt accesibili n baza de date si pot fi analizai. Astfel de exemple includ: drojdia (Saccha-romyces cerevisiae), musculia de oet (Drosophila melanogaster), viermele nematod Caenorhabditis elegans.

    model de studii experimentale au o perioad lung a unei generaii i nivel mic de acoperire n cartarea genetic ceea ce le dezavantajeaz ca modele de studii genetice, ns prezint unele faciliti n observaiile experimentale. De ex., embrionii de gina i broasca african Xenopus laevis sunt uor de studiat i de manipulat spre deosebire de organismele mature.

    model de studii genomice unele specii sunt selectate n calitate de organisme model, indiferent de avantajele sau dezavantajele din punct de vedere al analizelor ex-perimentale sau genetice. Acestea au o poziie evolutiv important sau posed unele caracteristici ale genomului, ideale pentru studii. Un exemplu este petele Fugu rubri-pes, care posed o serie de gene similare celor umane, ns un genom cu mult mai mic 4x108 pb comparativ cu cel uman de 3x109 pb caracteristic prin mult ADN repetitiv, segmente intergenice i introni mai lungi.

    Informaii privind organismele model pot fi extrase din bazele de date generale, portalul NCBI sau de pe site-urile specializate ale proiectelor genomice (tab. 2.2.).

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

  • 30C

    apito

    lul

    31

    Cap

    itolu

    l

    Tabelul 2.2. Resurse WEB privind genomul unor organisme (David W. Mount. Bioinformatics. Sequence and genome analysis.

    Cold Spring Harbor, New York, 2004, 665 p.)

    PROIECTE PRIvIND GENOMuL LA:

    ADRESE WEB

    Homo sapienswww.ornl.gov/sci/techresurces/Human_Genome/home.shtml http://www.genome.uscs.edu/goldenPath/hgTracks.htmlhttp://www.genome.gov/

    Mus musculus http://www.informatics.jax.org/

    Drosophila melanogaster www.ybase.org

    Caenorhabditis elegans http://www.wormbase.org/

    Genomul diferitor parazii http://www.ebi.ac.uk/parasites/parasite-genome.html

    Escherichia coli http://www.genome.wisc.edu/

    Arabidopsis thaliana http://www.arabidopsis.org/

    Oryza sativa http://www.rgp.dna.affrc.go.jp/

    Genomul diverselor cereale http://www.gramene.org/

    Saccharomyces cerevisiae http://yeastgenome.org

    Alte proiecte genomice

    http://www.cshl.org/; http://www.ensembl.org/; http://molbio.info.nih.gov /db.html; http://www.ncbi.nlm.nih.gov/; http://genome-www.stanford.edu/http://www.tigr.org/; http://www.sanger.ac.uk/; http://www.jgi.doe.gov/;http://genome.wustl.edu/; www.broadinstitute.org

    2.2. Aspecte privind analiza bioinformatic a secvenelor de interes Existena unui numr mare de resurse informaionale permite efectuarea dife-

    ritor analize bioinformatice fundamentale, incluznd o serie de etape i strategii con-form obiectivelor i design-ul experimental propus de cercettor (Fig. 2.4.).

    Odat ce s-a identificat secvena cu care se va efectua cercetarea bioinformatic, urmeaz studierea acesteia prin analiza comparativ prin resursele de secvene a spe-ciilor de interes sau a celor model (Fig. 2.5, 1), necesar pentru a identifica prezena consecutivitii de nucleotide, care se repet n cadrul acestui fragment (Fig. 2.5, 2). Acestea pot corespunde regiunilor centromere, telomere sau repetri de tandemuri (satelii, minisatelii sau microsatelii).

    Urmtoarea activitate ar fi legat de depistarea genei, utiliznd un complex de metode care prin comparare direct sau indirect cu secvenele cunoscute ofer informaii despre aspectele funcionale ale acestui fragment (Fig. 2.5, 3). Studierea genelor la organismele procariote este cu mult mai simpl, deoarece acestea nu posed introni. Odat ce s-au determinat caracteristicele fragmentului pentru un organism

    procariot anumit (frecvena codonilor, frecvena codonilor vecini) este posibil de a prognoza localizarea fragmentului.

    Unul din criteriile de poziionare corect a fragmentului cercetat n genele eucariotelor este determinat de prezena intronilor.

    Figura 2.4. Prezentare schematic a conexiunilor n analiza secvenei de interes prin compararea informaiei privind organismele model i resursele de secvene

    n dependen de secvena precutat este necesar de a identifica metodologia corespunztoare (Fig. 2.5, 4). Astfel, secvenele de ADNc sau EST (Fig. 2.5, 5) pot fi studiate prin microarray (Fig. 2.5, 7) n baza informaiilor cunoscute despre genom att pentru specia de interes, ct i pentru speciile model nrudite sau distanate filogenetic (Fig. 2.5, 6). Prezena unor astfel de secvene atest faptul c fragmentul precutat face parte din ADN ce se expreseaz. Analiza expresiei prin microarray ofer o imagine global despre expresia genelor la diferite etape a ciclului celular sau a ontogenezei i poate caracteriza secvenele implicate n aceeai cale de semnalizare sau cicluri metabolice.

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

    SECVENE ADN DE INTERES

    RESURSE I INSTRUMENTE BIOINFORMATICE

    CI DE SEMNALIZARE, REELE DE GENE

    Structur i funcie, model proteic

    Genomica funcional

    Secvene repetitive

    Genomicastructural

    Genomicacomparativ

    ClusterizareAnaliz

    filogenetic

    Structuri ortoloage /paraloage

    Localizare n genom

    MicroarraySecveniere

    ElectroforezCromatografieSpectrometriede mas etc.

    Forme mutantePromotori

    Factori de tran-scripie

    Domene

    ADNARNEST

    ProteineMetabolii

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

  • 32C

    apito

    lul

    33

    Cap

    itolu

    l

    Figura 2.5. Strategia general complex de explorare a resurselor informaionale (David W. Mount. Bioinformatic. Sequence and genome analysis. Cold Spring Harbor, New York, 2004, 665 p.)

    Totodat, se studiaz secvenele reglatoare, precum promotorii, pentru fragmentul dat (Fig. 2.5, 8), se identific factorilor de transcripie asociate cu funcionarea regiunii date.

    Dup ce s-a efectuat analiza comparativ la nivelul ADN, urmeaz determinarea funciei acestei regiuni, prin identificarea funciei ei n cadrul metabolismului (Fig. 2.5, 9), prin cercetarea proteomului (Fig. 2.5, 10, 11) sau n baza principiilor genomicii funcionale (Fig. 2.5, 12). Utilizarea metodelor biochimice sau imunologice ofer cazurile de modificare a nivelului de proteine specifice ca rspuns la influena mediului. Comparativ cu metoda microarray, electroforeza bidimensional a profilului proteic detecteaz multitudinea de produse translate. Studierea mai profund a lor presupune combinarea clivrii proteolitice cu secvenierea aminoacizilor i studiile prin mass

    spectroscopie sau HPLC. Genomica funcional, bazat pe obinerea mutanilor pentru genele particulare permite testarea funciilor secvenei respective, prin observarea expresiei sau funciei proteinelor codificate de ele.

    n rezultat, se cerceteaz paralogia i ortologia secvenei de interes (Fig. 2.5, 15-17, 18-19), prin contrapunerea structurii i funciei acesteia. Analizele respective n bazele de date pentru ADN i proteine in de cutarea domenelor sau motivelor funcionale i structurale similare la alte nregistrri.

    n cazul cnd nivelul de informare despre genele i genomul speciei cercetate este suficient pentru a identifica locul genei sau secvena pe harta genetic (Fig. 2.5, 13-14), poate fi fcut analiza funcional ntre genele nrudite (Fig. 2.5, 20), iar acestea pot fi urmate de analize filogenetice.

    Strategia de cercetare a genelor, a grupurilor de gene sau integral al genomului difer n funcie de informaiile existente la moment, de accesibilitatea informaiei i de competenele cercettorului. Succesul unor astfel de cercetri este asigurat doar de o bun colaborare ntre diferite laboratoare tiinifice n scopul completrii reciproce, evitrii erorilor posibile i coordonrii cercetrilor la nivel global. Instrumentele bio-informatice i analizele in silico pot facilita realizarea proiectelor reducnd semnifi-cativ costul unor importante resurse umane i financiare, ns rezultatul tiinific este unul ipotetic i devine real doar dac este demonstrat experimental.

    2.3. Analiza BLASTAnaliza BLAST (Basic Local Alignment Search Tool) este considerat de facto

    un standard n procedura de cutare i aliniere. Bazat pe un algoritm extrem de avan-sat a devenit foarte popular datorit disponibilitii, vitezei i preciziei de analiz. O cerere BLAST identific secvenele omoloage prin cutarea n mai multe baze de date i suport diferite configuraii de platform ale calculatorului. Acest algoritm poate fi utilizat i pentru bazele proprii de date. Instalarea programului este disponibil de pe adresa www.ncbi.nlm.nih.gov/BLAST/download.shtml.

    Analiza BLAST este aplicat pentru: identificarea regiunii/genomului/speciei care conin secvenele de ADN i

    proteice necunoscute, luate n studiu; identificarea prezenei unor domene cunoscute n structura secvenelor anali-

    zate; presupunerea utilizrii secvenelor pentru o analiz filogenetic; analiza succesiunii unei gene de la o specie cunoscut pentru a identifica po-

    ziia ei pe cromozom; adnotarea secvenelor.BLAST identific secvenele omoloage pe baza similaritii unor fragmente scur-

    te la solicitarea utilizatorului, prezentnd rezultatele sub forma unui raport al secven-elor omoloage gsite i alinierile locale cu secvenele cercetate. Totui BLAST nu ofer o aliniere cu o valoare optimal ceea ce duce la omiterea unor rezultate. Pentru a mri preciza de analiz poate fi utilizat un alt algoritm - Smith-Waterman.

    Secvene repetitive4

    Analiza microarray7

    Genomicacomparativ18

    Analiza promotorilor8

    Genomica funcional12

    Familii de parologi16

    Analiza familiilor sau domenelor pro-

    teice17Identificarea clusterilor de

    gene funcional nrudite20

    Identificarea ortologilor19

    Secvenele EST i ADNc5

    Proteoliza i secvenierea frag-

    mentelor11

    Reglarea i cile meta-

    bolice9

    Auto compararea proteomului15

    Ajustarea me-todelor, dac e

    necesar4

    Electroforeza 2D a proteine-

    lor4

    Secvena ADN1

    Prezicerea genelor3

    Informaii despre genom6

    Localizarea genelor3

    Harta genelor14

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

  • 34C

    apito

    lul

    35

    Cap

    itolu

    l

    n calitate de secvene de intrare pot fi secvene de ADN, ARN sau proteine, care pot fi comparate cu tipul similar de secvene sau ntre diferite tipuri, care se iau din bazele de date respective. n dependen de scopul investigaiei pot fi uti-lizate diferite forme ale programului BLAST: blastn, blastp, blastx, blastn, tblastx (tab. 2.3.).

    Tabelul 2.3. variante de analiz BLAST i modalitile de lucru

    ANALIZA BLAST SECvENA ANALIZAT

    BAZA DE DATE MOD DE COMPARAIE

    blastn nucleotide nucleotide Nucleotida nucleotidablastp proteine proteine Protein proteinblastx proteine nucleotide Protein protein translatblastn nucleotide proteine Protein translat proteintblastx nucleotide nucleotide Protein translat protein translat

    Cele mai frecvent utilizate sunt blastn pentru compararea secvenelor nucleo-tidice i blastp n cazul secvenelor aminoacide. Rezultatele comparrii nucleotide aminoacizi pot fi mbuntite dac secvena nucleotidic niial se convertete n cea aminoacidic, dup care urmeaz analiza de tipul blastp. Un alt avantaj este i faptul c se poate presupune proteina cu o anumit secven de aminoacizi reieind din suc-cesiunea nucleotidic a genei secveniate.

    Indiferent de tipul BLAST aplicat, prezentarea rezultatelor are un aspect grafic similar o fereastr din trei panouri orizontale (Fig. 2.6.):

    primul panou Graphic Summary, din partea de sus a ferestrei reprezint o imagine grafic a suprapunerii secvenelor n regiunile cu cea mai mare grad de simi-laritate. Secvenele sunt reprezentate prin diferite culori, n dependen de gradul de asemnare. De exemplu, culoarea neagr indic un scor de similaritate mai mic de 40, iar cea roz un scor maximal mai mare de 200.

    panoul Description este prezentat sub forma unui tabel cu rezultate structu-rate conform urmtoarelor categorii: numrul de acces (Accession), descrierea (De-scription), scorul maximal al alinierii (Max. score), scorul total (Total score), procen-tul de suprapunere a secvenelor aliniate (Query coverage), valoarea coeficientului E (E value), procentul de identitate (Max. ident.) i link-ul ctre baza de date cu referin la secvena indicat (Links). Dac primele dou coloane sunt descriptive, urmtoarele reprezint criterii calculate i cele statistice care pot fi aplicate pentru selectarea rezul-tatelor.

    al treilea panou Alignments indic numrul de acces, succesiunea nucle-otidic a secvenei, dimensiune, scorul n bii, numrul i procentul de identitate, numrul de lacune, orientarea catenelor suprapuse, regiunile de suprapunere a sec-venelor.

    Figura 2.6. Aspect grafic al ferestrei de prezentare a rezultatelor analizei BLAST

    Citirea rezultatelor poate fi fcut prin interpretarea uneia dintre valorile indicate n tabel, precum scorul sau procentul de similaritate. Este important de a nelege semnifi-caia valorii E, care poate fi modificat pentru a spori gradul de rezoluie a rezultatelor. O valoare E mai mic indic rezultate mai bune. Acest indice exprim numrul de scoruri ale alinierii locale dintre secvena cercetat i cele aliatorii sau nenrudite. Valoarea E depinde de lungimea secvenei, numrul de secvene n baza de date i tipul sistemului de calculare a scorului i se calculeaz prin distribuia probabilitilor pentru valorile extreme, corec-tate pentru numrul de secvene din baza de date. n evaluarea alinierii locale dintre dou secvene, o secven poate fi analizat de mai multe ori, iar apoi realiniat cu o alt secven- pentru a determina limitele scorurilor ateptate dintre secvenele nenrudite.

    Secvenele scurte pot avea o valoare E nalt, fapt pentru care se consider un re-zultat fals positiv, de exemplu, n cazul unui primer sau unei regiuni scurte de domen etc. Diferite valori ale indicelui E n analiza BLAST indica:

    E < 10e-100 secvene identice pe un segment lung de aliniere;10e-50 < E < 10e-100 secvene aproape identice; fragmente lungi ale secvenei

    cercetate sunt identice cu secvenele din bazele de date;10e-10 < E < 10e-50 secvene asemntoare, ar putea fi o coinciden sau domeniu similar.E > 1 secvenele nu au nimic comun.E >10 micele coincidene pot fi rezultatul unor erori de determinare sau de

    citire a secvenei.

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

  • 36C

    apito

    lul

    37

    Cap

    itolu

    l

    BLAST pune la dispoziie si alte aplicaii de ex.: Primer-BLAST pentru disign-ul secvenelor primer specifici (http://www.

    ncbi.nlm.nih.gov/tools/primer-blast/); Cutarea arhivelor de secvene urme (Trace Archives) http://

    b las t .ncbi .n lm.ni h .gov/Blas t . cg i ?PRO GRAM=blast n&BL AST_SPEC=TraceArchive&BLAST_PRO GRAMS=megaBlast&PAGE_TYPE=BlastSearch);

    Identificarea domenelor conservate (cds) n secvenele de interes (http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)

    Identificarea secvenelor cu arhitectura domenelor conservate (cdart) similare (http://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rps)

    Cutarea secvenelor cu profiluri de expresie a genelor (Gene Expression Profiles, GEO) (http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_S P E C = G e o B l a s t & B L A S T _ P R O G R A M S = m e g a B l a s t & P A G E _TYPE=BlastSearch)

    Cutarea imunoglobulinelor (IgBLAST) (http://www.ncbi.nlm.nih.gov/igblast/) Cutarea SNP-urilor (snp) (http://www.ncbi.nlm.nih.gov/SNP/snp_blastBy-

    Org.cgi) Scanarea secvenelor pentru a determina contaminarea cu vectori (vecscreen)

    (http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html) Cutarea bibliotecilor de transcripi (http://blast.ncbi.nlm.nih.gov/Blast.

    cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&BLAST_SPEC=SRA)

    Instrumentul de aliniere multipl Constraint Based Protein Multiple Align-ment Tool (COBALT) (http://www.ncbi.nlm.nih.gov/tools/cobalt/cobalt.cgi?link_loc=BlastHomeLink)

    Actualmente sunt elaborate i alte programe / subprograme care faciliteaz inter-pretarea i completeaz rezultatele analizei BLAST. De ex., instrumentul BLAT, care se consider mai exact i de cca. 500 ori mai rapid dect alte instrumente de aliniere a secvenelor ARNm/ADN i de cca. 50 ori mai rapid n alinierea proteinelor secvenelor vertebratelor.

    EXERCIII DE CONSOLIDARE A MATERIALuLuIExerciiul 2.1.

    Folosind secvena propus n Exerciiul 1.1 ncercai s realizai o scanare n ba-zele de date propuse n tab. 2.12. Determinai specia care conine secvena analizat. Ce codific secvena dat? Ce rezultate ai obinut? Cu care secven nucleotidic este similar secvena dat? Care este proteina codificata de secvena dat?

    Exerciiul 2.2.Efectuai analiza BLAST (blastn) a acelorai secvene. Comparai rezultatul din

    Exerciiul 2.1 cu cel obinut. Analizai graficul rezultatelor. Cte rezultate ai obinut? Care este lungimea

    secvenei de aliniere pentru cel mai bun rezultat de asemnare din grafic? Care este procentul de acoperire pentru cel mai bun rezultat? Care este valoarea E? La care baze de date se face referina n coloana Links? Cte specii conin secvenele care au de-monstrat similaritate cu secvena de interes?

    Exerciiul 2.3.Analizai tabelul cu rezultate obinut. Observai c rezultatele sunt grupate n

    dou categorii (Transcripi i Secvene genomice). Ce reprezint setul de rezultate pen-tru fiecare din categorii i care secvene sunt prezentate n ele?

    Indicai parametrii ce demonstreaz asemnarea secvenei de interes cu primul rezultat din fiecare categorie inclusiv valorile lor?

    Explicai de ce rezultatul pentru prima secven de asemnare din categoria Transcripi este mai optimal, dac secvena a doua i a treia se caracterizeaz printr-un procent de similaritate mai nalt?

    Analizai ultima secven din categoria Transcripi cu caracteristici mai joase de asemnare, procentul de acoperire de 5% i procentul de identitate 92%. Explicai ca-uza similaritii identificate pentru cele dou secvene? Explornd paginile respective, argumentai rspunsul.

    Exerciiul 2.4.Care este numrul de acces din GeneID pentru primul rezultat din categoria

    Transcripi? Ce descrie pagina respectiv? Realizai o descriere complex a secvenei date dup parametrii indicai: sim-

    bolul i denumirea oficial a secvenei, bazele de date de referin (See related), regi-unea genomic, transcripii, localizarea n genom, numrul de referine bibliografice, numrul de markeri pentru secvena dat, la care fenotip a fost descris, numrul de SNP-uri asociate cu secvena dat, speciile la care aceasta este omoloag, cile meta-bolice n care a fost descris, funciile i procesele n care particip, codurile de acces pentru regiunea genomic, secvena ARNm i produsul codificat.

    Exerciiul 2.5.Efectuai o analiz BLAST pentru a identifica secvene proteice similare cu sec-

    vena de interes. Ce variant BLAST o s aplicai? Care proteine corespund secvenei nucleotidice? Explicai diferena ntre acestea.

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E2

  • 38C

    apito

    lul

    39

    Cap

    itolu

    l

    Analizai tabelul de rezultate. Determinai numrul de specii pentru care au fost gsite similariti. Selectai referina pentru precursorul proinsulinic uman. Notai num-rul ei de acces. Care este lungimea proteinei identificate? Comparai cu secvena iniial nucleotidic i descriei ce diferene ai observat. Explicai de ce ele sunt prezente.

    Exerciiul 2.6.Aplicnd cunotinele din Biochimie i Genomic despre structura genei i pro-

    teinei pentru secvena de interes, explicai divergenele prezente cu rezultatele obinu-te. Analizai structura secvenei codificatoare (CDS).

    Exerciiul 2.7.Utiliznd secvena proteic obinut, aplicai BLAST pentru a identifica prote-

    inele similare. Odat cu activarea BLAST o s observai apariia unei scheme supli-mentare care ofer descrierea unui domen conservat. Crei familii de domene aparine domenul din secvena analizat? Comparai vizual structurile de domen rezultate prin plasarea cursorului peste ele. n tabelul aprut mai jos, selectai rndul ce corespunde domenului indicat n schem ca Specific hits i extragei structura acestui. Prin ce di-fer acesta de domenul identificat n secvena de interes?

    Exerciiul 2.8.n baza secvenei de ADN propuse si n baza secvenei de protein efectuai ana-

    lize aplicnd alte variante de BLAST. Analizai rezultatele din punctul de vedere al ase-mnrii acestora la nivel nucleotidic i la cel aminoacidic. Explicai de ce rezultatele si-milaritailor la nivel de ADN (ARN) nu sunt la fel ca i cele de la nivelul de protein.

    Exerciiul 2.9.n baza secvenei analizate elaborai o serie de primeri. Care aplicaie vei folosi?

    n baza cunotinelor obinute la cursul de Genomic, observai care parametrii de baz pentru elaborarea primerilor sunt utilizai? Explicai de ce.

    Descriei rezultatele, identificnd perechea de primeri din care rezult cel mai mare i cel mai mic amplicon. ncercai s modificai parametii indicai.

    Exerciiul 2.10. Accesai baza de date a secvenelor EST. Identificai o specie de interes i extragei

    o secven cu lungimea de cca. 100-150 nt. Cu ajutorul schemei din Fig. 2.5. realizai o investigare a secvenei selectate. Pe parcurs, observai care din acestea au fost posibil de realizat i care nu. n cazul n care n schem se face referin la careva metod de laborator utilizai bazele de date, care deja conin rezultate obinute prin aplicarea me-todelor respective, de ex. rezultatele aplicrii metodei microarray sunt stocate n baza de date GEO de pe portalul NCBI.

    Alctuii un tabel cu etapele de lucru i completai n el coloanele ce corespund bazelor de date sau instrumentelor utilizate.

    Rezultatele le prezentai n forma electronic sub form de raport cu trei com-partimente: descrierea secvenei selectate pentru analiz n baza rezultatelor obinute, schema etapelor de lucru i tabelul cu bazele de date i instrumentele utilizate.

    REFERINEDavid W. Mount. Bioinformatics. Sequence and genome analysis. Cold Spring Harbor, New York,2004, 665 p.

    BLASTwww.ncbi.nlm.nih.gov/BLAST/download.shtmlPrimer-BLAST (http://www.ncbi.nlm.nih.gov/tools/primer-blast/Trace Archiveshttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_SPEC=TraceArchive&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearchCDShttp://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgiCDARThttp://www.ncbi.nlm.nih.gov/Structure/lexington/lexington.cgi?cmd=rpsGEOhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_SPEC=GeoBlast&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearchIgBLASThttp://www.ncbi.nlm.nih.gov/igblast/SNPhttp://www.ncbi.nlm.nih.gov/SNP/snp_blastByOrg.cgiVecscreenhttp://www.ncbi.nlm.nih.gov/VecScreen/VecScre-en.htmlSRAhttp://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&BLAST_SPEC=SRA

    Constraint Based Protein Multiple Alignment Tool, COBALThttp://www.ncbi.nlm.nih.gov/tools/cobalt/cobalt.cgi?link_loc=BlastHomeLinkAltelehttp://genome.wellcome.ac.uk/doc_WTD020803.htmlwww.ornl.gov/sci/techresurces/Human_Genome/home.shtml http://www.genome.uscs.edu/goldenPath/hgTracks.htmlhttp://www.genome.gov/http://www.informatics.jax.org/www.flybase.org http://www.wormbase.org/http://www.ebi.ac.uk/parasites/parasite-genome.htmlhttp://www.genome.wisc.edu/http://www.arabidopsis.org/http://www.rgp.dna.affrc.go.jp/http://www.gramene.org/http://yeastgenome.orghttp://www.cshl.org/;http://www.ensembl.org/; http://molbio.info.nih.gov /db.html;http://www.ncbi.nlm.nih.gov/;http://genome-www.stanford.edu/http://www.tigr.org/; http://www.sanger.ac.uk/;http://www.jgi.doe.gov/;http://genome.wustl.edu/; www.broadinstitute.org

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-

    E

    lo

    r

    n B

    Az

    El

    E d

    E d

    AT

    E

    Pr

    InC

    IPII

    dE

    C

    UTA

    rE

    A s

    EC

    vE

    n-