Statistica - Proiect Corelatie si Regresie

download Statistica - Proiect Corelatie si Regresie

of 14

Transcript of Statistica - Proiect Corelatie si Regresie

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    1/14

    Universitatea BucuretiFacultatea de tiine Politice

    1

    DUMITRESCU CLAUDIU-MIHAI

    SPR II A

    An universitar 2013-2014

    Curs: Management si Marketing Politic

    Profesor confereniar doctor: Gabriel Sebe

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    2/14

    Universitatea BucuretiFacultatea de tiine Politice

    2

    uprins

    Introducere 3

    Capitolul 1. Studiu Teoreticconcepte i principii ........................................ 4

    Capitolul 2. Studiul practicCorelaia i regresia ...................................... 5

    Capitolul 3. Interpretarea rezultatelor ............................................................ 9

    Bibliografie 11

    Anexe .. 12

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    3/14

    Universitatea BucuretiFacultatea de tiine Politice

    3

    Introducere

    Am ales aceast tem deoarece, n contexul evoluiei tehnologice, domeniul comercial i-

    a dezvoltat ramura de vnzare prin intermediul Internetului n mod evident, i am considerat c

    un studiu asupra gradului de utilizare al acestei funcii de ctre cetenii Uniunii Europene pentru

    o period din trecutar avea rezultate interesante.

    n Romnia exist 12 milioane de utilizatori de internet, iar piaa serviciilor de tip e-

    commerce nregistreaz o expansiune continu. Din ce n ce mai muli oameni ncep s

    foloseasc internetul, iar spaiul virtual devine o pia mai mare i mai interesant pentru

    desfacerea produselor/serviciilor.

    Proiectul i propune s calculeze msurile tendinei centrale, a variabilitii i poziieiurmtoarelor variabile:

    Y: procente(%) din totalul de indivizi, cu vrsta cuprins ntre 16 i 74 de ani, care au e vitat

    folosirea sistemului e-commerce din motive de securitate;

    X1: procente(%) din totalul de indivizi, cu vrsta cuprins ntre 16 i 74 de ani, care au folosit

    internetul n ultimile trei luni;

    X2: procente(%) din totalul de utilizatori de internet, cu vrsta cuprins ntre 16 i 74 de ani, care

    i-au fcut copii de siguran1;

    Variabila Y este variabila dependent a studiului, variabilele X1 i X2 fiind variabilele

    independente. Studiul i propune i s calculeze i s interpreteze valorile coeficienilor de

    corelaie i regresie, ct i s reprezinte grafic relaiile dintre ele.

    Studiul pleac de la urmtoarele ipoteze:

    H1: Cu ct procentul de utilizatori de internet este mai mare, cu att procentul de indivizi care au

    evitat folosirea sistemului e-commerce din motive de securitate este mai mare.

    H2: Cu ct procentul de utilizatori de internet care i-au fcut copii de siguran este mai mare,

    cu att procentul de indivizi care au evitat folosirea sistemului e-commerce din motive de

    securitate este mai mare.

    Datele au fost colectate prin sondaje de opinie ntre anii 2006 i 2007 i preluate din

    comunicatul oferit de Eurostat, la 8 februarie 2008, ce atrgea atenia asupra faptului: ,,o

    1Eurostat, One person in eight in the EU27 avoids e-shopping because of security concerns, p. 2.

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    4/14

    Universitatea BucuretiFacultatea de tiine Politice

    4

    persoan din opt n EU27 evit e-commerce-ul din motive de securitate. Acesta este efectul

    asupra cruia studiul prezent i concentrez atenia, ncercnd s identifice cauze ale acestui

    fenomen, cu date din tabelul oferit n comunicat i ataat la Anexa 1. Cauzele sunt numite

    variabile independente i notate cu X1 i X2.

    Acest subiect a devenit relevant pentru societatea actual pe fondul globalizrii i

    informatizrii sistemului economic. Dei mult mai facil, sistemul de plat electronic al

    cumprturilor (e-commerce), este interesant de studiat impactul acestuia asupra societii i

    gradul de utilizare al acestuia.

    Capitolul I: Studiul teoretic al corelaiei i regresiei

    Conceptele i principiile utilizate de studiul prezent vor fi definite n acest capitol,

    conform noiunilor prezentate n cadrul cursurilor din acest semestru.

    Pe baza obiectivelor enunate mai sus, proiectul i propune s explice att teoretic, ct i

    practic rezultatele obinute. Microsoft Excel 2010 este programul folosit pentru calcularea

    msurilor i coeficienilor, dar i pentru realizarea graficelor anexate.

    Variabila dependent i variabila independent. Variabilele independente sunt cele

    manipulate, n timp ce variabilele dependente sunt doar masurate i nregistrate

    Corelaia liniar.Msoar puterea unei relaii liniare ntre douvariabile: corelaia cuantific

    msura n care douvariabile (continui), X and Y, ,,merg mpreun."2

    Coeficientul de corelaiereprezinto ,,msurde asociere i msoar ,,gradul de

    mprtiere al valorilor dependente n jurul liniei de regresie. Dac coeficientul de corelaie r

    este pozitiv, atunci avem o corelaie pozitiv (x crete, y crete), invers, pentru unul negativ, o

    corelaie negativ (x crete, y scade).

    Analiza de regresieare ca scop ,,satisfacerea unor cerine de investigare cantitativ a

    ,,relaiilor asimetrice; ,,o relaie este liniar dac pentru creterea cu o unitate a variabilei

    independente se nregistreaz o cretere(descretere) cu un numr constant de uniti pe variabila

    dependent3

    2Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 4. Corelaia liniar,p. 1.3Camelia VOINEA, Curs introductiv Statistic iProbabiliti. Capitolul 5.Regresia liniar,p. 1.

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    5/14

    Universitatea BucuretiFacultatea de tiine Politice

    5

    Capitolul II - Studiul practicCorelaia i regresia

    Msurile tendinei centrale, variabilitii i poziiei reprezint o analiz descriptiv a

    datelor. Pentru realizarea obiectivelor studiului, au fost luate din tabelul de la Anexa 1 valorile

    pentru cele trei variabile investigate: Y, X1, X2. Valorile reprezint procente, pentru fiecare

    variabil. n total studiul conine 27 de ri, membre ale Uniunii Europene (n=27).

    Nr. Crt. ar X1 Y X2

    1 Belgia 67 12 20

    2 Bulgaria 31 3 26

    3 Cehia 49 3 32

    4 Danemarca 81 10 17

    5 Germania 72 14 25

    6 Estonia 64 12 14

    7 Irlanda 57 3 27

    8 Grecia 33 14 43

    9 Spania 52 27 18

    10 Franta 64 15 35

    11 Italia 38 9 20

    12 Cipru 38 20 32

    13 Letonia 55 3 18

    14 Lituania 49 7 17

    15 Luxemburg 78 13 26

    16 Ungaria 52 15 19

    17 Malta 45 :4 34

    18 Olanda 84 14 25

    19 Austria 67 8 23

    20 Polonia 44 4 13

    21 Portugalia 40 13 17

    22 Romania 24 1 28

    23 Slovenia 53 19 2324 Slovacia 56 8 22

    25 Finlanda 79 26 19

    26 Suedia 80 7 15

    27 United Kingdom 72 9 20

    Tabel 1. Baza de date

    4Valoare indisponibil n baza de date.

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    6/14

    Universitatea BucuretiFacultatea de tiine Politice

    6

    Mediaeste,,acea valoare care se obine mprind suma valorilor tuturor indivizilor din

    populaie la numrul acestora5 i are formula:

    n

    i

    i

    n

    i

    i

    xnn

    x

    x

    1

    1 1

    .,,Presupunnd c cei n

    indivizi din populaie sunt aezai n ordine cresctoare sau descresctoarea valorilor pe care le

    iau, atunci individul care se gsete la mijlocul acestui ir, adic are n stnga sa tot attea uniti

    statistice cte i n dreapta lui, se numete individ median6, astfel, mediana este valoarea luat

    de individual/obiectul din mijloc. Modul este ,,valoarea luat cu cea mai mare frecven7.

    Domeniul este ,,diferena ntre cea mai mare i cea mai mica valoare8. Abaterea standardeste

    ,,forma particular a abaterii medii ptratice9. Formula este:n

    xx

    n

    i

    i

    2

    1

    2)(

    . Variana

    reprezint abaterea medie ptraticde la media grupului, n cadrul grupului respectiv10. Se poate

    obine radicnd la ptrat abaterea standard. Formula este:n

    xx

    n

    i

    i

    2

    1

    2)(

    . Rezumatul n 5-

    puncte al unei distribuiieste: ,,Q0 = Minimum, Q1 = Primul sfert, Q2 = Mediana, Q3 = Sfertul de

    varf, Q4 = Maximum, unde sferturile sunt ,,valori ale variabilei care mparte setul ordonat de

    date n quartile; primul sfert, Q1, ,,este un numar astfel nct cel mult 25% din date sunt mai

    mici n valoare dect Q1 i cel mult 75% sunt mai mari; al treilea sfert, Q3, ,,este un numrastfel nct cel mult 75% din date sunt mai mici n valoare decat Q3 i cel mult 25% sunt mai

    mari11.

    Rezumatul in 5 puncte X1 Y X2

    Q0=Minimum 24 1 13

    Q1=Primul sfert 44,5 7 18

    Q2=Mediana 55 11 22

    Q3=Sfertul de varf 69,5 14 26,5

    Q4=Maximum 84 27 43

    5 Traian ROTARIU (coord.), Gabriel BDESCU, Irina CULIC, Elemer MEZEI, Cornelia MUREAN, Cornelia,Metode Statistice Aplicate n tiinele Sociale , p. 43.6Idem, p. 46.7Idem, p. 48.8Idem, p. 50.9Idem, p. 54.10Idem, p. 57.11 Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitopul 3. Msuri ale tendinei centrale,

    variabilitii i poziiei, p. 3.

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    7/14

    Universitatea BucuretiFacultatea de tiine Politice

    7

    Tabelul 2. Msuri ale poziiei

    Pentru a vedea dac variabila ,,este normal distribuit, se verific dac ,,68% din valori

    se afl n liminta a 1 abatere standard de la medie(cu limitele ntre x ), ,,95% din valori se

    afl n liminta a 2 abatere standard de la medie(cu limitele ntre x 2), ,,99,9% din valori se

    afl n liminta a 3 abatere standard de la medie(cu limitele ntre x 3)12.

    X1 Y X2

    Media: 56,44 11,115 23,26

    Mediana: 55 11 22

    Modul: 67 3 20

    Domeniul: 60 26 30

    Abaterea Standard: 16,83 6,8078 7,22

    Varianta: 283,2 46,346 52,121 abatere standard de la medie

    (x - ) 39,62 4,3076 16,04

    (x +) 73,27 17,923 30,482 abateri standard de la medie

    (x - 2) 22,79 -2,5 8,82(x + 2) 90,1 24,731 37,73 abateri standard de la medie

    (x -3) 5,961 -9,308 1,6(x + 3) 106,9 31,539 44,92

    Tabel 3. Msuri ale tendinei centrale i ale variabilitii.

    Coeficientul de corelaie reprezint o ,,msur de asociere13 i msoar ,,gradul de

    mprtiere al valorilor dependente n jurul liniei de regresie14. Dac coeficientul de corelaie r

    estepozitiv, atunci avem o corelaie pozitiv (x crete, y crete), invers, pentru unul negativ, o

    corelaie negativ (x crete, y scade). Proprieti ale coeficientului de corelaie sunt:,,variazntre

    -1 i 1; cu ct asocierea dintre cele dintre cele dou variabile este mai puternic, valoarea sa

    absolut este mai apropiat de (+1) sau de (-1)15. Coeficientul de corelaie este ()

    .

    Covariana este ( ) ()()

    .

    12Idem, p.3.13Dumitru SANDU, Statistic n tiine Sociale,p. 14.14Idem, p. 22.15Idem, p. 23.

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    8/14

    Universitatea BucuretiFacultatea de tiine Politice

    8

    Analiza de regresie are ca scop ,,satisfacerea unor cerine de investigare cantitativ a

    ,,relaiilor asimetrice; ,,o relaie este liniar dac pentru creterea cu o unitate a variabilei

    independente se nregistreaz o cretere(descretere) cu un numr constant de uniti pe variabila

    dependent16. Modelul de regresie presupune descrierea relaiei dintre variabila dependent y

    i variabila independent x cu o linie, a crei funcie s fie urmtoarea: Y = a + bX.

    Unde : este variabila dependent, X este variabila independent, b este coeficientul de

    regresie, a este termenul ,,liber al regresiei17. Coeficientul de regresie poate fi interpretat ca: ,,cu

    ct valoarea sa absolut (indiferent de semnul algebric care l precede) este mai mare dect zero,

    cu att este mai puternic influena variabilei independente asupra celei dependente; semnul plus

    indic o relaie pozitiv, de direct proporionalitate ntre predictor i variabila dependent, iar

    semnul minus o relaie negativ, de invers proporionalitate (creterea valorii predictorului x-

    este nsoit de o reducere corespunztoare a lui y variabila dependent)18.

    Pentru calcularea valorilor explicate mai sus am folosit programul Excel i funciile sale

    specifice pentru fiecare msur: medie-average, median-median, mod-mode, domeniul ca

    [=max()-min()], abaterea standard-stdev, variana-var sau stdev^2,quartile-

    Q0=QUARTILE(array;0), Q1=QUARTILE(array;1), Q2=QUARTILE(array;2),

    Q3=QUARTILE(array;3), Q4=QUARTILE(array;4), coeficient de corelaie-

    correl(array_x;array_y), coeficient de regresie-slope(y;x), termenul liber-intercept(y;x)19

    .

    Tabel 4.

    Rezultatele studiului corelaiei i regresiei pentru ipotezele H1 i H2.

    16Ibidem.17Idem, p.16.18Idem.19Valentin CLOCOTICI,Lucrarea 1-Statistic descriptiv (Excel), p. 3.

    H1 H2

    Corelatie Coeficientul de corelaie 0,256 0,0305Regresie Panta a 5,288 10,441

    Coeficientul de regresie, b 0,102 0,0295

    Predictie Pentru x=100 15,53 13,393

    y= Pentru x=50 10,41 11,917Pentru x=0 5,288 10,441

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    9/14

    Universitatea BucuretiFacultatea de tiine Politice

    9

    Capitolul 3. Interpretarea rezultatelor. Concluzii.

    O medie de 56.44% din totalul de ceteni ai statelor membre ale Uniunii Europene, cu

    vrsta cuprins ntre 16 i 74 de ani, au folosit internetul n ultimile trei luni, 11.11% au evitat

    folosirea sistemului e-commerce din motive de securitate, iar 23.26% i-au fcut copii de

    siguran. La nivelul rilor membre UE27, gsim o median de 55% pentru folosirea

    internetului, 11% pentru nefolosirea sistemului e-commerce din motive de securitate i 22%

    pentru facerea de copii de siguran. Se observ o diferen de dispersie ntre cei care au folosit

    internetul n ultimile trei luni (domeniul = 60; minim de 24% n Romnia i maxim de 84% n

    Olanda) i cei care au evitat sistemul e-commerce din motive de securitate (domeniul = 26;

    minim de 1% n Romnia, maxim de 27% n Spania) i cei care i-au fcut copii de siguran(domeniul = 30, minim de 13% n Polonia, maxim de 43% n Grecia). Interesant pentru cazul

    Romniei este faptul c n privina utilizrii internetului i evitrii sistemului e-commerce din

    motive de securitate se afl pe ultimul loc n clasamentul rilor membre ale Uniunii Europene,

    ns, la crearea copiilor de siguran, este peste media UE27 (de 23.26%) cu o valoare de 28%.

    Se observ o abatere standard mai mare pentru X1 dect pentru Y sau X2. Existena a

    66.66% din valori n intervalele (38.62;73.27) pentru X1(4 valori mai mici ca 38.62 i 5 valori

    mai mari ca 73.27, adic 9 din 27 n afara intervalului), 62.96% din valori n intervalul

    (4.3;17.92) pentru Y (6 valori mai mici ca 4.3, 4 mai mari ca 17.92, 10 din 27 n afara

    intervalului), i 70.37%(16.04;30.48)pentru X2 (3 mai mici ca 16.04 i 5 mai mari ca 30.48, 8

    din 27 n afara intervalului). Valorile lui X2 se apropie cel mai mult de o distribuie normal,

    deoarece 70.37% > 68% din valori.

    Primul sfert arat c cel mult 25% din valorile lui X1 sunt mai mici ca 44.4 i cel mult

    75% sunt mai mari, iar sfertul de vrf arat c cel mult 75% din valori sunt mai mici n valoare

    dect 69.5 i cel mult 25% sunt mai mari.

    Coeficientul de corelaie al H1 este 0.256, pozitiv, i indic o corelaie slab. Coeficientul

    de corelaie al H2 este 0.03, aproape egal cu 0, ceea ce indic aproximativ inexistena unei

    corelaii. Coeficientul de regresie al primei ipoteze (0.1) arat c y, variabila dependent, se va

    mri cu 0.1 dac variabila independent se mrete cu o unitate. Relaia dintre variabilele de la

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    10/14

    Universitatea BucuretiFacultatea de tiine Politice

    10

    ipoteza a doua i cele de la prima este mai slab. La modificarea lui x cu valori egale cu 100, 50,

    0, se observ o relaie descresctoare ntre valori.

    Una dintre cele mai importante probleme ale securitiipe arena internaionaleste cea a

    securitii cibernetice. Astfel, dei majoritatea statelor U.E adopt diferite strategii pentru

    combaterea infraciunilor n mediul cybernetic, n perioada studiat, procentul celor care utilizau

    funcia de e-commerce nu era foarte ridicat, observandu-se o popularitate mai mare a acesteia n

    statele nordice, fa de cele din zona Europei de Est . De asemenea, se observ cum numrul

    celor care i creeaz copii de siguran, crete n numrul utilizatorilor funciilor comerciale

    virtuale din statele n care acest fenomen nu este tocmai popular. nmulirea i mprtierea

    viruilor de calculator, spargerea reelelor i infracionalitatea cibernetic pot provoca pierderi

    financiare considerabile. De cele mai multe ori se creeaz o nencredere a serviciilor on-line care

    pot duna economiei Uniunii Europene. ns aceasta problem nu este ntlnit doar la niveleuropean, ci este o problem internaionala, care necesit o abordare comun pentru c infractorii

    cibernetici pot ataca de oriunde .

    Bibliografie

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    11/14

    Universitatea BucuretiFacultatea de tiine Politice

    11

    Valentin CLOCOTICI, Lucrarea 1. Statistic descriptiv (Excel), Iai, online:http://profs.info.uaic.ro/~val/statistica/StatWork_1.pdf,accesat la 21.05.2013.

    EUROSTAT, One person in eight in the EU27 avoids e-commerce because of securityconcerns, februarie, 2008, online la http://epp.eurostat.ec.europa.eu/cache/ITY_PUBLIC/4-

    08022008-AP/EN/4-08022008-AP-EN.PDF, accesat la 29.05.2013.

    Traian ROTARIU (coord.), Gabriel BDESCU, Irina CULIC, Elemer MEZEI, CorneliaMUREAN, Cornelia,Metode Statistice Aplicate n tiinele Sociale, Polirom, Iai, 2006.

    Dumitru SANDU, Statistic n tiinele Sociale. Probleme teoretice i aplicaii pentru

    nvmntul universitar, Facultatea de Sociologie, Psihologie i Pedagogie, UniversitateaBucureti, Bucureti, 1992.

    Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 3. Msuri ale tendinei

    centrale, variabilitii i poziiei, versiunea 2009-2010.

    Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 4. Corelaie liniar,

    versiunea 2009-2010.

    Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 5. Regresia liniar ,versiunea 2009-2010.

    http://profs.info.uaic.ro/~val/statistica/StatWork_1.pdfhttp://profs.info.uaic.ro/~val/statistica/StatWork_1.pdfhttp://profs.info.uaic.ro/~val/statistica/StatWork_1.pdf
  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    12/14

    Universitatea BucuretiFacultatea de tiine Politice

    12

    Anexe

    Anexa 1. Baza de date iniial

    20

    20 Eurostat, One person in eight in the EU27 avoids e -shopping because of security concerns, februarie, 2008,online la http://epp.eurostat.ec.europa.eu/cache/ITY_PUBLIC/4-08022008-AP/EN/4-08022008-AP-EN.PDF,

    accesat la 29.05.2013.

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    13/14

    Universitatea BucuretiFacultatea de tiine Politice

    13

    Anexa 2.

    Anexa 3.

    0102030405060708090

    Belgia

    Bulgaria

    Cehia

    Danemarca

    G

    ermania

    Estonia

    Irlanda

    Grecia

    Spania

    Franta

    Italia

    Cipru

    Letonia

    Lituania

    Luxemburg

    Ungaria

    Malta

    Olanda

    Austria

    Polonia

    Portugalia

    Romania

    Slovenia

    Slovacia

    Finlanda

    Suedia

    UnitedKingdom

    x1

    y

    05

    101520253035404550

    Belgia

    Bulgaria

    Cehia

    Danemarca

    Germania

    Estonia

    Irlanda

    Grecia

    Spania

    Franta

    Italia

    Cipru

    Letonia

    Lituania

    Luxemburg

    Ungaria

    Malta

    Olanda

    Austria

    Polonia

    Portugalia

    Romania

    Slovenia

    Slovacia

    Finlanda

    Suedia

    UnitedKingdom

    x2

    y

  • 8/12/2019 Statistica - Proiect Corelatie si Regresie

    14/14

    Universitatea BucuretiFacultatea de tiine Politice

    14

    Anexa 4.

    Anexa 5.

    y = 0.1024x + 5.2877

    R = 0.0655

    0

    5

    10

    15

    20

    25

    30

    0 10 20 30 40 50 60 70 80 90

    y

    x1

    y = 0.0295x + 10.441

    R = 0.0009

    0

    5

    10

    15

    20

    25

    30

    0 5 10 15 20 25 30 35 40 45 50

    y

    x2