Statistica - Proiect Corelatie si Regresie
-
Upload
claudiu-mihai-dumitrescu -
Category
Documents
-
view
268 -
download
3
Transcript of Statistica - Proiect Corelatie si Regresie
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
1/14
Universitatea BucuretiFacultatea de tiine Politice
1
DUMITRESCU CLAUDIU-MIHAI
SPR II A
An universitar 2013-2014
Curs: Management si Marketing Politic
Profesor confereniar doctor: Gabriel Sebe
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
2/14
Universitatea BucuretiFacultatea de tiine Politice
2
uprins
Introducere 3
Capitolul 1. Studiu Teoreticconcepte i principii ........................................ 4
Capitolul 2. Studiul practicCorelaia i regresia ...................................... 5
Capitolul 3. Interpretarea rezultatelor ............................................................ 9
Bibliografie 11
Anexe .. 12
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
3/14
Universitatea BucuretiFacultatea de tiine Politice
3
Introducere
Am ales aceast tem deoarece, n contexul evoluiei tehnologice, domeniul comercial i-
a dezvoltat ramura de vnzare prin intermediul Internetului n mod evident, i am considerat c
un studiu asupra gradului de utilizare al acestei funcii de ctre cetenii Uniunii Europene pentru
o period din trecutar avea rezultate interesante.
n Romnia exist 12 milioane de utilizatori de internet, iar piaa serviciilor de tip e-
commerce nregistreaz o expansiune continu. Din ce n ce mai muli oameni ncep s
foloseasc internetul, iar spaiul virtual devine o pia mai mare i mai interesant pentru
desfacerea produselor/serviciilor.
Proiectul i propune s calculeze msurile tendinei centrale, a variabilitii i poziieiurmtoarelor variabile:
Y: procente(%) din totalul de indivizi, cu vrsta cuprins ntre 16 i 74 de ani, care au e vitat
folosirea sistemului e-commerce din motive de securitate;
X1: procente(%) din totalul de indivizi, cu vrsta cuprins ntre 16 i 74 de ani, care au folosit
internetul n ultimile trei luni;
X2: procente(%) din totalul de utilizatori de internet, cu vrsta cuprins ntre 16 i 74 de ani, care
i-au fcut copii de siguran1;
Variabila Y este variabila dependent a studiului, variabilele X1 i X2 fiind variabilele
independente. Studiul i propune i s calculeze i s interpreteze valorile coeficienilor de
corelaie i regresie, ct i s reprezinte grafic relaiile dintre ele.
Studiul pleac de la urmtoarele ipoteze:
H1: Cu ct procentul de utilizatori de internet este mai mare, cu att procentul de indivizi care au
evitat folosirea sistemului e-commerce din motive de securitate este mai mare.
H2: Cu ct procentul de utilizatori de internet care i-au fcut copii de siguran este mai mare,
cu att procentul de indivizi care au evitat folosirea sistemului e-commerce din motive de
securitate este mai mare.
Datele au fost colectate prin sondaje de opinie ntre anii 2006 i 2007 i preluate din
comunicatul oferit de Eurostat, la 8 februarie 2008, ce atrgea atenia asupra faptului: ,,o
1Eurostat, One person in eight in the EU27 avoids e-shopping because of security concerns, p. 2.
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
4/14
Universitatea BucuretiFacultatea de tiine Politice
4
persoan din opt n EU27 evit e-commerce-ul din motive de securitate. Acesta este efectul
asupra cruia studiul prezent i concentrez atenia, ncercnd s identifice cauze ale acestui
fenomen, cu date din tabelul oferit n comunicat i ataat la Anexa 1. Cauzele sunt numite
variabile independente i notate cu X1 i X2.
Acest subiect a devenit relevant pentru societatea actual pe fondul globalizrii i
informatizrii sistemului economic. Dei mult mai facil, sistemul de plat electronic al
cumprturilor (e-commerce), este interesant de studiat impactul acestuia asupra societii i
gradul de utilizare al acestuia.
Capitolul I: Studiul teoretic al corelaiei i regresiei
Conceptele i principiile utilizate de studiul prezent vor fi definite n acest capitol,
conform noiunilor prezentate n cadrul cursurilor din acest semestru.
Pe baza obiectivelor enunate mai sus, proiectul i propune s explice att teoretic, ct i
practic rezultatele obinute. Microsoft Excel 2010 este programul folosit pentru calcularea
msurilor i coeficienilor, dar i pentru realizarea graficelor anexate.
Variabila dependent i variabila independent. Variabilele independente sunt cele
manipulate, n timp ce variabilele dependente sunt doar masurate i nregistrate
Corelaia liniar.Msoar puterea unei relaii liniare ntre douvariabile: corelaia cuantific
msura n care douvariabile (continui), X and Y, ,,merg mpreun."2
Coeficientul de corelaiereprezinto ,,msurde asociere i msoar ,,gradul de
mprtiere al valorilor dependente n jurul liniei de regresie. Dac coeficientul de corelaie r
este pozitiv, atunci avem o corelaie pozitiv (x crete, y crete), invers, pentru unul negativ, o
corelaie negativ (x crete, y scade).
Analiza de regresieare ca scop ,,satisfacerea unor cerine de investigare cantitativ a
,,relaiilor asimetrice; ,,o relaie este liniar dac pentru creterea cu o unitate a variabilei
independente se nregistreaz o cretere(descretere) cu un numr constant de uniti pe variabila
dependent3
2Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 4. Corelaia liniar,p. 1.3Camelia VOINEA, Curs introductiv Statistic iProbabiliti. Capitolul 5.Regresia liniar,p. 1.
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
5/14
Universitatea BucuretiFacultatea de tiine Politice
5
Capitolul II - Studiul practicCorelaia i regresia
Msurile tendinei centrale, variabilitii i poziiei reprezint o analiz descriptiv a
datelor. Pentru realizarea obiectivelor studiului, au fost luate din tabelul de la Anexa 1 valorile
pentru cele trei variabile investigate: Y, X1, X2. Valorile reprezint procente, pentru fiecare
variabil. n total studiul conine 27 de ri, membre ale Uniunii Europene (n=27).
Nr. Crt. ar X1 Y X2
1 Belgia 67 12 20
2 Bulgaria 31 3 26
3 Cehia 49 3 32
4 Danemarca 81 10 17
5 Germania 72 14 25
6 Estonia 64 12 14
7 Irlanda 57 3 27
8 Grecia 33 14 43
9 Spania 52 27 18
10 Franta 64 15 35
11 Italia 38 9 20
12 Cipru 38 20 32
13 Letonia 55 3 18
14 Lituania 49 7 17
15 Luxemburg 78 13 26
16 Ungaria 52 15 19
17 Malta 45 :4 34
18 Olanda 84 14 25
19 Austria 67 8 23
20 Polonia 44 4 13
21 Portugalia 40 13 17
22 Romania 24 1 28
23 Slovenia 53 19 2324 Slovacia 56 8 22
25 Finlanda 79 26 19
26 Suedia 80 7 15
27 United Kingdom 72 9 20
Tabel 1. Baza de date
4Valoare indisponibil n baza de date.
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
6/14
Universitatea BucuretiFacultatea de tiine Politice
6
Mediaeste,,acea valoare care se obine mprind suma valorilor tuturor indivizilor din
populaie la numrul acestora5 i are formula:
n
i
i
n
i
i
xnn
x
x
1
1 1
.,,Presupunnd c cei n
indivizi din populaie sunt aezai n ordine cresctoare sau descresctoarea valorilor pe care le
iau, atunci individul care se gsete la mijlocul acestui ir, adic are n stnga sa tot attea uniti
statistice cte i n dreapta lui, se numete individ median6, astfel, mediana este valoarea luat
de individual/obiectul din mijloc. Modul este ,,valoarea luat cu cea mai mare frecven7.
Domeniul este ,,diferena ntre cea mai mare i cea mai mica valoare8. Abaterea standardeste
,,forma particular a abaterii medii ptratice9. Formula este:n
xx
n
i
i
2
1
2)(
. Variana
reprezint abaterea medie ptraticde la media grupului, n cadrul grupului respectiv10. Se poate
obine radicnd la ptrat abaterea standard. Formula este:n
xx
n
i
i
2
1
2)(
. Rezumatul n 5-
puncte al unei distribuiieste: ,,Q0 = Minimum, Q1 = Primul sfert, Q2 = Mediana, Q3 = Sfertul de
varf, Q4 = Maximum, unde sferturile sunt ,,valori ale variabilei care mparte setul ordonat de
date n quartile; primul sfert, Q1, ,,este un numar astfel nct cel mult 25% din date sunt mai
mici n valoare dect Q1 i cel mult 75% sunt mai mari; al treilea sfert, Q3, ,,este un numrastfel nct cel mult 75% din date sunt mai mici n valoare decat Q3 i cel mult 25% sunt mai
mari11.
Rezumatul in 5 puncte X1 Y X2
Q0=Minimum 24 1 13
Q1=Primul sfert 44,5 7 18
Q2=Mediana 55 11 22
Q3=Sfertul de varf 69,5 14 26,5
Q4=Maximum 84 27 43
5 Traian ROTARIU (coord.), Gabriel BDESCU, Irina CULIC, Elemer MEZEI, Cornelia MUREAN, Cornelia,Metode Statistice Aplicate n tiinele Sociale , p. 43.6Idem, p. 46.7Idem, p. 48.8Idem, p. 50.9Idem, p. 54.10Idem, p. 57.11 Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitopul 3. Msuri ale tendinei centrale,
variabilitii i poziiei, p. 3.
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
7/14
Universitatea BucuretiFacultatea de tiine Politice
7
Tabelul 2. Msuri ale poziiei
Pentru a vedea dac variabila ,,este normal distribuit, se verific dac ,,68% din valori
se afl n liminta a 1 abatere standard de la medie(cu limitele ntre x ), ,,95% din valori se
afl n liminta a 2 abatere standard de la medie(cu limitele ntre x 2), ,,99,9% din valori se
afl n liminta a 3 abatere standard de la medie(cu limitele ntre x 3)12.
X1 Y X2
Media: 56,44 11,115 23,26
Mediana: 55 11 22
Modul: 67 3 20
Domeniul: 60 26 30
Abaterea Standard: 16,83 6,8078 7,22
Varianta: 283,2 46,346 52,121 abatere standard de la medie
(x - ) 39,62 4,3076 16,04
(x +) 73,27 17,923 30,482 abateri standard de la medie
(x - 2) 22,79 -2,5 8,82(x + 2) 90,1 24,731 37,73 abateri standard de la medie
(x -3) 5,961 -9,308 1,6(x + 3) 106,9 31,539 44,92
Tabel 3. Msuri ale tendinei centrale i ale variabilitii.
Coeficientul de corelaie reprezint o ,,msur de asociere13 i msoar ,,gradul de
mprtiere al valorilor dependente n jurul liniei de regresie14. Dac coeficientul de corelaie r
estepozitiv, atunci avem o corelaie pozitiv (x crete, y crete), invers, pentru unul negativ, o
corelaie negativ (x crete, y scade). Proprieti ale coeficientului de corelaie sunt:,,variazntre
-1 i 1; cu ct asocierea dintre cele dintre cele dou variabile este mai puternic, valoarea sa
absolut este mai apropiat de (+1) sau de (-1)15. Coeficientul de corelaie este ()
.
Covariana este ( ) ()()
.
12Idem, p.3.13Dumitru SANDU, Statistic n tiine Sociale,p. 14.14Idem, p. 22.15Idem, p. 23.
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
8/14
Universitatea BucuretiFacultatea de tiine Politice
8
Analiza de regresie are ca scop ,,satisfacerea unor cerine de investigare cantitativ a
,,relaiilor asimetrice; ,,o relaie este liniar dac pentru creterea cu o unitate a variabilei
independente se nregistreaz o cretere(descretere) cu un numr constant de uniti pe variabila
dependent16. Modelul de regresie presupune descrierea relaiei dintre variabila dependent y
i variabila independent x cu o linie, a crei funcie s fie urmtoarea: Y = a + bX.
Unde : este variabila dependent, X este variabila independent, b este coeficientul de
regresie, a este termenul ,,liber al regresiei17. Coeficientul de regresie poate fi interpretat ca: ,,cu
ct valoarea sa absolut (indiferent de semnul algebric care l precede) este mai mare dect zero,
cu att este mai puternic influena variabilei independente asupra celei dependente; semnul plus
indic o relaie pozitiv, de direct proporionalitate ntre predictor i variabila dependent, iar
semnul minus o relaie negativ, de invers proporionalitate (creterea valorii predictorului x-
este nsoit de o reducere corespunztoare a lui y variabila dependent)18.
Pentru calcularea valorilor explicate mai sus am folosit programul Excel i funciile sale
specifice pentru fiecare msur: medie-average, median-median, mod-mode, domeniul ca
[=max()-min()], abaterea standard-stdev, variana-var sau stdev^2,quartile-
Q0=QUARTILE(array;0), Q1=QUARTILE(array;1), Q2=QUARTILE(array;2),
Q3=QUARTILE(array;3), Q4=QUARTILE(array;4), coeficient de corelaie-
correl(array_x;array_y), coeficient de regresie-slope(y;x), termenul liber-intercept(y;x)19
.
Tabel 4.
Rezultatele studiului corelaiei i regresiei pentru ipotezele H1 i H2.
16Ibidem.17Idem, p.16.18Idem.19Valentin CLOCOTICI,Lucrarea 1-Statistic descriptiv (Excel), p. 3.
H1 H2
Corelatie Coeficientul de corelaie 0,256 0,0305Regresie Panta a 5,288 10,441
Coeficientul de regresie, b 0,102 0,0295
Predictie Pentru x=100 15,53 13,393
y= Pentru x=50 10,41 11,917Pentru x=0 5,288 10,441
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
9/14
Universitatea BucuretiFacultatea de tiine Politice
9
Capitolul 3. Interpretarea rezultatelor. Concluzii.
O medie de 56.44% din totalul de ceteni ai statelor membre ale Uniunii Europene, cu
vrsta cuprins ntre 16 i 74 de ani, au folosit internetul n ultimile trei luni, 11.11% au evitat
folosirea sistemului e-commerce din motive de securitate, iar 23.26% i-au fcut copii de
siguran. La nivelul rilor membre UE27, gsim o median de 55% pentru folosirea
internetului, 11% pentru nefolosirea sistemului e-commerce din motive de securitate i 22%
pentru facerea de copii de siguran. Se observ o diferen de dispersie ntre cei care au folosit
internetul n ultimile trei luni (domeniul = 60; minim de 24% n Romnia i maxim de 84% n
Olanda) i cei care au evitat sistemul e-commerce din motive de securitate (domeniul = 26;
minim de 1% n Romnia, maxim de 27% n Spania) i cei care i-au fcut copii de siguran(domeniul = 30, minim de 13% n Polonia, maxim de 43% n Grecia). Interesant pentru cazul
Romniei este faptul c n privina utilizrii internetului i evitrii sistemului e-commerce din
motive de securitate se afl pe ultimul loc n clasamentul rilor membre ale Uniunii Europene,
ns, la crearea copiilor de siguran, este peste media UE27 (de 23.26%) cu o valoare de 28%.
Se observ o abatere standard mai mare pentru X1 dect pentru Y sau X2. Existena a
66.66% din valori n intervalele (38.62;73.27) pentru X1(4 valori mai mici ca 38.62 i 5 valori
mai mari ca 73.27, adic 9 din 27 n afara intervalului), 62.96% din valori n intervalul
(4.3;17.92) pentru Y (6 valori mai mici ca 4.3, 4 mai mari ca 17.92, 10 din 27 n afara
intervalului), i 70.37%(16.04;30.48)pentru X2 (3 mai mici ca 16.04 i 5 mai mari ca 30.48, 8
din 27 n afara intervalului). Valorile lui X2 se apropie cel mai mult de o distribuie normal,
deoarece 70.37% > 68% din valori.
Primul sfert arat c cel mult 25% din valorile lui X1 sunt mai mici ca 44.4 i cel mult
75% sunt mai mari, iar sfertul de vrf arat c cel mult 75% din valori sunt mai mici n valoare
dect 69.5 i cel mult 25% sunt mai mari.
Coeficientul de corelaie al H1 este 0.256, pozitiv, i indic o corelaie slab. Coeficientul
de corelaie al H2 este 0.03, aproape egal cu 0, ceea ce indic aproximativ inexistena unei
corelaii. Coeficientul de regresie al primei ipoteze (0.1) arat c y, variabila dependent, se va
mri cu 0.1 dac variabila independent se mrete cu o unitate. Relaia dintre variabilele de la
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
10/14
Universitatea BucuretiFacultatea de tiine Politice
10
ipoteza a doua i cele de la prima este mai slab. La modificarea lui x cu valori egale cu 100, 50,
0, se observ o relaie descresctoare ntre valori.
Una dintre cele mai importante probleme ale securitiipe arena internaionaleste cea a
securitii cibernetice. Astfel, dei majoritatea statelor U.E adopt diferite strategii pentru
combaterea infraciunilor n mediul cybernetic, n perioada studiat, procentul celor care utilizau
funcia de e-commerce nu era foarte ridicat, observandu-se o popularitate mai mare a acesteia n
statele nordice, fa de cele din zona Europei de Est . De asemenea, se observ cum numrul
celor care i creeaz copii de siguran, crete n numrul utilizatorilor funciilor comerciale
virtuale din statele n care acest fenomen nu este tocmai popular. nmulirea i mprtierea
viruilor de calculator, spargerea reelelor i infracionalitatea cibernetic pot provoca pierderi
financiare considerabile. De cele mai multe ori se creeaz o nencredere a serviciilor on-line care
pot duna economiei Uniunii Europene. ns aceasta problem nu este ntlnit doar la niveleuropean, ci este o problem internaionala, care necesit o abordare comun pentru c infractorii
cibernetici pot ataca de oriunde .
Bibliografie
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
11/14
Universitatea BucuretiFacultatea de tiine Politice
11
Valentin CLOCOTICI, Lucrarea 1. Statistic descriptiv (Excel), Iai, online:http://profs.info.uaic.ro/~val/statistica/StatWork_1.pdf,accesat la 21.05.2013.
EUROSTAT, One person in eight in the EU27 avoids e-commerce because of securityconcerns, februarie, 2008, online la http://epp.eurostat.ec.europa.eu/cache/ITY_PUBLIC/4-
08022008-AP/EN/4-08022008-AP-EN.PDF, accesat la 29.05.2013.
Traian ROTARIU (coord.), Gabriel BDESCU, Irina CULIC, Elemer MEZEI, CorneliaMUREAN, Cornelia,Metode Statistice Aplicate n tiinele Sociale, Polirom, Iai, 2006.
Dumitru SANDU, Statistic n tiinele Sociale. Probleme teoretice i aplicaii pentru
nvmntul universitar, Facultatea de Sociologie, Psihologie i Pedagogie, UniversitateaBucureti, Bucureti, 1992.
Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 3. Msuri ale tendinei
centrale, variabilitii i poziiei, versiunea 2009-2010.
Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 4. Corelaie liniar,
versiunea 2009-2010.
Camelia VOINEA, Curs introductiv Statistic i Probabiliti. Capitolul 5. Regresia liniar ,versiunea 2009-2010.
http://profs.info.uaic.ro/~val/statistica/StatWork_1.pdfhttp://profs.info.uaic.ro/~val/statistica/StatWork_1.pdfhttp://profs.info.uaic.ro/~val/statistica/StatWork_1.pdf -
8/12/2019 Statistica - Proiect Corelatie si Regresie
12/14
Universitatea BucuretiFacultatea de tiine Politice
12
Anexe
Anexa 1. Baza de date iniial
20
20 Eurostat, One person in eight in the EU27 avoids e -shopping because of security concerns, februarie, 2008,online la http://epp.eurostat.ec.europa.eu/cache/ITY_PUBLIC/4-08022008-AP/EN/4-08022008-AP-EN.PDF,
accesat la 29.05.2013.
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
13/14
Universitatea BucuretiFacultatea de tiine Politice
13
Anexa 2.
Anexa 3.
0102030405060708090
Belgia
Bulgaria
Cehia
Danemarca
G
ermania
Estonia
Irlanda
Grecia
Spania
Franta
Italia
Cipru
Letonia
Lituania
Luxemburg
Ungaria
Malta
Olanda
Austria
Polonia
Portugalia
Romania
Slovenia
Slovacia
Finlanda
Suedia
UnitedKingdom
x1
y
05
101520253035404550
Belgia
Bulgaria
Cehia
Danemarca
Germania
Estonia
Irlanda
Grecia
Spania
Franta
Italia
Cipru
Letonia
Lituania
Luxemburg
Ungaria
Malta
Olanda
Austria
Polonia
Portugalia
Romania
Slovenia
Slovacia
Finlanda
Suedia
UnitedKingdom
x2
y
-
8/12/2019 Statistica - Proiect Corelatie si Regresie
14/14
Universitatea BucuretiFacultatea de tiine Politice
14
Anexa 4.
Anexa 5.
y = 0.1024x + 5.2877
R = 0.0655
0
5
10
15
20
25
30
0 10 20 30 40 50 60 70 80 90
y
x1
y = 0.0295x + 10.441
R = 0.0009
0
5
10
15
20
25
30
0 5 10 15 20 25 30 35 40 45 50
y
x2