Proiect Statistică Neparametrică

24
ACADEMIA DE STUDII ECONOMICE, BUCUREȘTI FACULTATEA DE CIBERENTICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ STATISTICĂ NEPARAMETRICĂ Profesor coordonator, Boboc Cristina 5 mai 2014 ECHIPA NR.1 COMPONENȚA ECHIPEI: - IORDACHE MIHAELA OANA - LEPĂDATU ALEXANDRA ANDREEA

description

nepa

Transcript of Proiect Statistică Neparametrică

ACADEMIA DE STUDII ECONOMICE, BUCUREȘTI

FACULTATEA DE CIBERENTICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ

STATISTICĂ NEPARAMETRICĂ Profesor coordonator, Boboc Cristina

5 mai 2014

ECHIPA NR.1

COMPONEN A ECHIPEI:Ț

- IORDACHE MIHAELA OANA- LEPĂDATU ALEXANDRA ANDREEA

CUPRINS

1. Introducere

2. Problematici de analizat

- Descrierea datelor: analiza descriptivă, transformarea datelor unde este necesar- Aplicarea metodelor pentru testarea ipotezelor enunţate în introducere

2.1 Există o legătură semnificativă între nivelul de fericire şi activitatea religiosă a unui individ? Dacă da, care este intensitatea şi direcţia acesteia?

2.2 Există vreo relaţie semnificativă între nivelul de fericire şi măsura în care o persoană este liberă să decidă cum să-şi trăiască viaţa? Dacă da, care este intensitatea acesteia?

2.3 În ce măsură genul unui individ are vreo influenţă asupra participării la vot?

2.4 În ce măsură probabilitatea de a aparţine unui grup discriminant este influenţată de gen, vârstă, statut profesional şi nivel de educaţie?

2.5 În anul 2002 distribuţia după nivelul religios al individului era următoarea:a.Deloc religios: 12%b.Mediu religios 81,5%c.Foarte religios 6,5%În ţara şi anul dvs de analiză distribuţia a rămas aceeaşi?

2.6 Exstă diferenţe de opinie între persoanele de sex masculin şi cele de sex feminin în ceea ce priveşte nivelul educaţiei în ţara şi perioada analizată? Dar în ceea ce priveşte nivelul de sănătate?

2.7 În perioada şi ţara analizată, cine este percepută mai favorabil: democraţia sau economia?

2.8 Cum influenţează nivelul studiilor părinţilor, nivelul educaţional al persoanelor analizate?

2.9 Exista diferente semnificative intre persoanele de sex masculin si cele de sex feminin in ceea ce priveste nivelul de fericire?

2.10 Testaţi urmatoarele ipoteze:-barbaţii sunt mai adesea membrii unor partide politice decat femeile.-persoanele mai vârstnice sunt mai adesea membrii unor partide politice decât persoanele tinere-persoanele educate sunt mai adesesa membrii unor partide politice.

3.Concluzii

1. Introducere

În multe cazuri, actul decizional se prezintă sub forma unor alternative, însoţite de formularea unor ipoteze. O ipoteză este o afirmaţie despre parametrul unei populaţii sau despre repartiţia unei caracteristici a populaţiei, afirmaţie al cărei adevăr se testează pe baza unui eşantion aleator.

Ipoteza nulă, H0, este afirmaţia referitoare la valoarea cea mai nefavorabilă, faţă de valoarea reală a parametrului.

Ipoteza alternativă, H1, este afirmaţia conform căreia parametrul ia alte valori decât cea specificată în H0.

Testarea ipotezelor sau testul statistic reprezintă evaluarea statistică a deciziei de respingere a ipotezei nule H0 (presupusă adevărată). Etapele testului statistic sunt următoarele: formularea ipotezelor H0 şi H1, alegerea pragului de semnificaţie α, stabilirea repartiţiei pentru testarea ipotezelor şi definirea regiunilor critice, stabilirea regulii de decizie (raportul critic) şi efectuarea calculelor.

Ipotezele se stabilesc înainte de procedura de eşantionare. Rezultatele obţinute pe baza eşantionului pot să confirme sau să infirme ipotezele emise.

Testele de semnificaţie pot fi: univariate, când un singur parametru face obiectul ipotezelor sau bivariate, când se testează relaţii existente între două variabile.

Testele neparametrice sunt independente de caracteristicile distribuției. În toate cazurile în care variabila dependentă este de tip ordinal sau nominal (categorial), ipotezele statistice se testează utilizând testele neparametrice. Ele se caracterizează prin două trăsături principale:

· Nu se bazează pe utilizarea parametrilor unei distribuții (medie, abatere standard)

· Nu implică condiții de distribuție la fel de rigide. Anumite teste neparametrice nu implică nicio condiție, fiind cunoscute ca teste independente de condiții de distribuție.

Utilizarea testelor neparametrice nu poate fi evitată dacă variabila dependentă este una de tip nominal sau ordinal. Dacă, însă, este masurată pe o scală de interval/raport, se pune problema de a alege între un test parametric si unul neparametric. În acest caz, criteriul principal de decizie este normalitatea distribuției la nivelul populației. Mai ales pentru eșantioanele mici, atunci când avem motive să ne îndoim de normalitatea distribuției la nivelul populației, vor fi preferate testele neparametrice.

În proiectul nostru, am folosit testele neparametrice pentru a verifica existența legăturilor dintre variabilele date, intensitatea și sensul, pe datele din Spania, din anul 2010.

2. Problematici de analizat

2.1. Pentru a verifica dacă există legătură semnificativă între activitatea religioasă a unui individ și nivelul de fericire resimțit de acesta,vom aplica coeficientul de asociere Gamma și coeficientul de corelație al rangurilor al lui Kendall, deoarece ambele variabile sunt ordinale.

Ipotezele:

H0: variabilele x şi y nu sunt asociate

HA: variabilele x şi y sunt asociate

Regula de decizie:

z z/2 se respinge H0

z < z/2 se acceptă H0

Approx Sig=0.000<0.01 (acceptăm H1) , rezultă că există o legătură semnificativă directă (0.21>0) între activitatea religioasă a unui individ și nivelul de fericire resimțit de acesta, dar de intensitate slabă (0.21),pentru un nivel de semnificație de 99%. Legătura directă semnifică faptul că atunci când o persoană participă la activități religioase, acesta este mai fericită.

2.2 Pentru a verifica dacă există o relație semnificativă între nivelul de fericire şi măsura în care o persoană este liberă să decidă cum să-şi trăiască viaţa vom aplica testele Kendall si Gamma, deoarece ambele variabile sunt ordinale.

Ipotezele:

H0: variabilele x şi y nu sunt corelate

HA: variabilele x şi y sunt corelate

Regula de decizie:

z z/2 se respinge H0

z < z/2 se acceptă H0

Approx Sig=0.051>0.05 (acceptăm Ho), rezultă că nu există o legătură semnificativă între nivelul de fericire şi măsura în care o persoană este liberă să decidă cum să-şi trăiască viaţa, pentru un nivel de semnificație de 95 %.

Gamma= -0.052, de unde rezultă o asociere slabă, cu o legătura inversă, dar nesemnificativă. Pentru că legătura este inversă, putem aprecia că libertatea de decizie în modul unei persoane de a-și trăi viața este invers proporțional cu nivelul de fericire al acesteia.

2.3. Pentru a verifica în ce masura genul unui individ are vreo influență asupra participării la vot vom aplica coeficentul de contingență 2 ,deoarece cele 2 variabile incluse în analiză sunt nominale.

Ipotezele:

H0: nu există asociere între variabilele x şi y

HA: variabilele x şi y sunt asociate

Regula de decizie

Dacă se respinge H0

Dacă se acceptă H0

Approx Sig=0.866>0.05 (acceptăm Ho), rezultă că genul unui individ nu influențează participarea la vot, pentru un nivel de semnificație de 95 %.

Contingency Coefficient= 0.012, de unde avem o asociere slabă, dar nesemnificativă.

În acest caz, mai putem aplica urmatoarele teste, care confirmă rezultatul obținut anterior.

χ2> χα ;(r−1 ) ( s−1 )2

χ2≤ χα ; (r−1 ) ( s−1 )2

2.4. Pentru a verifica în ce măsură probabilitatea de a aparține unui grup discriminant este influenţată de gen, vârstă, statut profesional şi nivel de educaţie aplicăm coeficentul de contingență 2

Ipotezele:

H0: nu există asociere între variabilele x şi y

HA: variabilele x şi y sunt asociate

Approx Sig=0.341>0.05 (acceptăm Ho), rezultă că genul nu influențează probabilitatea de a aparține unui grup discriminant, pentru un nivel de semnificație de 95%.

Contingency Coefficient= 0.022, de unde avem o asocierea slabă între cele 2 variabile, dar și nesemnificativă.

Asymp Sig=0.847>0.05 (acceptăm Ho), rezultă că vârsta unui individ nu influențează probabilitatea de a aparține unui grup discriminant, pentru un nivel de semnificație de 95 %.

Contingency Coefficient =0.184, de unde avem că asocierea între cele 2 variabile este slabă și nesemnificativă.

Asymp Sig=0.013<0.05 (acceptăm H1), rezultă ca nivelul educației influențează probabilitatea de a aparține unui grup discriminant, rezultat garantat cu o probabilitate de 95%.

Contingency Coefficient= 0.116, de unde avem că asocierea dintre cele 2 variabile este slabă, dar semnificativă.

Asymp Sig=0.797>0.05 (acceptăm Ho), rezultă că statutul profesional nu influențează probabilitatea de a aparține unui grup discriminant, pentru un nivel de semnificație de 95%.

Contingency Coefficient= 0.346, de unde asocierea între cele 2 variabile este slabă și nesemnificativă.

2.5. a) Pentru a analiza dacă distribuţia a rămas aceeaşi şi pentru Spania în 2010,vom aplica testul Kolmogorov-Smirnov, întrucât avem date ordinale, pentru compararea distribuţiei observate a răspunsurilor obţinute cu o distribuţie definită a priori F .

Pentru a putea compara variabila analizată ” rlgdgr” din Spania în anul 2010,cu distribuţia:

-deloc religios=12%=0

-mediu religios=81.5%=1

-foarte religios=6.5%=2

Vom transforma variabila studiată în variabila „rel” cu următoarele intervale:

-0-2=0;

-3-7=1

-8-10=2

Ipotezele testate:

H0: datele sunt distribuite F;

H1: datele nu sunt distribuite F

Regula de decizie:

se respinge H0

se acceptă H0

χ2> χα ;k−12

χ2≤ χα ; k−12

Asymp Sig=0.00<0.01, rezultă că se respinge H0 cu o probabilitate de 99%. Deci acceptăm H1, iar această ipoteză ne spune că în Spania în anul 2010 nu se pastrează aceeaşi distribuţie, rezultatul garantându-se cu o probabilitate de 99%.

b) Pentru a analiza dacă distribuţia a rămas aceeaşi şi pentru Spania în 2010,vom aplica testul de concordanță 2, întrucât vom trasforma datele din ordinale în nominale, pentru a compara distribuţia observată a numărului de observaţii pe variante cu o distribuţie predeterminată F.

Asymp Sig=0.00<0.01, rezultă că se respinge H0 cu o probabilitate de 99%. Deci acceptăm H1, iar această ipoteză ne spune că în Spania în anul 2010 nu se păstrează aceeaşi distribuţie, rezultatul garantându-se cu o probabilitate de 99%.

2.6. a) Pentru a vedea daca există diferenţe de opinie între persoanele de sex masculin şi cele de sex feminin în ceea ce priveşte nivelul de sănătate vom aplica testul Mann Whitney,variabila de interes fiind ordinală, întrucât dorim să testăm dacă cele 2 eșantioane au aceeași părere raportată la nivelul de sănătate.

Ipotezele testate:

H0: eşantioanele provin din aceeaşi populaţie

HA: eşantioanele nu provin din aceeaşi populaţie

Regula de decizie:

U > z/2 se respinge H0

U z/2 se acceptă H0

Asymp Sig=0.000<0.01 (acceptăm H1) ,rezultă că există diferențe de opinie între persoanele de sex masculin și cele de sex feminin în ceea ce privește nivelul de sănătate, rezultat garantat cu o probabilitate de 99%.

b) Pentru a vedea daca există diferenţe de opinie între persoanele de sex masculin şi cele de sex feminin în ceea ce priveşte nivelul educaţiei în Spania 2010 vom aplica testul Mann Whitney.

Asymp Sig=0.162>0.05 (acceptăm Ho), rezultă că nu există diferențe de opinie între persoanele de sex masculin și cele de sex feminin în ceea ce privește nivelul educaţiei în Spania 2010, pentru un nivel de semnificație de 95%.

2.7. Pentru a analiza cine este percepută mai favorabil dintre economie şi democraţie vom aplica testul Median și vom compara medianele între ele.

Ipotezele testate:

H0: med1 =…= medk

HA: există ij astfel încât medi medj

Regula de decizie:

se acceptă H0

se respinge H0

Asymp Sig=0.000<0.01(acceptăm H1),rezultă că există diferenţe semnificative între medianele celor 2 variabile, rezultat garantat cu o probabilitate de 99%.

Pentru că testul Median ne arată că opiniile persoanelor referitoare la cele 2 variabile sunt diferite,vom calcula media celor 2 variabile, excluzând valorile extreme.

Media economiei=3.36,iar cea a democraţiei este 5.09,deci concluzionăm că persoanele intervievate au o parere mai bună despre democraţie decat despre economie.

χ2> χα , k−12 →

χ2< χα , k−12 →

8. Cum influenţează nivelul studiilor părinţilor, nivelul educaţional al persoanelor analizate?

Pentru a analiza dacă nivelul studiilor părinților influențează nivelul educaţional al persoanelor analizate vom aplica testul Wilcoxon,variabilele analizate fiind ordinale, observând unităţile statistice sunt observate înainte şi după eveniment.

Ipotezele:

H0: nu s-a produs nici o schimbare în urma acţiunii factorului;

HA: au avut loc schimbări în urma acţiunii factorului;

Regula de decizie: Pentru un nivel de semnificaţie si n volumul eşantionului se extrage din tabelul valorilor critice ale testului Wilcoxon T;n

T > T,n se respinge H0

T T,n se acceptă H0

Approx Sig=0.013<0.05 (acceptăm H1), rezultă că nivelul de educație al părinților influențează nivelul educațional al copiilor, rezultat garantat cu o probabilitate de 95%.

9. Formulaţi o întrebare la care să puteți răspunde folosind testele statistice.

Există diferențe semnificative între persoanele de sex masculin și cele de sex feminin în ceea ce privește nivelul de fericire?

Pentru a vedea dacă există diferențe semnificative vom aplica testul Mann Whitney și testul Kruskall-Wallis.

Ipotezele testate:

H0: eşantioanele provin din aceeaşi populaţie

HA: eşantioanele nu provin din aceeaşi populaţie

Regula de decizie:

U > z/2 se respinge H0

U z/2 se acceptă H0

În ambele cazuri, Asymp Sig=0.461>0.05 (acceptăm Ho), de unde rezultă ca există diferențe semnificative între persoanele de sex feminine și cele de sex masculine în ceea ce privește nivelul de fericire resimțit, pentru un nivel de semnificație de 95%.

10. Formulaţi o întrebare la care să puteti răspunde folosind modelul de regresie logistică.

Pentru a aplica modelul de regresie logistică vom testa dacă:

-barbații sunt mai adesea membrii unor partide politice decât femeile.

-persoanele mai vârstnice sunt mai adesea membrii unor partide politice decât persoanele tinere

-persoanele educate sunt mai adesesa membrii unor partide politice.

Variabilele incluse în analiză vor fi:

Variabila dependentă: Y=1 dacă persoana este membră a unui partid politic

Y=0, altfel

Variabilele independente:

Sex: X1= (1 pentru sex masculin şi 2 pentru sex feminin)

Varstă: X2 = vârstă în număr de ani

Educaţie: X3 =nivelul educației

Odds (membru intr-un partid politic) crește cu 36,5% pentru persoanele de sex masculin, comparativ cu cele de sex feminin.

Sig=0.353>0.05, rezultă că variabila nu este semnificativă pentru model, pentru un model de semnificație de 95%.

Percentage corect= 98% - probabilitatea de a nu fi într-un partid politic.

Odds(membru într-un partid politic) crește cu 0,5% la creșterea vârstei cu o unitate.

Sig=0.593>0.05, rezultă că variabila nu este semnificativă pentru model, pentru un model de semnificație de 95%.

Percentage corect= 98% - probabilitatea de a nu fi într-un partid politic.

Odds(membru într-un partid politic) scade cu 0,1% la creșterea nivelului de educație cu o unitate.

Sig=0.039<0.05, rezultă că variabila este semnificativă pentru model, pentru un nivel de semnificație de 95 %.

Percentage corect= 98% - probabilitatea de a nu fi într-un partid politic.

3.Concluzii

În urma testelor aplicate asupra datelor din Spania, din 2010, am găsit legături semnificative între activitatea religioasă a unui individ și nivelul de fericire resimțit de acesta, nivelul educației influențează probabilitatea de a aparține unui grup discriminant, existând diferențe semnificative între persoanele de sex feminine și cele de sex masculine în ceea ce privește nivelul de fericire resimțit.

De asemenea, am observat că există diferențe de opinie între persoanele de sex masculin și cele de sex feminin în ceea ce privește nivelul de sănătate.

Totodată, contrar celor de mai sus, am observat faptul că nu există legături semnificative între nivelul de fericire şi măsura în care o persoană este liberă să decidă cum să-şi trăiască viaţa, genul unui individ nu influențează participarea la vot, vârsta unui individ sau statutul profesional nu influențează probabilitatea de a aparține unui grup discriminant, nu există

diferențe de opinie între persoanele de sex masculin și cele de sex feminin în ceea ce privește nivelul educaţie și nu există diferențe de opinie între persoanele de sex masculin și cele de sex feminin în ceea ce privește nivelul educaţiei.

De asemenea, s-a mai observat faptul că marea majoritate a persoanelor consideră mai favorabilă democrația, decât economia din Spania, 2010.