Indici Statistici de Start 24 Octombrie 2012

12
Indici statistici de start Compensează o parte a statisticii descriptive Se numesc indici de start, pentru că, cu aceşti indici începem caracterizarea colecţiei de date, după cum aceşti indici de start intră în calculele statistice ulterioare. Indicii de start sund de două categorii: 1. Indicatorii tendinţei centrale – arată pe unde ne situăm; 2. Indicii de variabilitate sau de împrăştiere. Indicatorii tendinţei centrale: 1. Media; 2. Mediana; 3. modul. Pentru caracterizarea colecţiei de date nu folosim automat media, ci în funcţie de anumite condiţii folosim unul din cei trei. Media (m-): M-=sumă de x/M Sumă de x = suma rezultatelor M = media Media: - este indicator al tendinţei centrale; - este cel mai cunoscut indicator; - folosim media pentru a caracteriza o colecţie de date cu distribuţie normală; - se calculează uşor.

description

asdfghjkllkjhgfdsa

Transcript of Indici Statistici de Start 24 Octombrie 2012

Page 1: Indici Statistici de Start 24 Octombrie 2012

Indici statistici de start

Compensează o parte a statisticii descriptive

Se numesc indici de start, pentru că, cu aceşti indici începem caracterizarea colecţiei de date, după cum aceşti indici de start intră în calculele statistice ulterioare.Indicii de start sund de două categorii:

1. Indicatorii tendinţei centrale – arată pe unde ne situăm;2. Indicii de variabilitate sau de împrăştiere.

Indicatorii tendinţei centrale:1. Media;2. Mediana;3. modul.

Pentru caracterizarea colecţiei de date nu folosim automat media, ci în funcţie de anumite condiţii folosim unul din cei trei.

Media (m-):

M-=sumă de x/MSumă de x = suma rezultatelorM = media

Media:- este indicator al tendinţei centrale;- este cel mai cunoscut indicator;- folosim media pentru a caracteriza o colecţie de date cu distribuţie normală;- se calculează uşor.

Media are însă un mare dezavantaj.

3,3,3,3,3,3,3,3,3...200

- Media este sensibilă la valorile extreme, este afectată în anumite situaţii;- Numim aceste valori extreme, valori aberante.

Mediana (med-):

Page 2: Indici Statistici de Start 24 Octombrie 2012

Este valoarea care împarte şirul de date ordonat crescător sau descrescător în două grupe egale de rezultate (50% mai mici decât mediana, 50% mai mari decât mediana).

Cum se calculează medianaModul de calcul pentru n impar:De exemplu:X,81,79,73,82,78,73,83.N=7Pasul 1: se ordonează datele crescător sau descrescător.73,73,78,79,81,82,83Pasul 2: se determină locul medianei.Loc med-=N+1/2=7+1/2=4Pasul 3: se identifică mediana.Med-=79, adică 50% sunt <79; 50%>79.

Avantajul:De regulă folosim mediana pentru a descrie o colectivitate de date pentru distribuţii nonnormale (formă de I, de J).

Modul:

Se foloseşte mai rar. Este valoarea cu frecvenţa cea mai mare dintr-o colecţie de date.De exemplu: se notează mod-4,5,6,6,7,7,7,7,8,9Mod-=7

Indicii variabilităţii sau împrăştierii, dispersiei, variabilitate:

În caracterizarea colecţiei de date folosim un indicator de(media sau mediana) şi un indicator de variabilitate.

1,2,3,4,5,6

Indicatori:1. Amplitudinea sau rangul (A):

A=x max-X minX = scor2. Dispersia sau varianţa scorurilor (sigma-^2):Sigma-^2=

2. Abaterea standart (rd sigma- +sigma-^2):

Page 3: Indici Statistici de Start 24 Octombrie 2012

Ne arată cam cu cât este abătut de la medie un rezultat, sau este media abaterilor de la medie.

7,7,7,7,8,6

Aproximativ 2/5=0,4 (relativ omogene)

Ex:10,4,10,4,7Aproximativ=12/5=2,4 (relativ eterogene)

Sigma-(X)=rd(sigma- x^2- (sigma- x)^2 /N /N)Sigma-^2 = dispersie sau varianţăSigma-= abatere standard

Când caracterizăm o colecţie de date vom da un indicator al tendinţei centrale (media şi abaterea standard).

Dacă respectiva colecţie de date nu este o distribuţie normală, atunci pentru caracterizarea colecţiei folosim mediana, iar ca indicator de dispersie – abaterea intercvartilică.

Relaţia dintre amplitudine şi abaterea standard:Intuitiv abaterea standard=A/6Întrebarea: estimaţi cam cât este abaterea standard+

4. Abaterea intercvartilică:Cvartilele sunt valorile care împart şirul de valori ordonate crescător sau descrescător în sferturi sau pătrimi, adică în intervale de câte 25%.Q1 (cvartilele 1)=25% din rezultateQ2=25%Q3=25%Q2=mediana

Abaterea intercvartilică (AIQ=Q3-Q1).

4. Indicatorul Pearson (V)Aceste date ne folosesc şi pentru a decide dacă o colecţie de date este omogenă, dacă nu este omogenă etc. Un indicator statistic suplimentar se numeşte coeficientul de variabilitate Pearson (V).V=sigma-^2/m- *100

Rare ori întâlnim distribuţii normale ideale. Dar, chiar şi distribuţii care nu sunt ideale normale, pot fi tratate ca distribuţii normale.

Page 4: Indici Statistici de Start 24 Octombrie 2012

V nu este un indicator al normalităţii distribuţiei, ci este un indicator în plus al omogenităţii al colecţiei de date. După cum V ne arată dacă media este reprezentativă şi o putem folosi pentru caracterizarea colecţiei de date.Dacă acest indicator V Pearson obţinem, se exprimă în procenteV<15%; datele sunt relativ omogene; împrăştierea este mică; media poate fi folosită pentru caracterizarea colecţiei de dateDacă V este cuprins 15,1% şi 30%; împrăştierea este relativă,, mijlocie; media este suficient de reprezentativăDacă V>30%; media nu mai este reprezentativă; nu o folosim în caracterizarea colecţiei de date

De asemenea, V Pearson ne permite să tragem unele concluzii, comparând unele concluzii parţiale (comparând V-urile calculate la mai multe variabile).

Aceşti indicatori ne folosesc pentru a trece dincolo de

Proprietăţile distribuţiei normale

Pe axa orizontală avem domeniul de variaţie, pe axa verticală – frecvenţele.

Distribuţia normală are două caracteristici principale:1. Este simetrică (simetria): Skewness;2. Boltirea: Kurtosis.

Ea Are boltire medie.Ambele condiţi trebuie îndeplinite.

O distribuţie turtită se numeşte platikurtică.Distribuţia lectokurtică (în formă de plăcintă).

Reţinem că, media într-o distribuţie corespunde unui scor real sau calculat. De exemplu, la examenul de statistică, media în psihologie este 7,5 (nota nimeni nu a obţinut-o).De asemenea, calculăm şi abaterea standard şi, în statistică calculăm nişte intervale.Media + o abatere standard: media corespunde unui scor, media + o abatere standard corespunde altui scor.Calculăm media + două abateri standard: corespunde unui scor real. Exemplu, media=7, abaterea standard=1, punctul media+abaterea standard=7+1=8.

Page 5: Indici Statistici de Start 24 Octombrie 2012

Calculăm media-o abatere standard; medie-două abateri standard

Proprietăţile distribuţiei normale:- Într-o distribuţie normală media, mediana şi modul sunt egale;- 50% din scoruri sunt mai mici decât media şi 50% mai mari decât media;- Cele mai multe scoruri, rezultate, note, sunt grupate în jurul mediei;- Cu cât un scor se îndepărtează mai mult de medie, cu atât el este mai rar, mai

puţin frecvent.

Media=50Abaterea standard=101 – 2 – 350 – media+abatere standard=60 – 70 - 80Media-o abatere standard=40 – 30 – 20

În intervalul determinat de medie şi medie + o abatere standard se află acelaşi număr de scoruri sau acelaşi procent ca şi în intervalul medie şi medie – o abatere standard (între 50 şi 60 se găseşte acelaşi număr de scoruri ca şi între 40 şi 50). În intervalul determinat de medie şi medie + două abateri standard

În intervalul medie medie + trei abateri standard se găseşte acelaşi procentaj de scoruri ca şi în intervalul medie medie – trei abateri standard.

În intervalul medie şi medie + o abatere standard se află întotdeauna 34% din rezultate.În intervalul medie şi medie – o abatere standard se află tot 34% din rezultate.În intervalul medie şi medie + o abatere standard şi medie – medie – o abatere standard avem 68% din rezultate.

- în intervalul medie şi medie + două abateri standard se află întotdeauna 47,5% din rezultate;

- idem, în intervalul medie – două abateri standard şi medie se află tot 47,5% din rezultate;

- în intervalul medie – două abateri standard şi medie + două abateri standard se află 95% din rezultate;

- în intervalul medie şi medie + trei abateri standard întotdeauna se află 49,5% din rezultate; în intervalul medie – trei abateri standard şi medie se află tot 49,5% din rezultate; deci între medie – trei abateri standard şi medie + trei abateri standard avem 99% din rezultate;

- restul de 1%: 0,5% şi 0,5%.

Notă:Media, media +- o abatere standard; media media +- douuă abateri standard; media +- trei abateri standard sunt valori reper.Valori reper (media).

Page 6: Indici Statistici de Start 24 Octombrie 2012

În proprietăţile distribuţiei normale a intervenit o aproximare acceptată. Nu este vorba de o medie +- două abateri standard, ci de medie +- 1,96 abateri standard.Nu e vorba de medie +- 3 abateri standard, ci de medie +- 2,58 abateri standard.

Analiza caracteristicilor distribuţiei normale, normalizarea datelor, eliminarea valorilor dubioase aberante dintr-o colecţie de date:

I.Se consideră nu în totalitate că metodele statistice utilizate în cadrul distribuţiei normale, numite metode parametrice, sunt mai sensibile, decât metodele de calcul, decât cele utilizate în cadrul unor distribuţii non normale, numite metode neparametrice.

NOTĂ:Aceasta înseamnă că, având o colecţie de date, primul pas al prelucrării statistice constă în analiza formei distribuţiei.Pasul 2:Dacă distribuţia normală – metode parametrice;Dacă distribuţia non normală – metode neparametrice.

Nu este obligatoriu ca într-o cercetare să obţinem distribuţii normale. Totuşi, în cazul unor colecţii de date, se poate pune problema normalizării datelor.În anumite cercetări pot apărea valori aberante, dubioase: una sau două valori foarte mari sau foarte mici, sau care diferă de majoritatea. Apariţia lor are explicaţie psihologică.Exemplu: la un chestionar sau obţinut următoarele date:X: 2 50 52 54X = variabilă

Eliminarea datelor aberante dintr-o colecţie de date:Într-o cercetare pot apărea una-două valori foarte diferite de celelalte. Sunt mai multe proceduri prin care decidem dacă valorile respective se menţin sau nu (Pag.107).

a. Testul celor 3 sigma-;b. Testul Grubbs;c. Testul Q (Ding, Dixon);d. Testul t;e. Testul Romanovski;f. Testul lambda (Irw);g. Testul sau procetura abaterii intercvartilice.

Page 7: Indici Statistici de Start 24 Octombrie 2012

II. Modificarea sau normalizarea datelor:

Aşa cum am spus, procedurile parametrice sunt considerate mai sensibile.Problema:Am obţinut o colecţie de date – verificăm normalitatea distribuţiei – nu obţinem o distribuţie normală.

Eliminarea valorilor dubioase în mod onest:Acel 2 poate fi eliminat.Aceste proceduri de obţinere a distribuţiei normale se numesc tehnici de normalizare a distribuţiei, care sunt:

1. Eliminarea valorilor dubioase (Vezi punctul 1);2. Pentru o distribuţie asimetrică excesivă, vizibilă:

Pentru o distribuţie asimetrică excesivă putem elimina legal 2,5% din valorile de la fiecare extremitate, cele mai mari şi cele mai mici (procedura se numeşte media 5%trim).

3. Se extrage radicalul din toate valorile distribuţiei (pentru asimetrie pozitivă);4. Ridicarea la pătrat sau cub în cazul distribuţiilor lectokurtice.

După aplicarea uneia din aceste proceduri se verifică din nou normalitatea distribuţiei.

Notă:Evitaţi obsesia inorogului.

III. Analiza distribuţiei unei colecţii de date:

Stabilim dacă distribuţia este normală sau nu.Unele distribuţii sunt de forma curbei normale ideale (dar foarte rar).Sunt unele distribuţii care nu se încadrează în ceea ce am numi curba normală idală, ci ia uşoare abateri. Există măsuri de toleranţă, o marjă de eroare acceptată, ca unele distribuţii, chiar dacă nu sunt nomrale, dieale, pot fi tratate ca distribuţii normale.

Trebuie să apreciem la o distribuţie normală:1. Simetria (oblicitatea) sau Skewness;2. Boltirea )medie) sau Kurtosis.

a.Simetria:

1. Indicatorul Lewis Beck pentru eşantioane mari:Introducem datele în calculator în SPSS; cerem Skewness şi apoi:

- dacă indicele Skewness obţinut în SPSS este cuprins între -0,8 inclusiv şi +0,8, decidem, acceptăm că că distribuţia este normală; N>=200 (N = mărimea eşantionului; numărul date din colecţia de date).

2. Calculul cotei z a indicelui de oblicitate Skewness:Se bazează acest calcul tot pe indicii furnizaţi de SPSS, care, când îi cerem ne dă mai multe: medie, abateri standard etc.

Page 8: Indici Statistici de Start 24 Octombrie 2012

- Skewness=...;- Standard error of skewness.Verificăm noi:Cota z skewness=skewness / standard error of skewnessDacă pentru un eştantion N<30, indicatorul obţinut prin împărţirea aceasta trebuie să fie mai mic sau egal cu 1,58. Decidem că distribuţia este simetrică.Pentru un eşantion n>30, pragul este 1,96. Cota z skewness<=1,96. Exemplu: într-o cercetare privind stabilitatea emoţională la maneliste, N=30; indicii calculaţi în SPSS sunt:Skewness=0,41;Standard error of skewnesss=0,42.Cota z skewness=041/0,42<0,97<1,96De asemenea

3. Stabilirea simetriei pe baza intervalului de încredere:Şi în statistică există o anumită încredere. În niciodată nu putem fi siguri de ceva. Acest lucru este pragul de încredere exprimat în procente sau gradul de încredere pentru publicul larg, prag de semnificaţie.Prag de încreddere 95%.Prag de semnificaţie = probaibilitatea de a greşi.În statistică credem într-un rezultat când avem o încredere de 95%.Pragul de încredere trebuie să fie cât mai mare.Pragul de semnificaţie trebuie să fie cu atât mai mic.95%: P=0,05;96%: P=0,0497%: P=0,0399%: P=0,01P = pragul de semnificaţie.>99%: P<0,01

Stabilirea, aprecierea pragului de încredere:Pentru P=0,01; indicele Skewness trebuie să se afle în intervalul +-1*standard error of skewness.Pentru P=0,05; indicele skewness trebuie să se afle în +-2standard error of skewness.Exemplu: În exemplul de mai sus (pentru maneliste); standard error of skewness=0,42. Asta în eamnă că indicele skewness trebuie să se afle în intervalul +-0,42 (0,41 se află). Deci distribuţia este simetrică.

b.Boltirea sau kurtosis:

1. Calculul cotei z al indicelui kurtosis:Idem, ca la cota z skewness:Cota z kurtosis=kurtosis/standard error of kurtosisExemplu: într-o cercetare cu N=30; kurtosis=1,34 (poate fi cu minus sau cu plus); standard error of kurtosis=0,83.Aplicăm formula: cota z kurtosis=1,34/0,83=1,61.

Page 9: Indici Statistici de Start 24 Octombrie 2012

Ne uităm la indicaţia de ami sus, trebuie 1,61<0,.96, decidem că boltirea este medie.2. Stabilirea, aprecierea boltirii pe baza intervalului de încredere:

Ca mai sus:- indicatorul kurtosis trebuie să se afle în intervalul +-1 standard error of kurtosis

(p=0,01);- indicatorul kurtosis se află în +-2 standard error of kurtosis (p=0,05).

Cotele z-

Notă:Pentru numele lui Dumnezeu, să nu se confunde cotele z cu criteriul (testul z).Există anumite norme sau cotele z, dar există un calcul statistic numit testul z.

Diferite instrumente psihologice au domenii de variaţie diferite. De exemplu, la un chestionar cu 20 de întrebări (fiecare 1-5) domeniul de variaţie este 1-10. La un chestionar cu 16 întrebări 1-5; domeniul de variaţie este 16-80.De multe ori, pentru a comunica naumite rezultate, pentru a ne face înţeleşi, trebuie să transformăm rezultatele în unităţi de măsură standard.O modalitate de a transforma în acelaşi unităţi de măsură o reprezintă cotele sau scorurile z. Adică, vom transforma datele în acelaşi sistem de măsură.Indiferent de domeniul de variaţie, în cotele z vom obţine aceleaşi unităţi de măsură.

3. Criteriul sau testul z: