Post on 25-Jul-2015
Capitolul 7
Testele în analiza statistică aplicată
Analiza statistică presupune aplicarea unor metode de calcul datelor sau şirurilor de date
statistice în vederea:
testării anumitor calităţi, caracteristici ale acestora
stabilirii existenţei unei relaţii între acestea
determinarea tipului de relaţii dintre acestea
determinarea semnificaţiei relaţiei dintre date
Aminteam la sfârşitul capitolului precedent faptul că în statisică există două categorii de
teste: parametrice şi neparametrice. Testele parametrice sunt teste care se utilizează mai ales
în ştiinţele exacte , aplicându-se în general dalor intervale cu frecvenşe absolute. Datele cărora
li se aplică trebuie să aibă o distribuţie normală. Sunt cunoscute ca fiind teste foarte riguroase,
cu “greutate” ştiinţifică. Datorită acurateţii privind calitatea datelor aceste teste se utilizează
mai rar în ştiinţele sociale şi deci şi în turism sau geografia umană.
Testele neparametrice. Acestea se aplică tuturor categoriilor de caracteristici (nominale,
ordinale sau intervale). Distribuţia normală a datelor nu este o condiţie pentru a putea fi
utilizate în testele non parametrice. Aceste teste sunt mai puţin pretenţioase în ceea ce
pviveşte calitatea datelor ca cele parametrice dar sunt mult mai ‚robuste’ şi flexibile.
În turism aproape toate metodele aplicate sunt neparametrice.
Cu alte cuvinte în acest curs de statistică aplicată se vor utiliza numai metode şi tehnici
neparametrice
7.1. Corelaţia
7.1.1. Introducere
Definiţii.
“Corelaţia... reprezintă un test utilizat pentru exprimarea gradului de asociere sau a
intensităţii unei relaţii existente între două valori sau mai multe variabile”(Goodall 1987)
“Corelaţia ... este o metodă... de descriere a gradului de asociere dintre 2 seturi de valori
pereche” (Hammond and McCullagh 1982)
Corelaţia este o metodă eficientă de a detecta şi însuma relaţiile dintre două variabile.
Aspectul cel mai important privind corelaţia este acela privind „citirea” lor, adică
interpretarea rezultatului obţinut. Acest rezultat, de fapt , măsoară legătura dintre variabile;
stabileşte gradul de legătură dintre ele. Această măsurătoare sau grad se numeşte , coeficient.
Există un număr mare de coefcienţi de corelaţie în statistică, în funcţie de natura
variabilelor , a legăturii, a modului de colectare a datelor etc. Toţi coeficienţii de corelaţie în
final detectează dacă valorile unor variabile co-variază (variază împreună). Adică indică dacă
diferenţele apărute la nivelul valorilorilor unei variabile tind să se asocieze cu diferenţele
apărute la nivelul alteia. Odată stabilită corelaţia, această NU presupune automat, faptul că o
variabilă este determinată sau cauzată de cealaltă. Corelaţia stabileşte prezenţa de relaţii
cauzale, dar nu este suficintă pentru a demonstra cauzalitatea unei relaţiI. Cu alte cuvinte
corelaţia poate indica prezenţa unei relaţii de cauzalitate dar nu o demonstrează.
În afară de faptul că prin corelaţie se stabileşte co-variaţia, coeficienţii de corelaţie pot
furniza trei tipuri de informaţie asupra relaţiei descoperite:
1. intensitatea relaţiei, indicată de valoarea coeficentului de corelaţie; cu cât acesta
este mai mare cu atât relaţia este mai puternică
2. direcţia relaţiei (mai ales pentru datele ordinale şi intervale), pozitivă sau
negativă
3. linearitatea, tendinţa de distribuţia a datelor variabile, liară sau non-lineară
Mai concret: în statistică corelaţia are un înţeles, semnificaţie, specific/ă. Presupune
automat faptul că , spre exemplu ,”în timp ce o variabilă creşte sau descreşte ca valoare a doua
variabilă creşte sau descreşte şi ea”. Pentru exemplificare priviţi figura de mai jos. ( Fig. 7.1.)
Ea reprezintă un exemplu de distribuţie a două variabile A şi B. Vizual, se poate detecta vreo
relaţie, corelaţie între ele? Adică putem spune că se întâmplă ceva cu A în timp ce cu B se
întâmplă ceva sau altceva? Există o relaţie de covariaţie?
Fig. 7.1.
Răspuns corect: nu !
Dar în figura de mai jos?
Fig. 7.2.
Răspuns corect: da! Mai mult observăm că atunci când una creşte, cealaltă creşte şi ea. În
limbaj statistic avem de a face cu o corelaţie pozitivă între cele 2 variabile.
Repetăm jocul observaţei şi cu figura de mai jos! (Figura 7.3.) Există vreo relaţie,
corelaţie între variabilele de mai jos?
Fig. 7.3.
Răspuns corect: da! Mai mult observăm că atunci când una scade, cealaltă scade şi ea. În
limbaj statistic avem de a face cu o corelaţie negativă între cele 2 variabile.
Până în acest stadiu am putut determina doar vizual existenţa sau inexistenţa unei co-
variaţii şi direcţia. Fireşte pentru a determina aspecte privind intensitatea relaţiei şi
linearitatea ei este nevoie de mult mai mult decât o observaţie vizuală. Este nevoie de
obţinerea prin calcul a coeficientului de corelaţie.
Corelaţia ca şi metodă de calcul statistic va avea întotdeauna ca rezultat o valoare
numerică cuprinsă între -1 şi +1
Acesta poartă denumirea de coeficient de corelaţie şi se notează cu r şi va avea precum
aminteam mai sus valori ce se pot înscrie/reprezenta pe axa de mai jos
-1____________ 0 ___________+1
Ca urmare în funcţie de valorile înregistrate de r, în teoria modelelor de corelare apar
situaţiile ideale şi anume: corelaţia perfect negativă şi cea perfect pozitivă, cu distribuţie
perfect lineară ; adică valorile ambelor variabile se distribuie perfect linear ascendent sau
descendent (cu inclusiv situaţia exccepţională când cele două variabile se suprapun ca
valoare). Priviţi figurile 7.4a, 7.4b.
Fig. 7.4a : Corelaţia perfect negativă (r = -1)
Fig .7.4b: Corelaţie perfect pozitivă (r = +1)
Ele reprezintă modelele ideale, perfecte de corelare. Acestea sunt evident situaţiile de
exccepţie, în realitate, relaţia dintre variabile înregistrând intensităţi, direcţii şi linearităţi
diferite comportându-se ca atare!
Aşa cum aminteam anterior, există un număr foarte mare de metode statistice de corelare !
Cele mai cunoscute şi utilizate sunt:
1) Coeficientul de corelaţie produs-moment, Person (Pearson’s Product Moment
Correlation Coefficient). Acesta este un coeficient de corelaţie parametric, adică mai rar
utilizat în ştiinţele sociale şi deci şi în turism (prezentat în capitolul anterior, vezi capitolul 6).
2) Coeficientul de corelaţie cu rang, Spearman (Spearman’s rank Correlation
Coefficient). Formula acestuia ca variantă simplă lineară este:
7.1.2. Coeficientul de corelaţie cu rang, Spearman: condiţii de aplicare
- date (variante) pentru 2 variabile.
- acelaşi număr de valori pentru ambele variabile.
- minimum 4 perechi de valori.
- date ordinale sau intervale.
Calculul formulei coeficientului de corelaţie presupune 12 stadii !
Studiu de caz
Râmania, perioada 1991 - 2000
Variabila 1: PNB (per cap loc.)
Variabila 2: Număr vizitatori străini
An PNB(US$) Număr vizitatori străini
1991 1243 5,359,000
1992 859 6,401,000
1993 1159 5,786,000
1994 1323 5,898,000
1995 1564 5,445,000
1996 1563 5,205,000
1997 1565 5,149,000
1998 1872 4,831,000
1999 1585 5,224,000
2000 1645 5,264,000
Dorim să vedem dacă există vreo relaţie/corelaţie între PNB şi numărul de vizitatori
străini, adică dorim să stabilim dacă cele două variabile co-variază.
Stadiul 1
Se întocmeşte reprezentarea grafică de distribuţie a valorilor celor 2 variabile pentru
analiză vizuală.
Dacă distribuţia nu pare să ia o formă corelativă înseamnă că nu există o corelaţie şi
calculul nu se mai justifică. Adică : dacă aparent nu putem stabili că cele 2 variabile co-
variază, că dezvoltă vreo relaţie atunci calculul coeficientului de corelaţie este inutil!
Pentru studiul nostru de caz distribuţia valorilor se prezintă ca în figura (fig. 7.5.) de mai
jos:
Fig. 7.5.
Aparent ele co-varieză, având o tendinţă descendentă, direcţie negativă. adică pare să existe o
relaţie între cele două, o relaţie cu tendinţă neativă, descrescătoare.
Stadiul 2
Observând datele şi distribuţia acestora situaţia este aparentă şi neclară. În acest caz, se
formulează o ipoteză. aceasta de regulă se bazează pe observaţia efectuată. se numeşte ipoteză
iniţială şi se notează cu Hi. În cazul de faţă o ipoteză H i , evidentă. ar putea fi : „Există o
relaţie între PNB şi numărul de vizitatori străini în România în perioada 1991 – 2000’”
Conform convenţiei statistice în rigoare această ipoteză se exprimă întotdeauna negativ.
Adică invers decât pare să fie situaţia. .
Aceasta ipoteză se numeşte ipoteza nulă şi se notează cu HO. Şi dacă aparent există o
relaţie între cele două, ipoteza nulă se va exprima: ‘ Nu există nici un fel de relaţie între
PNB şi numărul de vizitatori străini în România în perioada 1991 – 2000’
Stadiul 3
Se construieşte un tabel cu 6 coloane în care se înscriu mai întâi datele exsitente,
utilizându-se primele 2 coloane (1 şi 2)
Variabila 1
(PNB)
Variabila 2
(vizitatori)
1243 5,359,000
859 6,401,000
1159 5,786,000
1323 5,898,000
1564 5,445,000
1563 5,205,000
1565 5,149,000
1872 4,831,000
1585 5,224,000
1645 5,264,000
Stadiul 4
Se acordă rang de mărime valorilor variabilei 1 (i.e. cea mai mare valoare =1, următoarea
= 2 etc). Înscrieţi rangul fiecărei valori în coloana 3.
Stadiul 5
În mod similar acordaţi rang de mărime valorilor variabilei 2. Înscrieţi rangul fiecărei
valori în coloana 4.
Tabelul va arăta acum aşa!
Variabila 1
(PNB)
Variabila 2 (număr
vizitatori)
Rang
Variabila 1
Rang
Variabila 2
1243 5,359,000 8 5
859 6,401,000 10 1
1159 5,786,000 9 3
1323 5,898,000 7 2
1564 5,445,000 5 4
1563 5,205,000 6 8
1565 5,149,000 4 9
1872 4,831,000 1 10
1585 5,224,000 3 7
1645 5,264,000 2 6
Stadiul 6
Se calculează diferenţa dintre ranguri (rang 1 – rang 2). Adică din coloana 3 se scade
coloana 4. Diferenţa de rang se notează cu d şi se înscrie în coloana 5.
Variabila 1
(PNB)
Variabila 2 (număr
vizitatori)
Rang
Variabila 1
Rang
Variabila 2
d
1243 5,359,000 8 5 3
859 6,401,000 10 1 9
1159 5,786,000 9 3 6
1323 5,898,000 7 2 5
1564 5,445,000 5 4 1
1563 5,205,000 6 8 -2
1565 5,149,000 4 9 -5
1872 4,831,000 1 10 -9
1585 5,224,000 3 7 -6
1645 5,264,000 2 6 -4
Stadiul 7
Se ridică la pătrat d (diferenţa de rang). Aceasta se notează cu d2 şi se înscrie în coloana
6.
Variabila 1
(PNB)
Variabila 2 (număr
vizitatori)
Rang
Variabila 1
Rang
Variabila 2
d d2
1243 5,359,000 8 5 3 9
859 6,401,000 10 1 9 81
1159 5,786,000 9 3 6 36
1323 5,898,000 7 2 5 25
1564 5,445,000 5 4 1 1
1563 5,205,000 6 8 -2 4
1565 5,149,000 4 9 -5 25
1872 4,831,000 1 10 -9 81
1585 5,224,000 3 7 -4 16
1645 5,264,000 2 6 -4 16
Stadiul 8:
Se calculează d2 adică suma tuturor valorilor d2.
d2 = 294
Stadiul 9:
Utilizaţi datele obţinute în formula următoare:
unde
rs = este coeficientul de corelaţie)
n = numărul de perechi ale variabilelor 1şi 2 (sau A şi B)
rs = - 0.78 (aceasta este Coeficientul de de corelaţie)
Stadiul 10:
Se analizează semnificaţia coeficientului de corelaţie. Analiza semnificaţiei presupune în
primul rând testarea semnificaţiei. Testarea semnificaţiei presupune siguranţa, corectidunea,
încrederea în rezultatul obţinut. Aceasta se exprimă prin gradul de confidenţă al coeficientului
de corelaţie.
De regulă în ştiinţele sociale este nevoie de un grad de confidenţă de cel puţin 95%
înainte să se accepte un coeficient. În statistică gradul de confienţă este notat cu p. El este pre
calculat şi se găseşte în tabele consacrate. Un grad de confidenţă de 95% se notează în aceste
tabele sub forma de p = 0.05. Gradul de confidenţă este menţionat întotdeauna în
interpretare şi analiză şi înscris obligatoriu în forma p = 0.05
Pentru o siguranţă şi o rigoare ştiinţifică mai mare se poate merge la 99% grad de
confidenţă asupra rezultatului. Acesta se notează cu p = 0.01 Cu cât valoarea lui p este mai
mică cu atât gradul de confidenţă este mai mare ceea ce implică o siguranţă mai mare şi
rigoare de calcul mai mare. Gradul de confidenţă cu care se lucrează se stabileşte încă din
stadiile incipiente de calcul în funcţie de natura variabilelor şi numărul de perechi de date
disponibile. În general pentru studiul proceselor, fenomene sociale cu caracter amplu,
general când sunt disponibile puţine perechi de date şi ne raportăm la perioade de timp
mari, se lucrează cu p = 0,05. Când se studiază procese, fenomene de detaliu cu număr
mare de perechi de date,pe perioade mici de timp se lucrează că cu p = 0,01.
Tabelul de mai jos reprezintă o variantă simplificată a unui tabel consacrat cu grade de
confidenţă.
Pentru stabilirea semnificaţiei din studiul nostru de caz se utilizează coloana 1 în care se
află N = numărul de perechi de variabile. În studiul nostru de caz am utilizat 10 perechi.
Astfel urmărim pentru N = 10, valorea de semnificaţie pentru p = 0.05.
N
(număr de
perechi de
95%
(p = 0.05)
99%
(p= 0.01)
variabile)
5 1.000 -
6 0.886 1.000
7 0.786 0.929
8 0.738 0.881
9 0.683 0.833
10 0.648 0.794
12 0.591 0.777
14 0.544 0.715
16 0.506 0.665
Se raportează valoarea lui r la valorile p = 0.05 pentru N =10.
Dacă coeficientul de corelaţie r este egal sau mai mare decât valoarea lui p [se ignoră
semnul lui r (plus sau minus)] SE RESPINGE IPOTEZA NULĂ.
Coeficientul de corelaţie r, este 0.78, mai mare decât valorea lui p = 0,05 ( de 95%)
aceasta fiind de0.648. În concluzie se respinge ipoteza nulă (Nu există nici un fel de relaţie
între PNB şi numărul de vizitatori străini în România în perioada 1991 – 2000’) şi se acceptă
ipoteza iniţială, (Există o relaţie între PNB şi numărul de vizitatori străini în România în
perioada 1991 – 2000’”)
Dacă s-ar fi ales ca grad de confidenţă p = 0,01 situaţia ar fi fost coplect diferită. S-a
stabilit ca grad de confidenţă p = 0,05 deoarece: variabilele se referă la indicatori destul de
ampli, la nvel de ţară pe o perioadă destul de limitată de timp cu valori la nivel anual.
În concluzie se poate spune că cele două variabile sunt corelate cu un grad de confidenţă
de 95%
Stadiul 11
Cel mai important lucru din punct de vedere al ştiinţelor sociale şi deci şi al turismului
este interpretarea şi analiza rezultatelor. Ce înseamnă valoarea lui rs şi faptul că am acceptat
Hi ?
În final oricine poate calcula un coeficient de corelaţie. Important este cum este interpretat
rezultatul şi ce înseamnă el!
Până aici s-a stabilit (ce-i drept, ştiinţific) faptul că există o relaţie. Care este, însă natura
relaţiei dintre PNB şi numărul vizitatorilor străini din România în perioada 1991-2000?
De ce numărul turiştilor străini pare să scadă în timp ce al PNB-ului să crească?
Ce putem spune despre contribuţia turismului la PNB-ul României?
Stadiul 12:
Se scriu intepretările. Aici este locul şi momentul în care se foloseşte coeficientul de
corelaţie, pentru interpretarea rezultatelor
De regulă se foloseşte formula:
“Există o puternică corelaţie negativă între PNB şinumărul de vizitatori străini în România
în perioada 1991 – 2000 (rs = -0.78, p = 0.05). Acest fapt se datorează …”
7.2. Testele neparametrice de semnificaţie. Semnificaţia statistică .
Definiţie
Semnificaţia statistică reprezintă una dintre cele patru funcţii de baza ale statisticii. În
literatura de specialitate această tema se mai găseşte şi sub denumirea de „testarea
semnificaţiei statistice” sau „testarea diferenţei la nivel de set de date”
7.2.1. Introducere
Pentru a pune întreaga temă într-un context clar şi logic este necesară în acest moment o
trecere în revistă a teoriei funcţiilor statisticii.
Din punctul de vedere al ştiinţelor sociale (inclusiv a turismului şi ) statistica devine utilă
prin cele 4 funcţii de bază ale sale:
funcţia descriptivă
funcţia deductivă
funcţia semnificaţiei
funcţia prognozării
În primele capitole ale cursului s-a insistant în mod deosebit asupra teoriei datelor şi
operaţiilor statistice elementare sau a primelor stadiile de operare statistică. La o privire mai
atentă se poate concluziona că acestea reprezintă de fapt „instrumente” ale funcţiei
descriptive. Ele nu fac altceva decât să descrie într-o măsură mai mică sau mai mare, mai
superficial sau mai profund elemente, componente, procese sau fenomene ale activităţii
sociale sau .turistice în cazul nostru.
A fost prezentat anterior şi o metodă de determinare şi stabilrea existenţei unei relaţii între
două variabile care nu a reprezentat altceva decât un exemplu aplicativ al funcţiei deductive .
Astfel de metode se mai numesc şi metode statistice deductive sau pur şi simplu statistici
deductive ca urmare a faptului că pornesc de la o supoziţie (deducţie) stabilită (demonstrată)
ulterior şi verificată printr-un rezultat. În turism ca şi în geografie, specialiştii lucrează
preponderent cu date selective (obţinute prin generare) şi care nu sunt exhaustive. Adică
aceste date reprezintă eşantioane (sunt obţinute eşantionat) dintr-o populaţie întreagă;
sunt şiruri finite; ”incomplete” deoarece totalitatea lor absoluta este imposibil a fi obţinută.
Exemplu: ‚ comportamentul decizional în alegerea destinaţiei de vacanţă pentru o anume
grupă de vârstă de turişti sau grupă socială”. A obţine datele statistice pentru întreaga
populaţie , adică toţi potenţialii turişti fie şi ai unui oraş este aproape imposibil. Se selectează
astfel un eşantion reprezentativ asupra căruia se generează datele statistice necesare iar cu
datele respective se fac aprecieri, deducţii, în funcţie de anumiţi factori sau situaţii luate în
calcul, pentru a se demonstra comportamentul decizional. Acest comportament poate fi
corelat în evoluţia sau desfăşurarea sa cu anumiţi alţi factori etc (co-variaţia).
Selectarea, eşantionarea presupune obligatoriu probabilitatea existenţei unui anumit grad
de eroare în măsurătoare şi în deducţia finală (a se revedea toată teoria cu gradul de
confidenţă). Probabilitatea este conceptul statistic care deosebeşte datele selective, (finite,
obţinute prin eşantionare) de cele exhaustive (absolute, complete, obţinute în ştiinţele exacte
din măsurătorile de laborator şi care reprezintă toată populaţia nu un eşantion). Prin urmare
datele selective, eşantioanele, includ o probabilitate de eroare în timp ce cele exhaustive NU
(acestea fiind cele folosite în metodele parametrice). Metodele de analiză statistică precum
coeficienţii de corelaţie stabilesc o relaţie şi serie de caracteristici dar nu dau posibilitatea
aprofundării cauzalităţii sau a altor aspecte relaţionale. În concluzie funcţia deductivă
presupune că: în condiţii specifice, probabilitatea unei presupuneri/ipoteze (deducţii)
efectuate pe baza unor eşantioane de populaţie , să fie validă.
Profunzimea analizei statistice este dată în continuare de îndeplinirea funcţiei
semnificaţiei.
7.2.2 Semnificaţia statistică
Aspectele privind semnificaţia statistică a unor mărimi, valori, variabile sau – mai
frecvent – cea a semnificaţiei diferenţei dintre două mărimi, valori, variabile atunci când se
compară , presupune că cel puţin una dintre ele se obţine prin eşantionare. Acest ultim fapt
presupune la rândul său ideea de probabilitate de eroare.
Semnificaţia statistică reprezintă una dintre cele mai puternice funcţii din punct de vedere
al ştiinţelor socio-geografice şi deci şi turistice. Aceasta stabileşte dacă diferenţa sau relaţia
dintre două seturi de date selective (eşantioane) este semnificativă.
Ea presupune în primul rând comparaţia între valori (cel puţin una) determinate la nivel de
eşantion, adică acele valori care nu reproduc perfect şi absolut caracteristicile populaţiei
statistice. Aceste valori presupun prin natura lor o marjă de variaţie adică un interval pe care
se găsesc valorile efective ale populaţiei. Undeva apare o diferenţă!
Pentru a fi siguri că diferenţa dintre valorile în eşantion reflectă o diferenţă reală de
valori în populaţii, distanţa dintre mărimile comparate trebuie să depăşească mărimea
intervalului pe care se află , cu o anumită probabilitate, valorile din populaţie. Cu alte
cuvinte o diferenţă este semnificativă dacă depăşeşte eroarea maximă admisă, adică ea nu
poate fi pusă (integral) pe seama fluctuaţiilor fireşti de eşantionare.
În caz contrar se va spune că diferenţa nu este semnificativă (exclus a se folosi
nesemnificativă). O diferenţă care nu este semnificativă reflectă o deosebire despre care nu se
poate spune cu o probabilitate suficient de mare că este reală, acesta nu înseamnă că ea nu
este reală.
7.2.3. Testele de semnificaţie sau testarea diferenţei la seturi de
date/eşantioane
Ce presupun testele de semnificaţie sau testarea unei diferenţe la seturi de
date/eşantioane? Obiectivul final al acestora este acela de a explica diferenţa aparentă. Înainte
de a se căuta explicaţii cauzale, se doreşte a se determina cât de mare este această diferenţă
cât de semnificativă este ea.
În domeniul turismului şi al studiilor privind recreerea, în mod frecvent şi de regulă se
folosesc date relevante pentru comparaţie ca de exemplu : locaţii diferite, ori asupra unor
grupe umane diferite sau înainte şi după un anume eveniment.
În astfel de situaţii apare necesitatea determinării semnificaţiei diferenţelor dintre valori,
mărimi, variabile; adică a se testa diferenţele presupuse, (incluse, implementate ori induse) de
seturile respective de eşantioane de date.
Exemple de eşantioane de date utilizate:
Preţul mediu hotelier la cazare în 2 staţiuni diferite.
Comportamentul decizional asupra destinaţiei de vacanţă a 2 grupe sociale
diferite.
Grupele de vârstă ale vizitatorilor unui obiectiv din zilele ‚cu eveniment’ sau
‚fără eveniment’.
Atitudini ale turiştilor privind destinaţia de vacanţă înainte şi după vizitarea
acesteia.
Practic avem date asupra a 2 locaţii diferite sau grupe umane, diferenţele presupuse de
acestea pot fi evidente strict valoric numeric dar nu indică nimic despre semnificaţia diferenţei
dintre ele prin prisma intervalului de raport la valorile probabile ale populaţiilor respective
(total necunoscute în cazul de faţă şi total lipsite de altfel de relevanţă) în limitele maxime
acceptabile de eroare. Cu alte cuvinte dorim să testăm această diferenţa dintre ele şi din punct
de vedere al semnificaţiei statistice (cuantificarea calităţii diferenţei).
Există 3 teste de semnificaţie statistică mai bine cunoscute:
Testul „T”, un test parametric
Testul „U” sau Mann Whitney, un test neparametric
Testul Wilcoxen sau testul ‚perechilor legate’ de asemenea un test neparametric
sau neparametric
7.2.4. Testul ‚U’sau Mann Whitney
Fiind un test de semnificaţie statistică va presupune automat compararea a două
eşantioane de date, probabilitatea unei erori datorate de presupusa diferenţă dintre
caracteristicile acestora şi cele ale populaţiilor respective, diferenţă arbitrată de o marjă de
eroare maximă, acceptată. Include în calcul mediile aritmetice sau medianele seturilor de
date. Varianta cea mai cunoscută de formulă pentru testul U este:
nanb +
Condiţii de aplicare:
a) Date ordinale sau intervale
b) 2 seturi de date necesar a fi comparate ( nu este necesar un număr egal de
perechi de variabile)
c) Minimum 4 valori din fiecare set de variabilă
d) IPOTEZE, Ho - ca punct de pornire, în replică pentru Hi. Ipoteza nulă (H0)
presupune întotdeauna că; ‚nu există nici o diferenţă între cele 2 seturi de date’. Cu
alte cuvinte, diferenţa dintre cele 2 seturi de date nu este semnificativă. Obiectivul
final al testului este acela de a respinge H0. în ideea acceptării Hi care presupune
existenţa unei diferenţe semnificative, acceptabilă în raport cu marja maxim
acceptabilă de eroare.
Studiu de caz aplicativ pentru testul „U” sau Mann-Whitney
Studiul de caz presupune testarea semnificaţiei diferenţei pentru numărul de turişti români
cazaţi în Băile Herculane şi Drobeta Turnu Severin din 1991 până în 2000
Dorim deci să testăm dacă din punct de vedere statistic există o diferenţă semnificativă la
nivelul numărului de vizitatori din cele 2 locaţii în aceeaşi perioadă de timp.
Atenţie, nu este vorba despre diferenţă ca operaţie aritmetică, aceasta nu are nici o
semnificaţie, în afara celei pur matematice. Semnificaţia statistică presupune la un loc ideea
de eşantion, de perioadă de timp ,de locaţii diferite ce pot implica la nivelul raportării în
populaţia statistică respectivă anumite aspecte cu caracter social.
Observaţi tabelul de mai jos !
Sunt îndeplinite condiţiile de aplicare? Da iar aplicarea testului poate continua chiar şi
condiţiile absenţei unei valori la ultima valoare a variabile 2, respectiv „turiştii români cazaţi
la Drobeta Turnu Severin”.
Anul Turişti români cazaţi la Băile
Herculane
Turişti români cazaţi la Drobeta Turnu
Severin
1991 72211 64537
1992 42968 56566
1993 72352 39182
1994 113242 40989
1995 95085 46227
1996 96631 47271
1997 66268 48885
1998 75441 32293
1999 100606 31515
2000 110286 -
Stadiul 1:
În funcţie de tipul de date pe care le deţinem se calculează media aritmetică sau mediana.
În studiul de caz de mai sus dispunem de date intervale; se calculează media aritmetică
pentru fiecare dintre cele două variabile.
Dacă
Am dispune de date ordinale se va calcula, mediana pentru fiecare coloană de date.
Rezultatele se compară. În mod evident, dacă diferenţa dintre medii/mediane nu este
semnificativă continuarea testului este inutilă.
Astfel:
Pentru variabla A (B. Herculane): media aritmetică = 84.509
Pentru variabla B (D.T.Severin): media aritmetică = 45.274
Diferenţă valorică semnificativă!
Stadiul 2:
Se stabileşte ipoteza nulă pe baza inversării uneia iniţiale care presupune existenţa unei
diferenţe semnificative. Astfel:
Ipoteza nulă este „nu există o diferenţă semnificativă între numărul turiştilor cazaţi la
Băile Herculane şi cei cazaţi la D.T. Severin în perioada 1991 – 2000”
Stadiul 3:
Se întocmeşte un tabel cu 4 coloane. Variabila A se înscrie în coloana 1 iar variabila B în
coloana 3, după cum urmează:.
Variabla A
(Turişti români cazaţi la Băile
Herculane)
Variabla B
(Turişti români cazaţi la
Drobeta Turnu Severin)
72211 64537
42968 56566
72352 39182
113242 40989
95085 46227
96631 47271
66268 48885
75441 32293
100606 31515
110286
Stadiul 4:
Acordaţi ranguri de importanţă tuturor valorilor, în ordine crescătoare. Pentru acordarea
rangului de importanţă se iau în consideraţie valorile ambelor variabile. Cu alte cuvinte rangul
NU se acorda separat pe coloane ci la ambele împreună. Astfel valoarea cea mai mică va
primi rangul 1, următoarea ca mărime va primi rangul 2 ...şamd.
Rangurile acordate pentru valorile variabilei A se plasează în coloana 2. Acesta se notează
cu ra
Rangurile acordate pentru valorile variabilei B se plasează în coloana 4. Acesta se notează
cu rb.
Variabla A
(Turişti români cazaţi la
Băile Herculane)
ra Variabla B
(Turişti români cazaţi la
Drobeta Turnu Severin)
rb
72211 12 64537 10
42968 5 56566 9
72352 13 39182 3
113242 19 40989 4
95085 15 46227 6
96631 16 47271 7
66268 11 48885 8
75441 14 32293 2
100606 17 31515 1
110286 18
În cazul în care apar valori identice se procedează la calcularea mediei rangurilor
acestora indiferent de numărul lor. Vezi tabelul de mai jos (caz didactic ipotetic, nu are nici o
legătură cu studiul de caz, este folosit ca exemplu). Valoarea 45 apare de 2 ori şi ar primi
rangul 3 ca mărime de importanţă. Rangul următor, 4, nu se înscrie niciunde şi se foloseşte la
calculul mediei rangurilor. (3 + 4) : 2 = 3,5
VA ra VB rb
30 1 45 3,5
35 2 50 5,5
45 3,5 58 7
50 5,5 62 8
75 11 69 9
80 12 70 10
Stadiul 5:
Se calculează separat suma ranguilor variabilei A, notată cu ra.
ra = 140
Stadiul 6:
În mod similar se calculează suma rangilor variabilei B, notată cu rb.
rb = 50
Stadiul 7:
Formula pentru testul U este:
nanb +
unde: na este numărul de valori al variabile A,
nb este numărul de valori al variabile B
Ea se aplică fiecărei variabile în parte!
În cazul nostru, pentru variabila A:
Stadiul 8:
Variabila B:
nanb +
Stadiul 9:
Dintre cele două valori U se alege prin convenţie valoarea cea mai mică. În cazul studiului
de caz de mai sus, este vorba despre Ua = 5
Stadiul 10:
Se decide nivelul gradului de confidenţă la care dorim să avem rezultatul. De regulă în
ştiinţele sociale se lucrează cu cel puţin 95% adică p = 0.05
Stadiul 11:
Se face apel la tabelele consacrate cu valori critice ale gradului de confidenţă pentru testul
U în vederea stabilirii acestora la p = 0.05 (95%)
nbna 1 2 3 4 5 6 7 8 9 10 11 12
1
2 0 0 0 0 1
3 0 1 1 2 2 3 3 4
4 0 1 2 3 4 4 5 6 7
5 0 1 2 3 5 6 7 8 9 11
6 1 2 3 5 6 8 10 11 13 14
7 1 3 5 6 8 10 12 14 16 18
8 0 2 4 6 8 10 13 15 17 19 22
9 0 2 4 7 10 12 15 17 20 23 26
10 0 3 5 8 11 14 17 20 23 26 29
11 0 3 6 9 13 16 19 23 26 30 33
12 1 4 7 11 14 18 22 26 29 33 37
Valoarea critică pentru un test cu 10 variante în variabile unde p ‚ 005 = 20
Stadiul 12:
Dacă valoarea de test U aleasă (cea mai mică dintre cele două calculate) este mai mică
sau egală cu valoarea critică a gradului de confidenţă stabilit, p = 0,05 atrage după sine
RESPINGEREA ipotezei nule.
În acest caz valoarea critică este 20 iar valoarea de test U = 5.
Ipoteza nulă = nu există o diferenţă semnificativă între numărul turiştilor cazaţi la Băile
Herculane şi cei cazaţi la Dr.Tr. Severin în perioada 1991 – 2000’; se respinge.
Se acceptă ipoteza iniţială, conform căreia există o diferenţă semnificativă între numărul
turiştilor cazaţi la Băile Herculane şi cei cazaţi la Dr.Tr. Severin în perioada 1991 – 2000’
Stadiul 13:
Iportant! Interpretarea rezultatului final este mai important decât faptul că după o serie de
calcule am respins o ipoteză nulă şi am acceptat una iniţială. În cazul de faţă rezultatul final
este există o diferenţă între cele două seturi de date.
Ce semnificaţie are această diferenţă? De ce există această diferenţă semnificativă?
Stadiul 14
Interpretarea şi analiza rezultatului includ întotdeauna argumente sau explicaţii.
Exprimarea acestora se face de regulă prin formula de debut: “Există o diferenţă statistică
semnificativă între numărul turiştilor români cazaţi la Băile Herculane şi cei cazaţi la Drobeta
Turnu Severin (U = 5, p = 0,05), fapt datorat.......spre exemplu faptului că cele două locaţii
reprezintă atracţii diferite în care se practică două tipuri diferite de turism: turimul balnear şi
respectiv cel de tranzit, de conferinţă şi week end.
În analiză şi argumentare se utilizează informaţie cât mai exactă asupra celor două locaţii.
Testul U sau Mann Whitney mai este cunoscut şi sub denumirea de test al nivelului de
semnificaţie.
7.2.5. Testul Wilcoxen sau testul ‚perechilor legate’
Acest test se aplică doar datelor intervale, fapt pentru care este privit ca un test mai
special. El se deosebeşte şi prin condiţiile pe care le pune la nivelul datelor intervale ce
urmează a fi testate.
Constituie o metodă statistică utilă în testarea diferenţelor la nivel de serii de date,
deseori folosit în ştiinţele sociale. Acest test este la fel de important ca cel anterior mai ales
prin faptul că testează semnificaţia eşantionului. Pentru turism el este adesea crucial ca
importanţa, cu precădere în situaţiile de sondaje la scară medie şi mică.
Condiţii de aplicare:
Obligatoriu numai date intervale.
Cel puţin 6 perechi de date.
Între cele două şiruri de date (sau variabile) trebuie să existe o anume (presupusă,
dedusă) ‚legătură’, ‚tendinţă’. Cu alte cuvinte să formeze un anume tip de ‚pereche’, să
se cupleze conform unui criteriu comun.
Între seriile de date sau între datele aceleiaşi variabile trebuie să existe, cel puţin aparent,
un anume gen de relaţie, legătură.
Exemple:
Ex 1: Vizitatori europeni în România în anii 1999 şi 2000
1999 2000
Austria 63,000 66,000
Belgia 18,000 19,000
Danemarca 9,000 10,000
În acest caz relaţia este stabilită de cei 2 ani, caz în care dacă pentru o ţară numărul de
vizitatori a fost redus în 1999 este probabil să fie redus şi în 2000.
Ex 2 Gradul de ocupare al hotelurile de pe litoralul românesc al Mării Negre (%)
2000 2001
Ianuarie 25 20
Februarie 30 29
Martie 50 48
Dacă gradul de ocupare a fost redus în ianuarie al unui an este foarte probabil să fie
redus şi în alt an – relaţia aparentă dintre seturile de date, suficientă pentru a forma perechi.
Dacă
a) Între date nu există o relaţie aparentă prin prisma căreia ele să poată forma perechi
dintr-un anumit punct de vedere sau de un anume tip
sau
b) Datele sunt nominale sau ordinale
Testul Wilcoxen NU se poate aplica şi se apelează în schimb la testul Mann-Whitney
sau U
În aplicarea acestui test analiza teoretică a relaţiei aparente dintre variabile este foarte
imoprtantă. Semnificaţia aparentă a relaţiei este ceea ce se cere de la la testul U şi ce fel de
diferenţă privim acolo în antiteză cu perechea de la Wilcoxen. Astfel se poate concluziona că
felul datelor sau mai bine spus a relaţiilor aparente dintre ele, dinamismul şi tendinţa evoluţiei
acesteia determină într-o oarecare măsură alegerea testului ce urmează a fi utilizat.
Mod de calcul
Studiu de caz: serii de date privind gradul de ocupare (%) al hotelurilor din Băile
Herculane şi Drobeta Turnu Severin în perioada 1991-2000
Băile Herculane Drobeta Turnu
Severin
1991 36 45
1992 31 30
1993 38 24
1994 41 38
1995 43 32
1996 35 32
1997 29 54
1998 37 49
1999 41 44
2000 45 43
Există o relaţie aparentă între datele de aici? Evident! Fiind vorba de 2 localităţii
situate în aceeaşi zonă turistică şi gradul de ocupare al hotelurilor acestora se presupune că
gradul de ocupare la nivelul amândurora are cam acelaşi comportament pentru aceeaşi
perioadă de timp. Gradul de ocupare (în această situaţie) pentru aceeaşi categorie de
unitate de cazare, este criteriul de „împerechere”
Presupusa relaţie de reprezintă punctul de plecare în stabilirea ipotezei nule pe baza
căreia se poate trece la calculul acestui test
Stadiul 1:
Se formulează ipoteza nulă (Ho) asupra seriilor de date în concordanţă cu o ipoteză
iniţială (.Hi). ( Ho întotdeauna exprimă negativul/inversul ipotezei iniţiale Hi ):
Ex. Nu există o diferenţă semnificativă în gradul de ocupare al hotelurilor din Băile
Herculane şi Drobeta Turnu Severin în perioada 1991-2000
Stadiul 2:
Se construieşte un tabel cu 6 coloane. În coloanele 1 şi respectiv 2 se introduc seriile
de date (denumite pentru convenienţă variabile: A=Băile Herculane şi respectiv B=Drobeta
Turnu Severin)
A
(Herculane)
B
(Turnu Severin)
36 45
31 30
38 24
41 38
43 32
35 32
29 54
37 49
41 44
45 43
Stadiul 3
Se calculează diferenţa aritmetică dintre A şi B (A-B). Rezultatul obţinut amplasează
în coloana 3 ignorând semnul (+;-)
A B A - B
36 45 9
31 30 1
38 24 14
41 38 3
43 32 11
35 32 3
29 54 25
37 49 12
41 44 3
45 43 2
Stadiul 4
Dacă în coloana (A-B) avem valori egale cu 0, acestea se exclud din analiză (se exclud
şi perechile cu totul, utilizându-se restul perechilor). Cu menţiunea că în acest caz se reduce
numărul de perechi luat în calcul!
În studiul de caz nu există astfel de situaţii, calculul continuându-se fără alte
modificări de condiţii.
Stadiul 5
Se acordă rang de importanţă valorilor din coloana (A-B) pornindu-se de la valoarea
cea mai mică căreia i se atribuie rangul 1. Valorile rangurilor se înscriu în coloana 4.
În cazul valorilor identice se procedează la calcularea mediei rangurilor valorilor
variabilor identice ca valoare indiferent de numărul acestora.
A B (A – B) Rang de (A-B)
36 45 9 6
31 30 1 1
38 24 14 9
41 38 3 4
43 32 11 7
35 32 3 4
29 54 25 10
37 49 12 8
41 44 3 4
45 43 2 2
Stadiul 6
Se compară pe rând valorile din perechile variabilelor A şi B. Acolo unde valoarea lui A este
mai mare decât a lui B se înscrie rangul atribuit diferenţei (A-B) în coloana 5. Unde valoarea
lui B este mai mare decât a lui A rangul atribuit diferenţei (A-B ) se înscrie în coloana 6.
A B A - B Rang de A-B A>B B>A
36 45 9 6 6
31 30 1 1 1
38 24 14 9 9
41 38 3 4 4
43 32 11 7 7
35 32 3 4 4
29 54 25 10 10
37 49 12 8 8
41 44 3 4 4
45 43 2 2 2
Stadiul 7
Se calculeazăi suma rangurilor pe fiecare coloană în parte (A>B şi B>A din coloanele
5 şi 6).
A B A - B Rank of A-B A>B B>A
36 45 9 6 6
31 30 1 1 1
38 24 14 9 9
41 38 3 4 4
43 32 11 7 7
35 32 3 4 4
29 54 25 10 10
37 49 12 8 8
41 44 3 4 4
45 43 2 2 2
Suma din coloana A>B (5) = 27
Suma din coloana B>A (6)= 28
Stadiul 8
Se selectează valoarea cea mai mică dintre cele 2 sume şi se noteză cu T
T = 27
Stadiul 9
Se decide cu ce grad de confidenţă se lucrează (95% sau 99%) pentru stabilirea
semnificaţiei rezultatului.
Se continuă făcând apel la tabelele consacrate, ale valorilor critice pentru testul
Wilcoxen. În cazul în care a fost redus numărul de perechi în timpul calcului el se reduce şi la
interpretare. Exempl daca au fosrt eliminate 2 perechi din calcul la interpretare în loc de 10
perechi se va urmări valoarea critică pentru 8 perechi.
Nr perechi A şi B P=0.05 P=0.01
6 0 -
7 2 -
8 4 0
9 6 2
10 8 3
11 11 5
12 14 7
13 17 10
14 21 13
15 25 16
16 30 20
17 35 23
18 40 28
19 46 32
20 52 38
Dacă valoarea obţinută pentru T este mai mică decât valoarea critică (pentru
numărul corect de perechi şi la gradul de confidenţă ales) se respinge ipoteza nulă. În orice
altă situaţie aceasta se acceptă.
Conform studiului de caz T = 27, valoare critică = 8 (95%) sau 3 (99%):
IPOTEZA NULĂ SE ACCEPTĂ! Adică nu există o diferenţă semnificativă în gradul de
ocupare al hotelurilor celor 2 locaţii.
Stadiul 9
Interpretarea rezultatului obţinut:
În studiul de caz de mai sus s-a demonstrat statistic faptul că nu există o
‚diferenţă’, semnificativă, în gradul de ocupare al hotelurilor din Băile Herculane şi Drobeta
Turnu Severin în perioada .... (în ciuda faptului că aparent exista o diferenţă valorică).
De ce?
Stadiul 10
Analiza şi exprimarea rezultatului final:
Dacă ar fi existat o diferenţă semnificativă analiza ar fi fost exprimată începându-se cu
formularea:
“Există o diferenţă (relaţie) semnificativă între gradul de ocupare din Băile
Herculane şi Drobeta Turnu Severin; T = 2, p = 0.01. Aceasta se datorează......
În cazul nostru nu există o diferenţă semnificativă între cele două pentru T = 2, p =
0.01. Această realitate se datorează faptului că în calcul este luat gadul de ocupare şi deşi cele
două locaţii sunt diferite ca destinaţie turistică, caracterizându-se prin tipuri dierite de turism
ele se află în aceeaşi zonă turistică, la distanţă relativ mica una de cealaltă. Factorul care însă
determină inexistenţă diferenţei semnificative este raportul număr locuri cazare – destinaţie
turistică.
7.2.6. Testarea semnificaţiei diferenţei la nivel de set de date absolut independente.
Testul Χ2
Aminteam anterior faptul că testarea semnificaţiei statistice presupune în primul rând
procesul de comparaţie. Testele precedente de semnificaţie statistică au stabilit semnificaţia
diferenţei la nivelul datelor selective (eşantioane) asemănătoare sau parte din aceeaşi mare
categorie. În general a fost vorba despre date „asemănătoare”. Cu alte cuvinte s-a pornit de la
ideea comparării unor date asemănătoare (unii autori le denumesc dependente) pentru a se
determina diferenţa de semnificaţie statistică dintre ele (în final demonstrată sau nu prin
acceptarea sau respingerea ipotezei nule).
Acelaşi proces de comparaţie statistică (atât de util în îndeplinirea funcţiei de
semnificaţie statistică) mai presupune şi situaţia inversă: se compară/testează semnificaţia
statistică la nivelul datelor „ne asemănătoare” sau independente pentru a se determina
asemănarea lor. Cu alte cuvinte pentru a se determina în ce măsură ele au ceva în comun, şi ce
presupune acest lucru (în final fapt demonstrat sau nu prin acceptarea sau respingerea ipotezei
nule). Acest proces se efectuează prin ceea ce este cunoscut şi sub denumirea de:
Testul de contingenţă
Ce este contingenţa?
Contingenţa
Contingenţa măsoară gradul de relaţionare sau intensitatea legăturii dintre două
elemente, fenomene, procese,în final dintre variabile/seturi de date selective/eşantioane.
Cu alte cuvinte fiind vorba de date independente, contingenţa măsoară modul în care
un aspect, o variabilă, un set de date influenţează sau este influenţat de un altul/a.
Astfel în limbajul de specialitate apar formulări de genul: unele variabile sunt
contingente cu altele sau deţin un contingent asupra altora.
EX:
Clasa socială are contingent asupra numărului de vacanţe pe care o familie şi le poate
permite.
Sezonalitatea este contingenţă cu gradul de ocupare al unui hotel.
Contingenţa însă nu este acelaşi lucru cu corelaţia.
Reamintim ce exprimă corelaţia şi aume o co-variaţie. Aceasta indică pur şi simplu faptul că o
variabilă prezintă o anumită tendinţă sau are un anumit comportament iar cealaltă sau celălalte
prezintă şi ele o anumită tendinţă sau are un anumit comportament.Corelaţia nu spune nimic
despre cauzalitate sau cum se determină ori se influenţează variabilele între ele.
Cel mai cunoscut test pentru investigarea/cunatificarea contingenţei este „testul chi2”
sau testul Χ2
Testul Χ2
Condiţii de utilizare:
În cazul necesităţii investigării tipului de relaţie între două aspecte, fenomene, indici,
indicatori INDEPENDENŢI etc… (adică a modului în care ceva/cum ceva, se leagă de
altceva, influenţează.
În cazul în care avem la dispoziţie 2 variabile independente.
Avem la dispoziţie date nominale, ordinale sau intervale.
Testul Χ2 sau Chi2 este un test non-parametric ale cărui câteva caracteristici implică
aspecte precum:
Datele exprimă categorii numărabile de elemente.
Chi2 este foarte util mai ales în analiza statistică a datelor chestionarelor (unde sunt
necesare cel puţin 100 de chestionare pentru relevanţa analizei)
Mod de aplicare
Chi2 porneşte întotdeauna de la ipoteza iniţială, Hi, conform căreia există o relaţie
între datele analizate fapt pentru care ipoteza nulă, Ho, va avea întotdeauna forma conform
căreia NU există nici o relaţie între variabile analizate.
Îşi clasifică datele utilizate în: OBSERVATE (notate cu O) – reprezintă datele
prezente, aflate la dispoziţie; şi PRESUPUSE (notate cu P) - determinate pe baza celor
observate.
Datele presupuse reprezintă datele la care se aşteaptă testul , sau pe care testul le
prognozează în cazul în care nu ar exista nici o legătură între ele sau cu alte cuvinte în
cazul în care ipoteza nulă ar fi adevărată.
Comparând datele, testul X2 stabileşte în final dacă cele între cele două variabile există
sau nu o relaţie şi care este ea.
Elemente necesare pentru aplicarea testului X2
1) Date pentru 2 variabile.
2) Datele trebuie să exprime categorii de elemente numărabile. NUMERE REALE.
3) Indiferent de forma în care se află datele acestea se introduc într-un
tabel de contingenţă.
4) Datele nu pot avea formă de procente
Studiu de caz
Date provenite de la Comisia Naţională pentru Statistică privind numărul vizitatorilor
străini în România pentru anii 1985 şi respectiv 1995, în funcţie de motivaţia vizitei.
În acest caz se poate discuta despre o posibilă relaţie existentă între date: dinamica
motivelor pentru care străinii doresc să viziteze România în perioada respectivă.
Datele sunt:
Mii turişti străini în vacanţă:
1985 = 2498
1995 = 2274
Mii turişti străini sosiţi în România pentru alte motive:
1985 = 2607
1995 = 2838
Testul Χ2 sau Chi2 presupune pentru aplicare12 stadii
Stadiul 1
Formularea ipotezelor iniţială şi respectiv nule (Hi, Ho) pentru datele luate ca bază de
studiu. Reamintim ca : Ipoteza nulă Ho exprimă întotdeauna negativul, inversul ipotezei
iniţiale Hi
În cazulacestui studiu de caz Ho este :”nu există nici relaţie (din punct de vedere al
semnificaţiei statistice aceasta este tot o diferenţă, diferenţa dintre date chemată să arate o
asemănare, aceeaşi dinamică a motivelor vizitei) între numărul turiştilor străini veniţi în
România pentru o vacanţă şi cei sosiţi pentru alte motive atât în timpul perioadei comuniste
cât şi după încheierea acesteia.
Stadiul 2
Construirea tabelului de contingenţă pentru cele două variabile prin simpla introducere
a datelor prezente şi calcularea totalurilor coloanelor şi rândurilor tabelului obţinut.
1985 1995 Total
Vizite pentru vacanţă 2498 2274 4772
Vizite pentru alte motive 2607 2838 5445
Total 5105 5112 10217
Aceste date se numesc datele cu valori OBSERVATE
Stadiul 3
Se examinează valorile observate. În cazul în care există valori egale cu 0 întregul test
devine invalid!
Stadiul 4
Se calculează valorile PRESUPUSE. (adică valorile AŞTEPTATE sau presupuse de
test în cazul în care nu ar exista nici o relaţie între cele 2 variabile)
În calculul valorilor presupuse se porneşte întotdeauna de la valorile observate. Pentru
fiecare dată observată se calculează echivalentul presupus după cum urmează :
Valoarea presupusă =
(Total rând) x (Total coloană )
Total general
1985 1995 Total
O P O P
Vizite pentru 2498 2384.4 2274 2387.6 4772
vacanţă
Vizite pentru alte
motive
2607 2720.6 2838 2724.4 5445
Total 5105 5112 10217
Stadiul 5
Se examinează valorile presupuse. În cazul în care există valori mai mici decât 5,
testul devine invalid şi se abandonează.
Stadiul 6
Se calculează X2 după formula:
X2 =
Practic pentru fiecare valoare observată:
Se calculează diferenţa (O – P)
Se ridică la pătrat fiecare rezultat
Acesta se împarte la valoarea presupusă respectivă
Se calculează suma tuturor rezultatelor obţinute
1985 1995
O P 2 O P 2 Total
Vizite pentru vacanţă 2498 2384.4 5.4 2274 2387.6 5.4 4772
Vizite pentru alte motive 2607 2720.6 4.7 2838 2724.4 4.7 5445
Total 5105 5112 10217
Valoarea totală 2 = 5.4 + 4.7 + 5.4 + 4.7 = 20.2
Stadiul 7
Se calculează gradul de libertate (gf), revenindu-se la stadiul 2 (tabelul de
contingenţă), ignorând totalurile.
Formula gradului de libertate este:
gf = (nr) - 1 x (nc) – 1
Unde : nr = număr de rânduri
nc = număr de coloane
Pentru acest studiu de caz :gf = (2-1) x (2-1) = 1
Stadiul 8
Se alege gradul de confidenţă.
95% (p= 0.05)
99% (p=0.01)
99.9%(p=0.001)
95% reprezintă gradul minim de confidenţă acceptat în ştiinţele sociale .
Stadiul 9
Se face apel la tabelul valorilor critice al gradului de confidenţă pentru testul X2.
Grad de libertate
95%
(p=0.05)
99%
(p=0.01)
99.9%
(p=0.001)
1 3.84 6.64 10.83
2 5.99 9.21 13.82
3 7.82 11.34 16.27
4 9.49 13.28 18.46
5 11.07 15.09 20.52
6 12.59 16.81 22.46
7 14.07 18.48 24.32
8 15.51 20.09 26.12
Stadiul 10
Dacă valoarea 2 este mai mare decât valoarea critică se respinge ipoteza nulă.
Dacă valoarea 2 este mai mică decât valoarea critică se acceptă ipoteza nulă
În acest studiul de caz - 2 = 20.2 pentru o valoare critică de 3,84 , l grad de libertate
1, cu grad de confidenţă 95%, fapt ce atrage după sine respingere ipotezei nule cu grad de
confidenţă 95%
Stadiul 11
Interpretarea rezultatului
Întotdeauna se face apel la tabelul cu valorile observate şi presupuse dar şi la toate
toate informaţiile colaterale venite de acolo.
Ex: În 1985 numărul vizitatorilor străini pentru alte motive, a fost mai mare decât al
celor (O=2607 , P = 2720.6) dar mai mic decât al celor sosiţi în vacanţă…
În 1995 numărul vizitatorilor străini sosiţi pentru o vacanţă a fost mai mare decât al
celor (O=2274 , P = 2387.6) şi mai mic decât al celor sosiţi pentru alte motive
Concluzia: odată cu căderea comunismului un număr mai mare de vizitatori străini au
sosit în România pentru vacanţă decât pentru alte motive.
Stadiul 12
Se argumentează concluzia anterioară utilizându-se ca bază de pornire expresii precum:
“Există o relaţie semnificativă între motivaţia vizitării României şi anul în care are loc vizita
(Χ2 = 20.2, p=0.001) deoarece...
Se poate observa că acest test este primul test cu o dimensiune de prognozare. Este o formă
incipientă şi insuficientă pentru îndeplinirea funcţiei statistice de prognoză. Această funcţie se
îndeplineşte odată cu trecerea la tehnici de regresie şi analiză factorială.