Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de...

25
Elemente de Teoria selec¸ tiei Conf. dr. habil. Eduard Roten¸ stein 1 Considera¸ tii generale. Cadrul de lucru Consider˘ am spa¸ tiul m˘ asurabil (; F ), unde F este o algebr˘ a (o submul¸ time a lui P () ce con¸ tine pe ¸ si este închis˘ a la complementariere ¸ si la reuniuni num˘ arabile). Caracteristica X urm˘ arit˘ a poate fi reprezentat˘ a de o variabil˘ a aleatoare definit˘ a pe (; F ). Definim matematic în cele ce urmeaz˘ a o selec¸ tie repetat˘ a de volum n. Construim spa¸ tiul selec¸ tiilor de volum n; ( (n) ; F (n) ); cu ajutorul produsele carteziene: (n) = ::: ; F (n) = FF ::: F : Elementul ! (n) =(! 1 ;! 2 ; :::; ! n ) 2 (n) se nume¸ ste selec¸ tie de volum n: O variabil˘ a aleatoare de selec¸ tie repetat ˘ a de volum n este definit ˘ a astfel: X i : ( (n) ; F (n) ; P (n) ) ! (R; B R ;) ; X i (! (n) )= X (! i ) ; i =1; 2; :::; n: Aceste variabile aleatoare sunt independente stochastic deoarece X (! i ) ;i =1; 2; :::; n au aceast˘ a proprietate. De asemenea, din modul lor de definire rezult˘ a c˘ a sunt identic repartizate cu caracteristica X studiat˘ a, mai precis, pentru fiecare i 2f1; 2; :::; ng;F Xi : R ! [0; 1] ;F Xi (x)= F X (x) ; unde F X este func¸ tia de reparti¸ tie a caracteristicii X: Prin urmare, vor avea aceea¸ si func¸ tie de frecven¸ a (dac˘ a sunt variabile de tip discret) sau aceea¸ si densitate de reparti¸ tie (dac ˘ a sunt variabile aleatoare de tip absolut continuu). Vectorul de selec¸ tie repetat˘ a de volum n se define¸ ste ca fiind vectorul variabilelor de selec¸ tie, adic ˘ a Y : (n) ! R; Y (! (n) )=(X 1 (! (n) );X 2 (! (n) ); :::; X n (! (n) )): Pentru o selec¸ tie de volum n, ! (n) ;Y (! (n) )= x =(x 1 ;x 2 ; :::; x n ) este valoarea de selec¸ tie repetat˘ a de volum n: Defini¸ tia 1 Dat˘ a o func¸ tie g :(R n ; B R n ; n ) ! (R; B R ;) asurabil˘ a, numim statistic˘ a (sau func¸ tie de selec¸ tie) variabila aleatoare S = S n (X)= g (X 1 ;X 2 ; :::; X n ) : Valoarea sa într-o selec¸ tie de volum n este S n (x)= g (x 1 ;x 2 ; :::; x n ) ¸ si se nume¸ ste valoarea func¸ tiei de selec¸ tie pentru santionul ales. No¸ tiunea introdus˘ a anterior st˘ a la baza tuturor studiilor statistice, ea fiind indispensabil˘ a în Teoria selec¸ tiei, Teoria estima¸ tiei (în probleme de estimare a parametrilor, prin metoda verosimilit˘ tii maxime, metoda mo- mentelor, metoda celor mai mici p˘ atrate, metoda intervalelor de încredere), Teoria verific˘ arii ipotezelor statistice, Teoria regresiei, etc. 2 Statistici de selec¸ tie ¸ si structura lor probabilistic ˘ a Fie (; F ) o colectivitate statistic˘ si X o caracteristic˘ a cercetat˘ a a sa. Not˘ am cu f (x) ¸ si F (x) densitatea de reparti¸ tie (sau func¸ tia de probabilitate), respectiv, func¸ tia de reparti¸ tie a lui X. Acestea pot fi cunoscute sau necunoscute a priori ¸ si le vom numi func¸ tii teoretice. Dac˘ a se cunosc, atunci putem determina = E(X) ¸ si 2 = D 2 (X)= V ar(X), dac˘ a acestea exist˘ a, ¸ si le vom numi medie teoretic˘ si dispersie teoretic˘ a. În cazul în care una sau mai multe caracteristici teoretice corespunz˘ atoare lui X nu sunt a priori cunoscute, vom c˘ auta s˘ a le determin˘ am prin inferen¸ a, adic˘ a prin extragerea unor selec¸ tii de date din colectivitate, calculând caracter- isticile respective pentru selec¸ tiile considerate ¸ si apoi extrapolând la întreaga colectivitate. Consider˘ am ! (n) o selec¸ tie repetat˘ a de volum n ¸ si X i ;i =1; 2; :::; n, variabilele aleatoare de selec¸ tie corespunz˘ atoare. Vom realiza o prezentar˘ a unitar ˘ a a elementelor de statistic ˘ a descriptiv ˘ a (empiric ˘ a) ¸ si a corespondentelor lor din Teoria selec¸ tiei. 1. Media de selec¸ tie. Numim medie de selec¸ tie repetat˘ a de volum n, statistica X(! (n) )= 1 n n X i=1 X i (! (n) ); ! (n) 2 (n) : 1

Transcript of Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de...

Page 1: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Elemente de Teoria selectieiConf. dr. habil. Eduard Rotenstein

1 Consideratii generale. Cadrul de lucru

Consideram spatiul masurabil (;F), unde F este o ��algebra (o submultime a lui P () ce contine pe sieste închisa la complementariere si la reuniuni numarabile). Caracteristica X urmarita poate fi reprezentata deo variabila aleatoare definita pe (;F). Definim matematic în cele ce urmeaza o selectie repetata de volum n.Construim spatiul selectiilor de volum n; ((n);F (n)); cu ajutorul produsele carteziene:

(n) = � � :::� ; F (n) = F F :::F :

Elementul !(n) = (!1; !2; :::; !n) 2 (n) se numeste selectie de volum n: O variabila aleatoare de selectie repetata devolum n este definita astfel:

Xi : ((n);F (n);P(n))! (R;BR; �) ; Xi(!

(n)) = X (!i) ; i = 1; 2; :::; n:

Aceste variabile aleatoare sunt independente stochastic deoarece X (!i) ; i = 1; 2; :::; n au aceasta proprietate.De asemenea, din modul lor de definire rezulta ca sunt identic repartizate cu caracteristica X studiata, maiprecis, pentru fiecare i 2 f1; 2; :::; ng; FXi

: R! [0; 1] ; FXi(x) = FX (x) ; unde FX este functia de repartitie

a caracteristicii X: Prin urmare, vor avea aceeasi functie de frecventa (daca sunt variabile de tip discret) sauaceeasi densitate de repartitie (daca sunt variabile aleatoare de tip absolut continuu).

Vectorul de selectie repetata de volum n se defineste ca fiind vectorul variabilelor de selectie, adica

Y : (n) ! R; Y (!(n)) = (X1(!(n)); X2(!

(n)); :::; Xn(!(n))):

Pentru o selectie de volum n, !(n); Y (!(n)) = x = (x1; x2; :::; xn) este valoarea de selectie repetata de volum n:

Definitia 1 Data o functie g : (Rn;BRn ; �n)! (R;BR; �)masurabila, numim statistica (sau functie de selectie) variabilaaleatoare

S = Sn (X) = g (X1; X2; :::; Xn) :

Valoarea sa într-o selectie de volum n este Sn (x) = g (x1; x2; :::; xn) si se numeste valoarea functiei de selectie pentruesantionul ales.

Notiunea introdusa anterior sta la baza tuturor studiilor statistice, ea fiind indispensabila în Teoria selectiei,Teoria estimatiei (în probleme de estimare a parametrilor, prin metoda verosimilitatii maxime, metoda mo-mentelor, metoda celor mai mici patrate, metoda intervalelor de încredere), Teoria verificarii ipotezelor statistice,Teoria regresiei, etc.

2 Statistici de selectie si structura lor probabilistica

Fie (;F) o colectivitate statistica si X o caracteristica cercetata a sa. Notam cu f(x) si F (x) densitatea derepartitie (sau functia de probabilitate), respectiv, functia de repartitie a lui X . Acestea pot fi cunoscute saunecunoscute a priori si le vom numi functii teoretice. Daca se cunosc, atunci putem determina � = E(X) si�2 = D2(X) = V ar(X), daca acestea exista, si le vom numi medie teoretica si dispersie teoretica. În cazul încare una sau mai multe caracteristici teoretice corespunzatoare lui X nu sunt a priori cunoscute, vom cauta sale determinam prin inferenta, adica prin extragerea unor selectii de date din colectivitate, calculând caracter-isticile respective pentru selectiile considerate si apoi extrapolând la întreaga colectivitate. Consideram !(n) oselectie repetata de volum n si Xi; i = 1; 2; :::; n, variabilele aleatoare de selectie corespunzatoare. Vom realiza oprezentara unitara a elementelor de statistica descriptiva (empirica) si a corespondentelor lor din Teoria selectiei.

1. Media de selectie. Numim medie de selectie repetata de volum n, statistica

�X(!(n)) =1

n

nXi=1

Xi(!(n)); !(n) 2 (n):

1

Page 2: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Pentru fiecare !(n) fixat, evaluarea mediei de selectie este media statistica (empirica) �x = (Pn

i=1xi) =n: Aceastadin urma este una dintre mediile empirice de ordin r 2 R�; ce se definesc astfel:

�x(r) :=

1

n

nXi=1

xri

!1=r:

Se poate demonstra ca �x(r) � �x(s); pentru r � s si, de aici, putem deduce inegalitatea mediilor, pentru cazul încare valorile observate xi sunt pozitive, caz ce asigura definirea corecta a mediei geometrice:

�xh = �x(�1) � limr!0

�x(r) = �xg � �x(1) = �x: (1)

Demonstram, pentru început proprietatea de monotonie a mediei, în raport cu parametrul. Fie, pentru aceasta,r � s: Convexitatea functiei c : R+! R; c (x) = xs=r conduce, aplicând inegalitatea lui Jensen, la

1

n

nXi=1

xri

!s=r�

nXi=1

�1

n(xri )

s=r

�=1

n

nXi=1

xsi =) �x(r) � �x(s):

Se observa imediat ca �xh = �x(�1) si �x(1) = �x: Pentru a finaliza demonstratia relatiei (1) trebuie sa mai aratam calimr!0 �x(r) = �xg: Într-adevar, în forma echivalenta, obtinem:

limr!0

ln

1

n

nXi=1

xri

!1=r= lim

r!0

ln

�1

n

Xn

i=1xri

�r

l0Hospital= lim

r!0

1

n

Xn

i=1xri lnxi�

1

n

Xn

i=1xri

� =1

n

nXi=1

lnxi = ln

nYi=1

xi

!1=n= ln �xg:

Propozitia 2.1 Media de selectie are urmatoarele proprietati:

(1) E( �X) = �; D2( �X) =�2

n; D( �X) =

�pn: (2) �X

a:s:�! �; pentru n! +1:

Demonstratie. Pentru primul punct avem:

E( �X) = E

1

n

nXi=1

Xi

!=1

n

nXi=1

E (Xi) = � si D2( �X) = D2

1

n

nXi=1

Xi

!=1

n2

nXi=1

D2 (Xi) =�2

n:

Pentru punctul (2), deoarece E (X) = �; D2 (X) = �2; iar variabilele aleatoare de selectie sunt independente întotalitate, atunci conform Legii tari a numerelor mari rezulta ca

�X =1

n

nXi=1

Xia:s:�! E (X1) = �; pentru n! +1:

Media de selectie este un estimator nedeplasat, absolut corect pentru media teoretica a caracteristicii studiate.Vom studia în aceasta prezentare repartitia exacta a mediei de selectie pentru variabile aleatoare de selectie ceprovin dintr-o populatie statistica a carei caracteristici este de tip Gaussian. De asemenea, vom analiza repartitiaasimptotica a acestei statistici daca volumul de selectie este mare, dar populatia nu mai are caracteristica de tipnormal repartizata.

2. Momente initiale si momente centrate de selectie. Numim momentul initial de selectie de ordin r 2 N�statistica

�Xr(!(n)) =

1

n

nXi=1

Xri (!

(n)); !(n) 2 (n):

Desigur, pentru r = 1; regasim media de selectie �X: Notam acum cu �p (X) = E(Xp) momentul teoretic de

2

Page 3: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

ordinul p ale caracteristiciiX si determinam caracteristicile numerice ale acestui moment de selectie de ordin r :

E( �Xr) = E

1

n

nXi=1

Xri

!=1

nn � �r (X) = �r (X)

D2( �Xr) = �2( �Xr)��E( �Xr)

�2= E

0@ 1n

nXi=1

Xri

!21A� E 1n

nXi=1

Xri

!!2

=1

n2

nXi=1

E�X2ri

�+1

n2

Xi<k

E (Xri )E (Xr

k)�1

n2

nXi=1

E2 (Xri )�

1

n2

Xi<k

E (Xri )E (Xr

k)

=1

n2

nXi=1

��2 (X

ri )� E2 (Xr

i )�=1

n

��2r (X)� �2r (X)

�:

Aplicam acum inegalitatea lui Chebyshev si obtinem, pentru orice " > 0,

P��� �Xr � �r (X)�� < "� � 1� �2r (X)� �2r (X)

n"2;

de unde deducem ca, pentru orice " > 0;

limn!+1

P��� �Xr � �r (X)�� < "� = 1; adica �Xr

prob:�! �r (X) , pentru n! +1:

Aceasta înseamna ca aceste momente initiale de selectie sunt estimatori consistenti pentru momentele teoreticede ordin similar.

Rationând în acelasi mod, daca �Xr si �Xs sunt doua momente initiale de selectie, atunci covarianta lor este:

cov( �Xr; �Xs) = E���Xr � E

��Xr�� �

�Xs � E��Xs���

= E���Xr � �r(X)

� ��Xs � �s(X)

��= E

1

n

nXi=1

Xri � �r(X)

! 1

n

nXi=1

Xsi � �s(X)

!!

=1

n2E

nXi=1

Xr+si

!� 1

n�r(X)E

nXi=1

Xsi

!� 1

n�s(X)E

nXi=1

Xri

!+ E (�r(X)�s(X))

=1

n(�r+s(X)� �r(X)�s(X)) :

Numim momentul centrat de selectie de ordin r 2 N� statistica

��r(!(n)) =

1

n

nXi=1

�Xi(!

(n))� �X(!(n))�r; !(n) 2 (n):

Pentru r = 2 avem dispersie de selectie S2; pe care o vom prezenta în sectiunea urmatoare. La fel ca si în cazulmomentelor teoretice, putem exprima momentele centrate de selectie cu ajutorul momentelor initiale de selectie,si reciproc:

��r =1

n

nXi=1

rXj=0

(�1)j CjrXji�Xj =

rXj=0

(�1)j Cjr �Xj

1

n

nXi=1

Xr�ji

!:

Prin urmare,

��r =rXj=0

(�1)j Cjr �Xj �Xr�j si �Xr = ��r + r �X ��r�1 +r (r � 1)

2�X ��r�2 + :::; r 2 N�:

Determinam acum repartitia asimptotica a mediei de selectie �X:

Propozitia 2.2 Data o selectie de volum n si variabilele de selectie X1; X2; :::; Xn atasate caracteristicii X; pentru careexista si sunt finite � = E (X) si 0 6= �2 = D2 (X) ; atunci

�X � ��=pn

rep�! Y � N (0; 1) ; pentru n! +1:

3

Page 4: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Demonstratie. Definim Yi = Xi=n; pentru i = 1; 2; :::; n: Avem:

�X =nXi=1

Yi si �i = E(Yi) = E�Xin

�=�

n; i = 1; :::; n:

Prin urmare

E�(Yi � �i)2

�= �2i = E

�Xi � �n

�2!=�2

n2si

E�(Yi � �i)3

�= �3i = E

jXi � �jn3

3!=�3

n3; i = 1; 2; :::; n:

Fiind verificata conditia lui Leapunov:

limn!+1

�Xn

i=1�3i

�1=3�Xn

i=1�2i

�1=2 = limn!+1

��3=n2

�1=3(�2=n)

1=2= lim

n!+1

1

n1=6= 0;

obtinem conform Teoremei limita centrala,

limn!+1

P� �X � ��=pn� x

�=

1p2�

Z x

�1e�z

2=2dz; pentru orice x 2 R;

teorema fiind astfel demonstrata.

Teorema 1 În mod similar, daca exista mediile E (Xr) = �r (X) ; E(X2r) = �2r (X) si E(�� �Xr � �r (X)��3); atunci

�Xr � �r (X)r�2r (X)� �2r (X)

n

rep�! Y � N (0; 1) ; pentru n! +1:

Observatia 2.1 Pornind de la relatiile:

��1 = 0; ��2 = �X2 � �X21 ; ��3 = �X3 � �X2 �X1 + 2 �X

31 ; ��4 = �X4 � 4 �X3 �X1 + 6 �X2 �X4

1 � 3 �X41 ;

putem obtinem 8>>>>>>>>>><>>>>>>>>>>:

E(��1) = 0

E(��2) = E��X2�� E

��X21

�=n� 1n

�2(X)

E(��3) = E��X3�� 3E

��X2 �X1

�+ 2E

�2 �X3

1

�=(n� 1) (n� 2)

n2�3(X)

E(��4) = E��X4�� 4E

��X3 �X1

�+ 6E

��X2 �X

41

�� 3E

��X41

�=

(n� 1)�n2 � 3n+ 3

�n2

�3(X) +3 (n� 1) (2n� 4)

n3�22(X);

unde �2(X); �3(X) si �4(X) sunt momentele teoretice centrate de ordinele 2; 3 si 4 ale caracteristicii X:

Cu ajutorul momentelor de selectie putem pune în evidenta si alti indicatori de selectie precum ar fi: asimetria deselectie � 1 = ��3=��

3=22 si excesul de selectie � 2 = ��4=��

22 � 3:

Înainte de introducerea urmatoarei statistici de selectie, dispersia de selectie, prezentam câtiva parametriempirici (statistici) ai împrastierii valorilor sondajului (R; s2; s; (s�)2 ; s�). Acestia ne vor ajuta si la evaluarea(aproximanta) a mediei si dispersiei pentru momentele de selectie introduse în paragraful precedent. Pentrux = (x1; x2; :::; xn) o valoare de selectie repetata de volum n; definim:

Amplitudinea seriei statistice este cantitatea a = xmax � xmin :Momentul centrat empiric de ordin r este

�0r =1

n

kXi=1

ni (xi � �x)r =kXi=1

fi (xi � �x)r ;

4

Page 5: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

unde fi = ni=n este frecventa relativa a valorii xi: Daca nu grupam elementele în clase, atunci k = n; iar fiecareni = 1: În particular, pentru r = 2 obtinem dispersia (sau varianta) empirica:

s2 = �02 =1

n

kXi=1

ni (xi � �x)2 =kXi=1

fi (xi � �x)2 :

Urmatoarea relatie prezinta o formula utila de calcul a dispersiei empirice, similara celei întâlnite în cazul dis-persiei teoretice.

Propozitia 2.3 Avem s2 = x2 � �x2; unde �x reprezinta media statistica asociate valorii de selectie repetata de volum n;

x; iar x2 reprezinta cantitatea similara corespunzatoare lui x2.

Demonstratie. Într-adevar,

s2 =kXi=1

fi (xi � �x)2 =kXi=1

fix2i � 2

kXi=1

fixi�x+kXi=1

fi�x2 =

kXi=1

fix2i � 2�x

kXi=1

fixi + �x2

kXi=1

fi

=kXi=1

fix2i � 2�x �x+ �x2 =

kXi=1

fix2i � �x2 = x2 � �x2:

Marimea s =ps2 se numeste abaterea medie patratica empirica (sau deviatia standard empirica).

Dispersia (sau varianta) empirica modificata este numarul

(s�)2=

n

n� 1s2 =

Xk

i=1ni (xi � �x)2

n� 1 ;

unde n este volumul selectiei. Avem deci si formula de calcul

(s�)2=nx2 � n�x2n� 1 =

n

Xk

i=1nix

2i

n � n�x2

n� 1 =

Xk

i=1nix

2i � n�x2

n� 1 :

Abaterea empirica modificata (sau deviatia standard empirica modificata) este s� =q(s�)

2:

Dispersia empirica modificata aproximeaza mai bine decât dispersia empirica s2 dispersia teroretica �2 acaracteristicii populatiei. Pentru a vedea acest lucru, notam cu � media întregii populatii (o valoare teoreticacare, în general, nu poate fi determinata de fapt) iar �2 dispersia întregii populatii de volum N; adica

�2 =1

N

NXi=1

(xi � �)2 :

Sa consideram un esantion de volum n ales aleator din cadrul populatiei. Are loc relatia

(xi � �)2 = (xi � �x)2 + 2 (xi � �x) (�x� �) + (�x� �)2 ;

decinXi=1

(xi � �)2 =nXi=1

(xi � �x)2 + 2nXi=1

(xi � �x) (�x� �) +nXi=1

(�x� �)2

=nXi=1

(xi � �x)2 + 2 (�x� �)nXi=1

(xi � �x) + n (�x� �)2 =nXi=1

(xi � �x)2 + n (�x� �)2 :

ObtinemnXi=1

(xi � �x)2 =nXi=1

(xi � �)2 � n (�x� �)2 ; i = 1; n :

Pe de o parte, avem ca termenulPn

i=1 (xi � �)2 va fi, pentru n foarte mare (apropiat de valoarea N ), aproximat

de n�2; adica �2 '�Pn

i=1 (xi � �)2�=n: Pe de alta parte, (�x� �)2 aproximeaza dispersia mediei de selectie

5

Page 6: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

�X = (Pn

i=1Xi) =n; care este D2��X�= �2=n; deci termenul n (�x� �)2 va fi, pentru n foarte mare, aproximat de

numarul n�2=n = �2: În consecinta, pentru n suficient de mare,

(s�)2=

Pni=1 (xi � �x)

2

n� 1 ' n�2 � �2n� 1 = �2;

iar utilizarea dispersiei empirice modificate este justificata.

Putem acum analiza media si dispersia momentelor centrate de selectie de ordinul r 2 N�; care, pentrur = 2 devin caracteristicile numerice ale dispersiei de selectie repetata de volum n: Evaluarea precisa pentrumedia si dispersia momentelor centrate de selectie de ordinul r este mai dificila si, din acest motiv, se consideraaproximari rezonabile ale acestora (vezi Kendall, [9, Chapter 9, Standard errors]). Deoarece, pentru n suficientde mare,

D2( �X) =�2 (X)� �21 (X)

n' �02n=s2

n; (2)

atunci abaterea medie patratica empirica este de ordinul lui n�1=2: În formula (2), desi dispersia empirica modifi-cata este un evaluator mai bun pentru �2; pentru un volum de selectie mare, se poate utiliza si dispersia empiricanemodificata, s2:

Pentru evaluarea mediei momentului centrat de selectie de ordin r vom omite momentele initiale de selectiede ordin 1 (adica media de selectie) având puteri mai mari decât 1: Avem astfel:

E (��r) =1

nE

nXi=1

Xri � r �XXr�1

i

!=1

nE

nXi=1

Xri � r

1

n

nXi=1

Xi

nXi=1

Xr�1i

!

=1

nE

0@�1� 1

n

� nXi=1

Xri �

1

n

Xj 6=kXjX

r�1k

1A ' �0r;(3)

formula nefiind o evaluare exacta a mediei, ci o aproximare de ordin n�1=2: În ceea ce priveste dispersia (vari-anta) momentului centrat de selectie de ordinul r obtinem aproximarea:

D2(��r) =1

n2E�(��r � E (��r))2

�=1

n2E�(��r � �0r)

2�=1

n2E(��2r)� (�0r)2

=1

n2E

0@ nXi=1

Xri �

r

n

Xj 6=kXjX

r�1k

1A2

� (�0r)2

=1

n2E

0@ nXi=1

X2ri +

Xj 6=kXrjX

rk +

r2

n2

Xj 6=kX2jX

2r�2k +

r2

n2

Xj 6=k 6=l

X2jX

r�1k Xr�1

l � 2rn

Xj 6=kXr+1j Xr�1

k

1A� (�0r)2:Valorile medii ce contin puteri ale mediei de selectie sunt omise. La fel, media termenului al treilea din parantezaeste de ordinul lui n�2 si va fi neglijat. Prin urmare, evaluând dispersia într-o valoare de selectie repetata devolum n; x = (x1; x2; :::; xn) ; rezulta valoarea aproximanta

D2(��r) '1

n

��02r � (�0r)2 + r2�02(�0r�1)2 � 2r�0r�1�0r+1

�: (4)

3. Dispersia de selectie (sau varianta selectiei). Numim dispersie de selectie repetata de volum n, statistica

V ar(X;!(n)) = S2(!(n)) =1

n

nXi=1

�Xi(!

(n))� �X(!(n))�2; !(n) 2 (n):

Pentru fiecare !(n) fixat, evaluarea dispersiei de selectie este dispersia statistica (empirica) s2: Abaterea (sau de-viatia standard) de selectie se defineste ca fiind S =

pS2; iar dispersia (sau varianta) modificata de selectie, respectiv

abaterea (deviatia standard) modificata de selectie sunt:

(S�)2 =n

n� 1S2 =

1

n� 1

nXi=1

�Xi � �X

�2; respectiv, S� =

p(S�)2:

Dispersia de selectie modificata este un estimator absolut corect al dispersiei teoretice �2; în timp ce dispersiade selectie nu este un estimator absolut corect al aceleasi cantitati, fiind un estimator deplasat. Pentru selectiide volum mic, dispersia de selectie modificata este deci un estimator mai bun pentru dispersia teoretica. Acestavantaj dispare însa daca volumul de selectie creste.

6

Page 7: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Propozitia 2.4 Dispersia de selectie are urmatoarele proprietati:

E(S2) =n� 1n

�2; E�(S�)2

�= �2; S2

a:s:�! �2; (S�)2a:s:�! �2; pentru n! +1:

Daca presupunem, în plus, ca exista momentul centrat empiric de ordinul 4; �04 al valorilor observate ale caracteristicii,atunci au loc estimarile date de formula (4), scrisa pentru r = 2;

D2(S2) ' 1

n

��04 � (�02)2

�; si D2((S�)

2) =

n2

(n� 1)2D2�S2�' n

(n� 1)2��04 � (�02)2

�Demonstratie. Notam � = E (X) ;iar proprietatile mediei si ale variabilelor aleatoare de selectie conduc la:

E(S2) = E

1

n

nXi=1

�Xi � �X

�2!=1

nE

nXi=1

�Xi � �+ �� �X

�2!

=1

nE

nXi=1

(Xi � �)2 +nXi=1

��� �X

�2 � 2 � �X � �� nXi=1

(Xi � �)!

=1

n

nXi=1

E�(Xi � �)2

�� 2nE

���X � �

�2�+ nE

���X � �

�2�!=

1

n

�nE�(X � �)2

�� nE

���X � �

�2��= D2 (X)�D2

��X�

= �2 � �2

n=n� 1n

�2

Formula de aproximare (3) este în concordanta cu valoarea exacta a mediei calculata mai sus, pentru n suficientde mare. Obtinem, de asemenea, ca

E�(S�)2

�= E

�n

n� 1S2

�=

n

n� 1E(S2) =

n

n� 1n� 1n

�2 = �2:

În ceea ce priveste convergentele, procedam astfel. Cum variabile de selectie sunt idependente si identic repar-tizate, atunci patratele lor au aceeasi proprietate, iar E

�X2�= �2 + �2 < +1: Deoarece

S2 =1

n� 1

0@ nXi=1

X2i �

1

n

nXi=1

Xi

!21A =n

n� 1

0@ 1n

nXi=1

X2i �

1

n

nXi=1

Xi

!21A ;iar Legea tare a numerelor mari permite trecerea la limita �X

a:s:�! �; si X2 a:s:�! �; pentru n ! +1; atunciconcluzia dorita este o simpla consecinta.

Putem evalua exact dispersia lui S2 si a lui (S�)2 cu ajutorul Lemei 3.6, prin apelarea la dispersia unei vari-abile aleatoare repartizate �2:

Urmatorul rezultat prezinta o proprietate foarte importanta referitoare la independenta stochastica dintremedia de selectie si dispersia de selectie (în consecinta si dispersia modificata de selectie) asociate unui sondajde volum n în cadrul unei populatii. Aceasta informatie este utila pentru determinarea statisticilor repartizateStudent, statistici folosite la generarea intervalelor de încredere pentru media teoretica atunci când dispersiateoretica nu este cunoscuta a priori si la verificarea ipotezelor statistice pentru medie, în aceeasi ipoteza pentrudispersie.

Lema 2.1 Fie X1; X2; :::; Xn variabilele aleatoare de selectie corespunzatoare unei selectii de volum n asupra unei carac-teristici X � N

��; �2

�a unei populatii statistice. Au loc afirmatiile urmatoare.

(a) Media de selectie �X este independenta de Xi � �X; pentru orice i = 1; 2; :::; n:(b) Media de selectie �X este independenta de dispersia de selectie S2 si, prin urmare, si de dispersia de selectie modifi-

cata (S�)2:

Demonstratie. (a) Repartitia vectorului aleator de selectie V = (X1; X2; :::; Xn) este, deoarece variabilele deselectii sunt independete este fV : Rn ! R;

fV (x1; x2; :::; xn) =1

(2�)n=2

�nexp

�12

nXi=1

�xi � ��

�2!:

7

Page 8: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Consideram acum urmatoarea transformare a variabilelor aleatoare Xi; i = 1; 2; :::; n :8>>>>>><>>>>>>:

Y1 = �X

Y2 = X2 � �X

Y3 = X3 � �X

......

Yn = Xn � �X

; cu inversa transformarii

8>>>>>><>>>>>>:

�X = Y1

X2 = Y2 + Y1

X3 = Y3 + Y1...

...Xn = Yn + Y1

Calculul Jacobianului transformarii conduce la J = n; deci este independent de �X si de Xi; i = 1; 2; :::; n: Avemdeci:

fY1;Y2;:::;Yn (y1; y2; :::; yn) = fV (x1; x2; :::; xn) � jJ j = nfV (y1; y1 + y2; :::; y1 + yn) : (5)

Cum x1 � �x = �Pn

i=2 (xi � �x) ; obtinem

1

�2

nXi=1

(xi � �)2 =1

�2

nXi=1

(xi � �x)2 + n (�x� �)2!=1

�2

(x1 � �x)2 +

nXi=2

(xi � �x)2 + n (�x� �)2!

=1

�2

0@ nXi=2

(xi � �x)!2+

nXi=2

(xi � �x)2 + n (�x� �)21A =

1

�2

0@ nXi=2

yi

!2+

nXi=2

y2i + n (y1 � �)2

1A ;iar formula (5), care da densitatea vectorului aleator (Y1; Y2; :::; Yn) ; devine,

fY1;Y2;:::;Yn (y1; y2; :::; yn) =n

(2�)n=2

�nexp

0@� 1

2�2

0@ nXi=2

yi

!2+

nXi=2

y2i + n (y1 � �)2

1A1A=

n

(2�)n=2

�nexp

0@� 1

2�2

0@ nXi=2

yi

!2+

nXi=2

y2i

1A1A| {z }

=h(y2;y3;:::;yn)

exp�� n

2�2(y1 � �)2

�| {z }

=g(y1)

=n

(2�)n=2

�nh(y2;y3; :::; yn)g(y1):

Caracterizarea prin intermediul densitatii de repartitie a independentei variabilelor aleatoare conduce la faptulca variabilele aleatoare Y1 = �X si Yi = Xi � �X; i = 2; :::; n sunt independente. Pentru finalizarea demonstratieipunctului (a), relatia

X1 � �X = �nXi=2

�Xi � �X

�arata ca X1 � �X este o functie continua de Xi � �X; i = 2; :::; n; deci X1 � �X este si ea independenta de Y1 = �X:

(b) Definitiile lui S2 si (S�)2 ; ca functii continue de Xi � �X; i = 1; :::; n;

S2 =1

n

nXi=1

�Xi � �X

�2 si (S�)2=

1

n� 1

nXi=1

�Xi � �X

�2=

n

n� 1S2

conduc, folosind rezultatul obtinut la punctul (a) la concluzia dorita, iar demonstratia este încheiata.

Prezentam acum o demonstratie alternativa a rezultatului precedent, demonstratie care face apel la Teoremalui Cochran, ce caracterizeaza independenta stochastica a unei anumite clase de variabile aleatoare generate derepartitii Gaussiene. Enuntam, pentru început acest rezultat, fara a furniza si demonstratia sa.

Teorema 2 (Cochran) FieX1; X2; :::; Xn variabile aleatoare independente, repartizate normalN�0; �2

�siQ1; Q2; ::; QS

forme patratice în X1; X2; :::; Xn; având rangurile k1; k2; :::; kS ; respectiv. Daca

SXj=1

Qj =nXk=1

X2k ;

atunci conditia necesara si suficienta ca variabilele aleatoare Q1; Q2; ::; QS sa fie independente este ca

k1 + k2 + :::+ kS = n:

8

Page 9: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Revenim acum la demonstrarea Lemei 2.1, punctul (b) : Fara a restrânge generalitatea, putem presupune caX � N

�0; �2

�; deoarece dispersia de selectie este invarianta la schimbarea originii. Avem astfel:

nXi=1

�Xi � �X

�2=

nXi=1

X2i � 2 �X

nXi=1

Xi + n �X2 =

nXi=1

X2i �

1

n

nXi=1

Xi

!2

=n� 1n

0@X1 �Xn

i=2Xi

n� 1

1A2

+n� 2n� 1

0@X2 �Xn

i=3Xi

n� 2

1A2

+ :::+1

2(Xn+1 �Xn)2 :

Obtinem astfel ca:

nXi=1

X2i =

1

n

nXi=1

Xi

!2+n� 1n

0@X1 �Xn

i=2Xi

n� 1

1A2

+n� 2n� 1

0@X2 �Xn

i=3Xi

n� 2

1A2

+ :::+1

2(Xn+1 �Xn)2 :

Membrul al doilea contine o suma de n forme patratice, pozitiv definite, fiecare având rangul egal cu 1: Cumsuma acestor ranguri este egala cu n, iar variabilele aleatoareXi � N

�0; �2

�; 1 � i � n; din Teorema lui Cohran

rezulta ca variabilele aleatoare

Y1 =

rn� 1n

0@X1 �Xn

i=2Xi

n� 1

1A ; Y2 =

rn� 2n� 1

0@X2 �Xn

i=3Xi

n� 2

1A ; :::Yn�1 =

1p2(Xn+1 �Xn) ; Yn =

1pn

nXi=1

Xi

sunt independente. Deoarece

S2 =1

n

n�1Xi=1

Y 2k ;

rezulta imediat ca statisticile �X si S2 sunt independente, iar demonstratia este încheiata.

Înainte de introducerea urmatoarei statistici de selectie, functia de repartitie de selectie, prezentam varianta saempirica, asociata datelor culese în urma sondajului de volum n: Se numesc frecventa absoluta cumulata crescator,respectiv descrescator, corespunzatoare valorii xi, numerele

ni " =Xi

j=1xj�xi

nj ; ni # =Xk

j=ixj�xi

nj ; i = 1; k ;

adica ni " = n1 + n2 + � � � + ni ; ni # = ni + ni+1 + � � � + nk : De asemenea, numim frecventa relativa cumulatacrescator, respectiv descrescator, corespunzatoare valorii xi, valorile

fi " =ni "n; fi # =

ni #n; i = 1; k :

Functia empirica de repartitie corespunzatoare unei valori de selectie repetata de volum n se noteaza cu fn (x) sieste definita prin urma dintre urmatoarele forme (cea de a doua corespunzând cazului în care frecventa absoluade aparitie a fiecarei valori este 1):

fn (x) =

8>><>>:0; x < x1;Xi�1

j=1fj ; xi�1 � x < xi; i = 2; k;

1; xk � x:

sau fn (x) =

8>><>>:0; x < x1;

i� 1n; xi�1 � x < xi; i = 2; n;

1; xn � x:

Daca pentru variabila empirica observata clasele se reprezinta prin mijloacele lor, atunci functia empirica de repar-titie este

fn (x) =

8>><>>:0 ; x < a0;Xi�1

j=1fj +

x�ai�1h fi; ai�1 � x < ai; i = 2; k;

1; ak � x;

9

Page 10: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

unde h = ai+1 � ai este amplitudinea clasei (care de obicei este constanta).

4. Functia de repartitie de selectie. Date variabilele aleatoare de selectie X1; X2; :::; Xn; asociate unei selectiide volum n; se numeste functia de repartitie de selectie (repetata, de volum n) functia

F �n : R�(n) ! [0; 1] ; F �n(x; !(n)) =

#fi : Xi(!(n)) � xgn

=1

n

nXi=1

1(�1;x](Xi): (6)

Este clar ca, pentru fiecare x fixat, nF �n (x; �) � B (n; FX (x)) ; iar pentru fiecare !(n) 2 (n) fixat,

F �n(x) =#fi : xi � xg

n= fn (x) ;

adica pentru o selectie observata de valori, coincide cu functia empirica de repartitie.

Propozitia 2.5 Functia de repartitie de selectie are urmatoarele proprietati, pentru orice x 2 R:

(a) E(F �n (x)) = F (x) ; D2 (F �n (x)) =1

n(F (x) (1� F (x))) ;

(b) F �n (x)a:s:�! F (x) ; pentru n! +1;

(c)pn (F �n (x)� F (x)) � N (0; F (x) (1� F (x))) ; pentru n suficient de mare ( � 30),

unde F este functia de repartitie teoretica a caracteristicii studiate.

Demonstratie. Pentru justificarea punctului (a) avem, pentru orice x 2 R:8>>>><>>>>:E (F �n (x)) =

1

n

nXi=1

E�1(�1;x](Xi)

�=1

n

nXi=1

P (X � x) = F (x) ;

D2 (F �n (x)) =1

n2

nXi=1

D2�1(�1;x](Xi)

�=1

n2nF (x) (1� F (x)) = 1

n(F (x) (1� F (x))) :

Cum pentru x fixat, D2 (F �n (x))! 0 pentru n! +1; atunci, inegalitatea lui Chebyshev,

P (jF �n (x)� F (x)j < ") � 1�D2 (F �n (x))

"2; 8" > 0;

implica faptul ca F �n (x) este un estimator consistent pentru F (x) ; adica converge în probabilitate catre para-metrul estimat. Chiar mai mult, Teorema Glivenko-Cantelli (vezi Gibbons Dickinson, Chakraborti [6, Pag 39,Theorem 3.2]) asigura convergenta uniforma, cu probabilitatea 1:

P�lim

n!+1supx2R

jF �n (x)� F (x)j = 0�= 1:

De asemenea, Teorema lui Kolmogorov ofera posibilitatea evaluarii distantei dintre F �n si F :

limn!+1

P�supx2R

jF �n (x)� F (x)j �zpn

�= K (z) =

+1Xk=�1

(�1)k e�2k2z2 ; z > 0:

Rezultatul acesta este foarte important, mai ales pentru Testele de concordanta Kolmogorov-Smirnov, si din acestmotiv, va fi analizat într-un rezultat de sine statator.(b) Din (6) remarcam ca functia de repartitie de selectie se poate scrie ca o suma de variabile aleatoare inde-

pendente stochastic în ansamblu, identic repartizate. Prin urmare, putem aplica Legea tare a numerelor mari siobtinem, pentru orice x 2 R:

F �n (x)a:s:�! E

�1(�1;x](X1)

�= E

�1(�1;x](X)

�= F (x) :

Pentru convergenta de la punctul (c), având în vedere caracteristicile numerice ale lui F �n (x) obtinute la punctul(a) ; putem aplica Teorema limita centrala. Prin urmare, gasim, pentru n > 30 :

F �n (x)� E (F �n (x))pD2 (F �n (x))

=

pn (F �n (x)� F (x))p(F (x) (1� F (x)))

� N (0; 1) ; 8x 2 R:

10

Page 11: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Dar aceasta repartitie implica, în virtutea unui rezultat pe care îl vom demonstra în sectiunea care analizeazaselectii aleatoare dintr-o populatie normala ca

pn (F �n (x)� F (x)) � N (0; F (x) (1� F (x))) ;

iar demonstratia este, în acest moment, încheiata.

Teorema 3 Daca functia de repartitie teoretica F; a statisticii studiate, X este continua, atunci statistica definita prindn = supx2R jF �n (x)� F (x)j este independenta de F:

Demonstratie. Proprietatile lui F permit definirea "inversei" sale, F�1 : [0; 1]! R;

F�1 (y) = minfx : F (x) � yg

si putem scrie, pentru t 2 R;

P�supx2R

jF �n (x)� F (x)j � t�= P

�sup0�y�1

��F �n �F�1 (y)�� y�� � t� = P sup0�y�1

����� 1nnXi=1

1(�1;y](F (Xi))� y����� � t

!:

Distributia lui F (Xi) � U (0; 1) deoarece

P (F (Xi) � t) = P (F (X) � t) = P�X � F�1(t)

�= F (F�1(t)) = t; 8t 2 R:

Prin urmare, variabilele aleatoare Ui := F (Xi); i = 1; 2; :::; n sunt independente si repartizate uniform pe (0; 1) ;iar relatia

P�supx2R

jF �n (x)� F (x)j � t�= P

sup0�y�1

����� 1nnXi=1

1(�1;y](Ui)� y����� � t

!este, în mod evident, independenta de functia de repartitie F:

Teorema 4 (Kolmogorov) Consideram o populatie pentru care studiem o caracteristicaX de tip absolut continuu, a careifunctie de repartitie teoretica este F: Fie o selectie aleatoare de volum n în cadrul populatiei si consideram F �n functia derepartitie de selectie F �n . Distanta dn = supx2R jF �n (x)� F (x)j are urmatorul comportament asimptotic:

limn!+1

P�pndn � z

�= K (z) =

+1Xk=�1

(�1)k e�2k2z2 ; z > 0:

Demonstratie. Aceasta statistica, împreuna cu distributia sa, au fost propuse pentru prima data de catre Kol-mogorov [10], în 1933. Vom prezenta o varianta de demonstratie, dezvoltata de Feller în 1948. Acesta arata caare loc urmatorul comprotament asimptotic echivalent

limn!+1

P�pndn � z

�= K (z) = 1� 2

+1Xk=1

(�1)k�1 e�2k2z2 ; z > 0; (7)

unde K reprezinta repartitia Kolmogorov-Smirnov, densitate ale carei cuantile sunt tabelate. Vom grupa argu-mentele demonstratiei în mai multe etape, pentru usurinta prezentarii.

Etapa 1. Continuitatea functiei F permite considerarea valorilor x1;0; x2;0; :::; xn�1;0 definite prin

xk;0 := min

�x : F (x) =

k

n

�; k = 1; 2; :::; n� 1: (8)

Pentru o valoare c 2 N fixata, daca x 2 R verifica

F �n (x)� F (x) >c

n; (9)

atunci exista x0 2 R astfel încâtF �n(x

0)� F (x0) = c

n

iar inegalitatea (9) este verificata pe un interval al carui capat superior este x0: Dar F �n este o functie în scara, alecarei valori sunt multipli de 1=n; ceea ce conduce la faptul ca F �n(x0) este de aceasta forma, adica exista un indicek 2 f1; 2; :::; n� 1g astfel încât x0 = xk;0: Obtinem deci:

F �n(xk;0)� F (xk;0) =c

nsi, datorita (8), F �n(xk;0) =

k + c

n:

11

Page 12: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Cu alte cuvinte, am obtinut ca inegalitatea (9) are loc pentru o multime de valori x daca si numai daca exista unindice k astfel încât

x(k+c) � xk;0 < x(k+c+1): (10)

Etapa 2. Capetele intervalului din formula (10) sunt valorile empirice ale statisticilor de ordineX(k+c) siX(k+c+1);cu ajutorul carora vom defini evenimentele

Ak(c) := fX(k+c) � xk;0 < X(k+c+1)g; k = 1; 2; :::; n:

Are, prin urmare, loc dn = supx2R jF �n (x)� F (x)j > c=n daca si numai daca se realizeaza cel putin unul dintreevenimentele:

A1(c); A1(�c); A2(c); A2(�c); ::: An(c); An(�c): (11)

Definim cu ajutorul acestor evenimente urmatoarele 2n evenimente mutual incompatibile (Ur; Vr)r=1;2;:::;n, curol de marker: (

Ur; se realizeaza daca Ar(c) e primul eveniment din (11) ce se realizeaza,

Vr; se realizeaza daca Ar(�c) e primul eveniment din (11) ce se realizeaza.:

Cu aceste notatii, devine evidenta relatia

P�dn >

c

n

�=

nXr=1

(P (Ur) + P (Vr)) : (12)

Folosim definitiile evenimentelor Ar(c); Ur si Vr si obtinem:8>>>>><>>>>>:P (Ak(c)) =

kXr=1

[P (Ur)P (Ak(c)jAr (c)) + P (Vr)P (Ak(c)jAr (�c))] ;

P (Ak(�c)) =kXr=1

[P (Ur)P (Ak(�c)jAr (c)) + P (Vr)P (Ak(�c)jAr (�c))] :

(13)

Ne concentram pe determinarea probabilitatilor din (13). Din (10) si (8) observam ca fiecare Ak(c) reprezintaevenimentul de a avea k + c succese pentru o repartitie B (n; k=n), adica:

P (Ak(c)) = Ck+cn

�k

n

�k+c�1� k

n

�n�(k+c): (14)

În mod similar obtinem pentru probabilitatile conditionate formulele:8>>>>><>>>>>:P (Ak(c)jAr (c)) =

kXr=1

Ck�rn�(r+c)

�k � rn� r

�k�r �1� k � r

n� r

�n�(k+c);

P (Ak(c)jAr (�c)) =

kXr=1

Ck�r+2cn�(r�c)

�k � rn� r

�k�r+2c�1� k � r

n� r

�n�(k+c):

(15)

Formulele probabilitatilor anterioare sunt valide atât pentru c pozitiv, cât si negativ. Sistemul (13) devine astfelun sistem de 2n ecuatii liniare, cu 2n necunoscute, P (Ur) si P (Vr) ; r = 1; 2; :::; n; sistem ce trebuie rezolvat, iarvalorile inserate în (12), pentru a finaliza demonstratia.

Etapa 3. Consideram acum o familie de repartitii de tip Poisson, de parametru k; indexate si în report cu c; alecaror functii de probabilitate sunt:

pk (c) =kk+c

(k + c)!e�k:

Gasim astfel reprezentarea echivalenta pentru (14) si (15), obtinuta prin scrierea combinarilor sub forma defactoriali, urmata de regruparea termenilor:8>><>>:

P (Ak(c)) = pk (c) pn�k (�c) =pn (0) ;

P (Ak(c)jAr (c)) = pk�r (0) pn�k (�c) =pn�r (�c) ;

P (Ak(c)jAr (�c)) = pk�r (2c) pn�k (�c) =pn�r (c) :

12

Page 13: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Definim acum

ur := P (Ur)pn (0)

pn�r (�c)si vr := P (Vr)

pn (0)

pn�r (c); r = 1; 2; :::; n:

Sistemul (13) capata astfel o forma simplificata:

pk (c) =kXr=1

[urpk�r (0) + vrpk�r (2c)] si pk (�c) =kXr=1

[urpk�r (�2c) + vrpk�r (0)] ; k = 1; 2; :::; n: (16)

Sistemul (16) trebuie rezolvat pentru

nXr=1

(P (Ur) + P (Vr)) =1

pn (0)

nXr=1

[pn�r (�c)ur + pn�r (c) vr] = pn + qn;

unde, pentru fiecare k = 1; 2; :::; n;

pk :=1

pn (0)

kXr=1

pk�r (�c)ur si qk :=1

pn (0)

kXr=1

pk�r (c) vr: (17)

Construim acum functiile generatoare pentru pk; qk; uk; vk si pentru n�1=2pk (c) :

Gp (t) :=+1Xk=1

pktk; Gq (t) :=

+1Xk=1

qktk; Gu (t) :=

+1Xk=1

uktk; Gv (t) :=

+1Xk=1

vktk; G (t; c) := n�1=2

+1Xk=1

pk (c) tk:

Formulele (17) conduc la urmatorul sistem:

Gp (t) =Gu (t)G (t;�c)n1=2

pn (0)si Gq (t) =

Gv (t)G (t; c)n1=2

pn (0): (18)

Etapa 4. Studiem acum sistemul (18), la limita. Stabilim

c = zn1=2

si facem n! +1 si c! +1; astfel încât sa pastram fixata valoarea lui z: Comportarea asimptotica a repartitieiPoisson face ca, la limita, sa se apropie de distributia normala:

pk (c)!1p2�k

exp

��12

c2

k

�si, pentru k = mn; c = zn1=2; n1=2pk(zn

1=2)! 1p2�m

exp

��12

z2

m

�:

Obtinem de aici ca

limn!+1

G(e�t=n; zn1=2) =1p2�

Z +1

0

1pmexp

��tm� 1

2

z2

m

�dm =

1p2�I:

Pentru determinarea valorii integralei I; o derivam în raport cu parametrul z2=2; dupa care, în integrala rezultataefectuam schimbarea de variabila

t :=z2

2m� 1q; de unde obtinem m =

z2

2tqsi dm = � z2

2tq2dq:

Obtinem ecuatia diferentiala

@I

@ (z2=2)=

Z 0

+1

z�1

(2tq)�1=2 exp

��tq � z2

2q

�1

qdq =

(2t)1=2

z

Z 0

+1

1

q1=2exp

��tq � z2

2q

�dq = �

�t

z2=2

�1=2I;

ce admite ca solutie pe

I =��t

�1=2exp

���2tz2

�1=2�;

decilim

n!+1G(e�t=n; zn1=2) = (2t)

�1=2exp

���2tz2

�1=2�: (19)

Folosim (16) si consideram acum sistemul

13

Page 14: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

(G (t; c) = Gu (t)G (t; 0) +Gv (t)G (t; 2c)

G (t;�c) = Gu (t)G (t;�2c) +Gv (t)G (t; 0) :

Avem

limn!+1

Gu(e�t=n) = lim

n!+1Gv(e

�t=n) (20)

=limn!+1G

�e�t=n; zn1=2

�limn!+1G

�e�t=n; 0

�+ limn!+1G

�e�t=n; 2zn1=2

� = exp���2tz2

�1=2�1 + exp

�� (8tz2)1=2

� :Revenim acum la sistemul (18). Folosind si faptul ca pn (0)! (2�n)

�1=2; relatiile (19) si (20) conduc la:

limn!+1

1

nGp(e

�t=n) = limn!+1

1

nGq(e

�t=n) =

�2�

2t

�1=2 exp���8tz2

�1=2�1 + exp

�� (8tz2)1=2

� =: L (t) :Aceasta poate fi desfacuta în serie sub forma:

L (t) =

�2�

2t

�1=2 +1Xr=1

(�1)r�1 exp���8tr2z2

�1=2�:

L (t) poate fi vazuta ca transformarea LaplaceR10exp (�mt) f (m) dm a functiei

f (m) =

+1Xr=1

(�1)r�1 exp��2r2z2=m

�: (21)

Pentru obtinerea concluziei, am vazut ca avem nevoie doar de suma pn + qn: Pentru aceasta, stabilim k = n;adicam = 1 în (21). Concluzionam, folosindu-ne de (12), ca

P�dn >

z

n1=2

�=

nXr=1

(P (Ur) + P (Vr)) = pn + qn = 2+1Xr=1

(�1)r�1 exp��2r2z2

�;

adica exact formula (7), iar demonstratia este încheiata.

5. Statistici de ordine. Consideram variabilele de selectie corespunatoare unei selectii de volum n si con-struim cu ajutorul lor statisticile ordonate

X(1) � X(2) � ::: � X(n):

Variabila aleatoare X(i) se va numi statistica de ordine de ordin i; pentru i = 1; 2; :::; n: Este clar ca independentavariabilelor de selectie nu implica independenta stochastica a statisticilor de ordine. Pentru o selectie efectuata,valoarea lui X(i) va fi notata cu x(i):

Dintre aceste statistici,

� X(1) = minfX1; X2; :::; Xng se numeste prima statistica de ordine si reprezinta statistica de minim a selectiei,

� X(n) = maxfX1; X2; :::; Xng se numeste ultima statistica de ordine si reprezinta statistica de maxim a selectiei.

� Diferenta R = X(n) �X(1) reprezinta amplitudinea de selectie.

În cazul în care volumul n al selectiei:

� este impar, n = 2k + 1; atunci exista X(k) = X(n+1)=2, iar mediana de selectie este o statistica de ordine.

� este par, n = 2m; atunci MeX =�X(m) +X(m+1)

�=2; adica mediana de selectie nu este o statistica de

ordine.

� Deviatiile extreme ale selectiei sunt date de statisticile diferenta X(n) �MeX siMeX �X(1):

14

Page 15: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Propozitia 2.6 Functia de repartitie a statisticii de ordine de ordin k = 1; 2; :::; n este data de formula:

FX(k): R! [0; 1] ; FX(k)

(t) =nXi=k

CinFX (t)i(1� FX (t))n�i : (22)

Demonstratie. Avem:

FX(k)(t) = P (cel putin k variabile de selectie sunt mai mici sau egale cu t)

=nXi=k

CinP (X � t)i (1� P (X � t))n�i =nXi=k

CinFiX (t) (1� FX (t))

n�i:

Particularizând, pentru k = 1; respectiv pentru k = n; obtinem, pentru orice t 2 R :

FX(1)(t) = 1� (1� FX (t))n si fX(1)

(t) = n (1� FX (t))n�1 fX (t)FX(n)

(t) = (FX (t))n si fX(n)

(t) = n (FX (t))n�1

fX (t) :

Statisticile de ordine au multe aplicatii practice. În continuare vom prezenta câteva dintre proprietatile lor statis-tice. Pentru detalii suplimentare, cititorul interesat poate consulta Gibbons Dickinson, Chakraborti [6, Chapter2].

O consecinta a Propozitiei 2.6 este urmatorul rezultat. Densitatea de repartitie se poate obtine prin inductie,prin derivarea functiei de repartitie (22), urmata de câteva rearanjari algebrice ale termenilor. O alta justificare aacestei formule va fi abordata prin intermediul transformarilor de vectori aleatori.

Propozitia 2.7 Daca caracteristicaX a populatiei are densitatea de repartitie fX : R! R+; atunci statistica de ordine deordinul k = 1; 2; :::; n are densitatea de repartitie fX(k)

: R! R+;

fX(k)(t) =

n!

(k � 1)! (n� k)!FX (t)k�1

(1� FX (t))n�k fX (t) : (23)

Demonstratie. Folosim metoda inductiei matematice, în raport cu k. Pentru k = 1 obtinem:

FX(1)(t) = P

�X(1) � t

�= P (minfX1; X2; :::; Xng � t) = 1� P (minfX1; X2; :::; Xng > t)

= 1� P (X1 > t; :::;Xn > t) = 1�nYi=1

P (Xi > t) = 1�nYi=1

(1� P (Xi � t))

= 1�nYi=1

(1� FXi (t)) = 1� (1� FX (t))n:

Prin urmare,

fX(1)(t) = F 0X(1)

(t) = n (1� FX (t))n�1 fX (t) =n!

(1� 1)! (n� 1)!FX (t)1�1

(1� FX (t))n�1 fX (t) :

Presupunem acum ca are loc reprezentarea (23) pentru densitatea de repartitie a statisticii de ordin k si demon-stram structura similara pentru fX(k+1)

:Din formula (22), scrisa pentru functia de repartitie a statisticii de ordineX(k+1); obtinem:

FX(k+1)(t) =

nXi=k+1

CinFiX (t) (1� FX (t))

n�i

=nXi=k

CinFiX (t) (1� FX (t))

n�i

| {z }=FX(k) (t)

� CknF kX (t) (1� FX (t))n�k

= FX(k)(t)� CknF kX (t) (1� FX (t))

n�k:

15

Page 16: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Derivam relatia anterioara si gasim densitatea dorita:

fX(k+1)(t) = F 0X(k+1)

(t) = F 0X(k)(t)�

�CknF

kX (t) (1� FX (t))

n�k�0

= fX(k)(t)� Ckn

�kF k�1X (t) fX (t) (1� FX (t))n�k � (n� k)F kX (t) fX (t) (1� FX (t))

n�k�1�

=n!

(k � 1)! (n� k)!FX (t)k�1

(1� FX (t))n�k fX (t)

� n!

k! (n� k)!Fk�1X (t) fX (t) (1� FX (t))n�k�1 (k (1� FX (t))� (n� k)FX (t))

=n!

(k � 1)! (n� k)!FX (t)k�1

(1� FX (t))n�k fX (t)

� n!

k! (n� k)!Fk�1X (t) (1� FX (t))n�k�1 fX (t) (k � kFX (t)� nFX (t) + kFX (t))

=n!

(k � 1)! (n� k)!FX (t)k�1

(1� FX (t))n�k fX (t)

� n!

k! (n� k)!Fk�1X (t) (1� FX (t))n�k�1 fX (t) (k � nFX (t))

=n!

(k � 1)! (n� k)!FX (t)k�1

(1� FX (t))n�k�1 fX (t) ��1� FX (t)�

1

k(k � nFX (t))

�=

n!

(k � 1)! (n� k)!FX (t)k�1

(1� FX (t))n�k�1 fX (t) �n� kk

FX (t)

=n!

k! (n� (k + 1))!FX (t)k(1� FX (t))n�(k+1) fX (t) :

Demonstratia este, în acest moment, încheiata.

O simplificare a formulelor anterioare se obtine daca populatia studiata are caracteristica repartizata uniformpe (0; 1) : În aceasta situatie,

FX(k)(t) = P

�X(k) � t

�=

nXi=k

P (nfn (t) = i) =nXi=k

Cinti (1� t)n�i ; t 2 (0; 1) ; iar

fX(k)(t) =

n!

(k � 1)! (n� k)! tk�1 (1� t)n�k ; t 2 (0; 1) :

Ultima formula arata ca statistica de ordine X(k) � B (k; n� k + 1) si deci

nXi=k

Cinti (1� t)n�i = 1

B (k; n� k + 1)

Z t

0

xk�1 (1� x)n�k dx = 1

B (k; n� k + 1)It(k; n� k + 1):

Valorile integralei beta sunt tabelate. Printr-o schimbare de variabila, se arata ca ele verifica relatia 1� It (a; b) =I1�t (b; a) :

Statisticile de ordine sunt utile în statistica neparametrica deoarece transformarea

U(k) = FX�X(k)

�produce o variabila aleatoare a carei statistica de ordine provine dintr-o caracteristica repartizata uniform peintervalul (0; 1) ; indiferent de tipul de repartitie F al caracteristicii initiale X; asa cum vedem în urmatorulrezultat.

Teorema 5 DacaX este o variabila aleatoare de tip absolut continuu, cu functia de repartitie continua FX ; atunci variabilaaleatoare

Y = FX(X) � U (0; 1) :

Demonstratie. Deoarece 0 � FX (x) � 1; pentru orice x 2 R; atunci FY (y) = 0 pentru y � 0 si FY (y) = 1 pentruy � 1: Pentru y 2 (0; 1) ; definim

u = supfv : FX (v) = yg:

16

Page 17: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Avem caFY (y) = P (FX (X) � y) = P (X � u) = FX (u) = y;

adica Y � U (0; 1) ; iar demonstratia este încheiata.

Vectori aleatori pentru statistici de ordine.

Presupunem ca, pentru caracteristica X avem variabilele de selectie X1; X2; :::; Xn corespunzatoare unei se-lectii de volum n: Cum aceste variabile aleatoare sunt independente stochastic, densitatea de repartitie a vec-torului aleator de selectie este f(X1;X2;:::;Xn) : Rn ! R+;

f(X1;X2;:::;Xn) (x1; x2; :::; xn) =nYi=1

fX (xi) :

Cum statisticile de ordine nu mai sunt independente stochastic si nici identic repartizate, vectorul aleator ce le aredrept componente nu va mai avea aceeasi repartitie. Statisticile de ordine se obtin prin urmatoarea transformare:8>>>><>>>>:

Y1 = cea mai mica din (X1; X2; :::; Xn) = X(1)Y2 = a doua cea mai mica din (X1; X2; :::; Xn) = X(2)...Yn = cea mai mare din (X1; X2; :::; Xn) = X(n)

(24)

Transformarea (24) nu este una inversabila. Cum exista n! rearanjari ale variabilelor initiale în secvente de mag-nitudine crescatoare, exista tot atâtea transformari inverse. Jacobianul J al transformarii este determinantul detip n � n format din matricea unitate, în care liniiile sunt rearanjate, ceea ce implica faptul ca det J 2 f�1; 1g:Densitatea vectorului aleator ce va avea componentele statisticile de ordine este, prin urmare, pentru y1 < y2 <::: < yn;

f(X(1);X(2);:::;X(n)) (y1; y2; :::; yn) =X

dupa toate cele n!transformari inverse

nYi=1

fX (yi) = n!

nYi=1

fX (yi) : (25)

Determinarea repartitiilor fiecarei statistici de ordine se rezuma la determinarea repartitiilor marginale pentruvectorul

�X(1); X(2); :::; X(n)

�: Astfel, pentru identificarea densitatii de repartitie pentru statistica de ordine de

ordin k trebuie sa integram pe (25) în raport cu celelalte n� 1 variabile. Obtinem astfel:

fX(n)(yn) = n!fX (yn)

Z yn

�1

Z yn�1

�1:::

Z y3

�1

Z y2

�1

n�1Yi=1

(fX (yi) dyi)

= n!fX (yn)

Z yn

�1

Z yn�1

�1:::

Z y3

�1(FX (y2) fX (y2))

n�1Yi=3

fX (yi) dy2:::dyn�1

= n!fX (yn)

Z yn

�1

Z yn�1

�1:::

Z y4

�1

F 2X (y3)

2 � 1 fX (y3)n�1Yi=4

fX (yi) dy3:::dyn�1

= ::: = n!fX (yn)Fn�1X (yn)

(n� 1)! = nFn�1X (yn) fX (yn) :

Similar, determinam densitatea de repartitie pentru prima statistica de ordine si pentru o statistica de ordine deordin k 2 f2; :::; n� 1g; arbitrar:

fX(1)(y1) = n!fX (y1)

Z +1

y1

Z +1

y2

:::

Z +1

yn�2

Z +1

yn�1

nYi=2

fX (yi) dyndyn�1:::dy3dy2

= n!fX (y1)

Z +1

y1

Z +1

y2

:::

Z +1

yn�2

(1� FX (yn�1) fX (yn�1))n�2Yi=2

fX (yi) dyn�1:::dy3dy2

= n!fX (y1)

Z +1

y1

Z +1

y2

:::

Z +1

yn�3

(1� FX (yn�2))2

2 � 1 fX (yn�2)n�3Yi=2

fX (yi) dyn�2:::dy3dy2

= ::: = n!fX (y1)(1� FX (y1))n�1

(n� 1)! = n (1� FX (y1))n�1 fX (y1)

17

Page 18: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

si, considerând secventele ordonate �1 < y1 < y2 < ::: < yk si yk < yk+1 < ::: < yn < +1;

fX(k)(yk) = n!fX (yk)

Z yk

�1

Z yk�1

�1:::

Z y2

�1

Z +1

yk

Z +1

yk+1

:::

Z +1

yn�1

nYi=1;i 6=k

fX (yi) dyn:::dyk+1dy1:::dyk�1

= n!fX (yk)(1� FX (yk))n�k

(n� k)!

Z yk

�1

Z yk�1

�1:::

Z y2

�1

k�1Yi=1

fX (yi) dy1:::dyk�1

= ::: = n!fX (yk)(1� FX (yk))n�k

(n� k)!F k�1X (yk)

(k � 1)!

=n!

(k � 1)! (n� k)!Fk�1X (yk) (1� FX (yk))n�k fX (yk) :

Demonstratia Propozitiei 2.7 este, în acest moment, încheiata.

Repartitia medianei si a amplitudinii de selectie.

Daca n este impar, atunciX(k) = X(n+1)=2 reprezinta mediana de selectie si, prin urmare, fiind o statistica deordine, densitatea sa de repartitie este data de Lema 2.7. Daca n este par, de forma n = 2m; m 2 N�; atunci

MeX =X(m) +X(m+1)

2:

Similar calculelor efectuate anterior, pentru x < y;

f(X(m);X(m+1)) (x; y) =(2m)!

((m� 1)!)2Fm�1X (x) (1� FX (y))m�1 fX (x) fY (y) :

Facem transformarea8<: u =x+ y

2v = y;

cu inversa sa

(x = 2u� vy = v;

si Jacobianul J = 2:

Densitatea de repartitie aMeX este:

fMeX (u) =2 (2m)!

((m� 1)!)2Z +1

u

Fm�1X (2u� v) (1� FX (v))m�1 fX (2u� v) fY (v) dv:

O metoda similara poate fi utilizata pentru determinarea distributiei pentru amplitudinea de selectieR = X(n)�X(1): Repartitia vectorului aleator

�X(1); X(n)

�este, pentru x < y;

f(X(1);X(n)) (x; y) = n (n� 1) (FX (x)� FX (y))n�2

fX (x) fY (y) :

Facem transformarea(u = y � xv = y;

cu inversa sa

(x = v � uy = v;

si Jacobianul J = �1:

Densitatea de repartitie a statisticii R se obtine prin integrare în raport cu variabila v :

fR (u) =

Z +1

�1n (n� 1) (FX (v)� FX (v � u))n�2 fX (v � u) fY (v) dv; u > 0:

3 Selectii din colectivitati normale

Prezentam o serie de rezultate utile privitoare la determinarea repartitilor unor statistici uzuale (media de selectiesi dispersia de selectie), cât si în a altor statistici folosite frecvent în teoria intervalelor de încredere, verificareaipotezelor statistice, teoria corelatiei si a regresiei. Consideram o colectivitate statistica si o caracteristica a sa,X; pe care dorim sa o analizam din punct de vedere statistic. Fie X1; X2; :::; Xn variabilele de selectie core-spunzatoare unei selectii de volum n: Daca n < 30 vom lucra doar în ipoteza populatiilor având caracteristicarepartizata normal, iar daca n > 30, Teorema limita centrala ne permite utilizarea oricarui tip de distributiepentru caracteristica X:

18

Page 19: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Lema 3.1 Daca avem doua variabile aleatoare independente X � N��1; �

21

�; Y � N

��2; �

22

�, atunci X + Y urmeaza

tot o distributie normala, mai precis,X + Y � N

��1 + �2; �

21 + �

22

�:

Demonstratie. Sa consideram, mai întâi, cazul X;Y � N (0; 1) : Fie transformarea:(u = ax+ by ;

v = ax� bycu inversa

8><>:x =

u+ v

2a;

y =u� v2b

si Jacobianul J (u; v) =

����� 1= (2a) 1= (2a)

1= (2b) �1= (2b)

����� = �1= (2ab) :Obtinem, pentru a; b > 0;

f(U;V ) (u; v) =���� 1

2ab

��� f(X;Y )�u+ v2a

;u� v2b

�=

1

4ab�e�

(a2+b2)u2+2(b2�a2)uv+(a2+b2)v2

8a2b2 :

Calculam acum densitatea marginala fU :

fU (u) =1

4ab�exp

�� (a

2 + b2)u2

8a2b2

�Z +1

�1exp

��2(b

2 � a2)uv + (a2 + b2)v28a2b2

�dv

=1

4ab�exp

�� (a

2 + b2)u2

8a2b2

�Z +1

�1exp

0@��pa2 + b2v + b2�a2pa2+b2

u�2 � � b2�a2p

a2+b2u�2

8a2b2

1A dvdeci

fU (u) =1

4ab�exp

�� (a

2 + b2)u2

8a2b2

�exp

�(b2 � a2)2

8a2b2(a2 + b2)u2�Z +1

�1exp

0B@��pa2 + b2v + b2�a2p

a2+b2u�2

8a2b2

1CA dv=

1

4ab�exp

�(b2 � a2)2u2 � (a2 + b2)2u2

8a2b2(a2 + b2)

�Z +1

�1exp

��(v0)2

� 2p2abp

a2 + b2dv0

=1p2�

1pa2 + b2

exp

��u2

2(pa2 + b2)2

�p� =

1p2�(a2 + b2)

exp

��u2

2(a2 + b2)

�;

unde v0 =�pa2 + b2v +

�b2 � a2

�u=pa2 + b2

�=(2p2ab):Am obtinut ca aX+bY � N (0; a2+b2) si de aici rezulta

ca aX + bY + c � N (c; a2 + b2): În general, daca avemX � N��1; �

21

�; Y � N

��2; �

22

�, atunci aplicam rezultatul

obtinut variabilelor aleatoare (X � �1) =�1 ; (Y � �2) =�2 � N (0; 1) si obtinem

X + Y = �1X � �1�1

+ �2Y � �2�2

+ (�1 + �2) � N��1 + �2; �

21 + �

22

�:

Rezultatul poate fi generalizat sub forma urmatoare. Pentru demonstratie vom alege o alta tehnica, cea ametodei functiilor caracteristice.

Lema 3.2 DacaXi � N (�i; �2i ) sunt variabile aleatoare independente stochastic si ai 2 R; i = 1; 2; :::; n , atunci variabilaaleatoare X =

Pni=1aiXi are urmatoarea repartitie:

X � N

nXi=1

ai�i;nXi=1

a2i�2i

!:

În particular, pentru ai = 1=n si � = �i; � = �i; pentru oricare i; atunci �X � N��; �2=n

�:

Demonstratie. Pentru fiecare Xk � N (�k; �2k); functia caracteristica este 'Xk: R! C; 'Xk

(t) = ei�kt�12 t

2�2k :Deoarece variabilele aleatoare Xk; k = 1; n sunt independente stochastic, functia caracteristica a lui X are for-mula:

'X (t) = E�eitX

�= E

�eitPn

k=1akXk

�=

nYk=1

E�eitakXk

�=

nYk=1

'Xk(akt) =

nYk=1

eit�kak�a2k�

2kt2

2

= exp

" nXk=1

ak�k

!it� t

2

2

nXk=1

a2k�2k

!#; 8t 2 R:

Teorema de inversiune conduce la faptul ca X � N�Pn

i=1ai�i;Pn

i=1a2i�

2i

�; iar demonstratia este încheiata.

Urmatorul rezultat a fot prezentat, cu tot cu demonstratie, atunci când am discutat despre momente initialede selectie. Ïl reamintim în acest moment pentru completitudinea colectiei de rezultate ale acestei sectiuni.

19

Page 20: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Propozitia 3.1 (Repartitia asimptotica a mediei de selectie pentru o caracteristica ne-Gaussiana) Fie o selectie de volumn > 30 asupra unei caracteristiciX si variabilele de selectieX1; X2; :::; Xn atasate. Presupunem caX urmeaza o repartitieoarecare si ca exista si sunt finite � = E (X) si 0 6= �2 = D2 (X) : Atunci

�X � ��=pn

rep�! Y � N (0; 1) ; pentru n! +1:

Aceasta arata ca, asimptotic, �X � N��; �2=n

�:

În cele ce urmeaza vom vedea cum putem genera, cu ajutorul variabilelor normale, variabile aleatoare cu altetipuri de repartitie. Acestea vor fi fundamentale în statistica inferentiala.

Lema 3.3 Pentru orice a > 0;

X � �2 (n; �) daca si numai daca aX � �2�n;pa��; (26)

unde n 2 N� si � > 0:

Demonstratie. Avem, pentru orice x � 0, FaX (x) = 0 si pentru orice x > 0;

FaX (x) = P (aX � x) = P (X � x=a) = FX (x=a) :

Deci

faX (x) = (FaX (x))0= (FX (x=a))

0= fX

�xa

� 1a=

1

2n2 (pa�)

n��n2

� xn2�1 exp

� x

2 (pa�)

2

!;

adica aX � �2 (n;pa �).

Lema 3.4 Daca X;Y sunt doua variabile aleatoare independente, distribuite normal, de tipul N�0; �2

�; unde � > 0;

atunciX2 � �2 (1; �) si

�X2 + Y 2

�� �2 (2; �) :

Demonstratie. Avem, pentru orice y � 0, FX2 (y) = 0 si pentru orice y > 0;

FX2 (y) = P�X2 � y

�= P(�py � X � py) = FX(

py)� FX(�

py):

Deci

fX2 (y) = (FX2 (y))0= (FX(

py)� FX(�

py))

0= fX(

py)

1

2py+ fX(�

py)

1

2py

= fX(py)1py=

1p2��2

exp

��py�2

2�2

!1py=

1p2��

y12�1 exp

�� y

2�2

�;

adica X2 corespunde unei variabile aleatoare distribuite �2 (1; �). Daca X;Y � N�0; �2

�; atunci X2; Y 2 �

�2 (1; �) si, prin urmare,�X2 + Y 2

�� �2 (1 + 1; �) :

Rezultatul se poate generaliza la cazul a n variabile aleatoare independente.

Lema 3.5 DacaXi ; i = 1; n ; sunt variabile aleatoare de selectie corespunzatoare unei selectii de volum n asupra caracter-isticii X � N

�0; �2

�; unde � > 0; atunci

nXi=1

X2i � �2 (n; �) :

Demonstratie. Conform rezultatului anterior, Yk = 1�2X

2k � �2 (1) ; pentru orice k = 1; n;

fYk (x) =1p2�x

e�x=21(0;+1) (x)

si atunci functia sa caracteristica este 'Yk : R! C;

'Yk (t) = E(eitYk) =

Z +1

0

eitx1p2�x

e�x=2dx = (1� 2it)�1=2 :

20

Page 21: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Independenta variabilelor aleatoare Yk; k = 1; n; conduce la urmatoarea functie caracteristica pentruPn

k=1Yk :

'Pnk=1Yk

(t) =nYk=1

(1� 2it)�1=2 = (1� 2it)�n=2 ; t 2 R;

adicaPn

k=1Yk � �2 (n) = �2 (n; 1) : De aici rezulta ca

nXk=1

Yk =nXk=1

1

�2X2k =

1

�2

nXk=1

X2k � �2 (n; 1) ; adica

nXk=1

X2k � �2 (n; �) ;

demonstratia fiind, astfel, încheiata.

Lema 3.6 Consideram Xi; i = 1; n ; variabile aleatoare de selectie corespunzatoare unei selectii de volum n asupra carac-teristicii X � N

��; �2

�; unde � > 0:

(a) Daca media caracteristicii este cunoscuta, atunci:

H2 =1

�2

nXi=1

(Xi � �)2 � �2 (n; 1) = �2 (n) :

(b) Daca media caracteristicii este necunoscuta, consideram media de selectie �X = (Pn

i=1Xi) =n si vom avea:

nXi=1

�Xi � �X

�2 � �2 (n� 1; �) sau, echivalent �2 =1

�2

nXi=1

�Xi � �X

�2 � �2 (n� 1; 1) = �2 (n� 1) :Demonstratie. Avem ca suma

Pni=1Xi � N

�n�; n�2

�si apoi �X � N

��; �2=n

�: Prin urmare, deducem ca

(Xi � �) � N�0; �2

�si

��X � �

�� N

�0; �2=n

�:

În consecinta, (Xi � �)2 � �2 (1; �) ceea ce conduce la

nXi=1

(Xi � �)2 � �2 (n; �) :

Obtinem ca

H2 =n

�21

n

nXi=1

(Xi � �)2 =1

�2

nXi=1

(Xi � �)2 � �2 (n; 1) = �2 (n)

De asemenea, ��X � �

�2 � �2 �1; �=pn� si n��X � �

�2 � �2 (1; �) :Pe de alta parte, avem ca

nXi=1

�Xi � �X

�2=

nXi=1

�(Xi � �)�

��X � �

��2=

nXi=1

h(Xi � �)2 � 2 (Xi � �)

��X � �

�+��X � �

�2i=

nXi=1

(Xi � �)2 � 2��X � �

� nXi=1

(Xi � �) +nXi=1

��X � �

�2=

nXi=1

(Xi � �)2 � 2n��X � �

�2+ n

��X � �

�2:

DecinXi=1

�Xi � �X

�2=

nXi=1

(Xi � �)2 � n��X � �

�2 � �2 (n; �)� �2 (1; �) = �2 (n� 1; �) ;ceea ce conduce la

�2 =1

�2

nXi=1

�Xi � �X

�2 � �2 (n� 1; 1) = �2 (n� 1) :Determinam repartitia dispersiei de selectie modificata astfel:

�2 =n

�21

n

nXi=1

�Xi � �X

�2=n

�2S2 =

n

�2n� 1n

(S�)2=n� 1�2

(S�)2:

21

Page 22: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Rezulta ca (n� 1) (S�)2 � �2 (n� 1; �) si, în mod similar, nS2 � �2 (n� 1; �) : De asemenea,

(S�)2 � �2(n� 1; �=

pn� 1) si S2 � �2(n� 1; �=

pn):

În final, are loc urmatoarea legatura dintre distributia normala, distributia �2 si distributia Student.

Lema 3.7 Daca X � N�0; �2

�si Y � �2 (n; �) ; unde n 2 N� si � > 0; sunt doua variabile aleatoare independente,

atunci distributia

T =XrY

n

� t (n) :

Demonstratie. Vectorul aleator (X;Y ) are densitatea de repartitie, pentru x 2 R; y � 0;

f(X;Y ) (x; y) =1p2��2

exp

�� x2

2�2

�� 1

2n=2�n� (n=2)yn2�1 exp

�� y

2�2

�=

1p��n+12

n+12 � (n=2)

yn2�1 exp

��x

2 + y

2�2

�:

Sa consideram transformarea8<: u =xpyn

;

v = y;cu inversa

8<: x =upvpn;

y = v;si Jacobianul J (u; v) =

pv=pn:

Obtinem astfel densitatea de repartitie a vectorului aleator f(U;V ) :

f(U;V ) (u; v) = f(X;Y )

�upvpn; v

� ����pvpn���� = v

n�12 exp

�� v2�2

�u2

n + 1��

pn��n+12

n+12 � (n=2)

:

Densitatea marginala este data de (avem v = y � 0)

fU (u) =1

pn��n+12

n+12 � (n=2)

Z +1

0

vn�12 exp

�� v

2�2

�u2

n+ 1

��dv:

Facem substitutia v2�2

�u2

n + 1�= v0 deci dv = 2�2dv0=

�u2

n + 1�

si

fU (u) =1

pn��n+12

n+12 � (n=2)

Z +1

0

�2�2

u2

n + 1

�n�12

(v0)n�12 e�v

0 2�2

u2

n + 1dv0

=1p

n�� (n=2)

�u2

n+ 1

��n+12Z +1

0

vn�12 e�vdv =

1pn�� (n=2)

�u2n+ 1��n+1

2

��n+ 1

2

�:

Deci U urmeaza distributia Student cu n grade de libertate.

Lema 3.8 Consideram Xi; i = 1; n ; variabile aleatoare de selectie corespunzatoare unei selectii de volum n asupra carac-teristicii X � N

�0; �2

�; unde � > 0; si fie �X = (

Pni=1Xi) =n; media de selectie corespunzatoare. Atunci

�XsPni=1

�Xi � �X

�2n (n� 1)

� t (n� 1) :

Demonstratie. Utilizând rezultatele anterioare obtinem ca

�X � N�0;�2

n

�si

1

n

nXi=1

�Xi � �X

�2 � �2�n� 1; �pn

�; (27)

de unde deducem ca�Xvuut 1

n

Xn

i=1

�Xi � �X

�2n� 1

� t (n� 1) ;

22

Page 23: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

iar demonstratia este încheiata.

Atentie. Trebuie subliniat faptul ca, dupa formula (27), am aplicat rezultatul Lemei 3.7, care stabileste o legaturaîntre distributia normala, distributia �2 si distributia Student. Dar, înainte de a face aceasta, trebuie remarcatca acest rezultat solicita ca si ipoteza ca cele doua variabile implicate sunt independente. În cazul nostru, lanumarator apare �X; iar la numitor S2; ambele fiind definite cu ajutorul acelorasi variabile aleatoare de selectieX1; X2; :::; Xn: Prin urmare, prima opinie ar fi ca nu este verificata aceasta ipoteza de independenta. La oanaliza mai atenta, am aratat în Lema 2.1 ca, în ipoteze de normalitate pentru caracteristicaX � N (�; �2);mediade selectie �X si dispersia de selectie S2 sunt statistici independente stochastic.

Statistica anterioara este folosita pentru testarea mediei teoretice atunci atunci când dispersia teoretica a car-acteristicii nu este cunoscuta a priori si pentru determinarea intervalelor de încredere pentru aceasta.

Populatii cu mai multe caracteristici cercetate.

Lema 3.9 Fie Xi � N��i; �

2i

�si ai 2 R; i = 1; n caracteristici independente ale unei populatii statistice. Pentru fiecare

caracteristicaXi efectuam o selectie repetata de volum ni si notam cu �Xi mediile de selectie corespunzatoare fiecarei selectii.Atunci obtinem urmatoarea statistica:

Y =nXi=1

ai �Xi � N

nXi=1

ai�i;nXi=1

a2i�2ini

!:

Ca un caz particular, pentru n = 2; a1 = 1 si a2 = �1, determinam repartitia diferentei mediilor de selectie pentrucaracteristici normale, atunci când dispersiile lor sunt cunoscute.

Demonstratie. Deoarece fiecare caracteristica Xi � N��i; �

2i

�; atunci media de selectie a variabilelor de selectie

corespunzatoare are repartitia

�Xi � N��i;�2ini

�:

Aplicam acum Lema 3.2 si obtinem rezultatul dorit.

Aceasta statistica este utilizata la verificarea ipotezei ca mediile a doua caracteristici sunt egale. De asemenea,se foloseste la determinarea intervalului de încredere pentru diferenta mediilor a doua caracteristici indepen-dente ale unei populatii.

În cazul în care dispersiile celor doua caracteristici sunt necunoscute, obtinem în continuare o varianta arezultatului anterior.

Lema 3.10 Fie X � N��1; �

2�

si Y � N��2; �

2�

doua caracteristici independente ale unei populatii statistice. Pentrufiecare caracteristica efectuam o selectie repetata de volum n1 si, respectiv, n2. Notam cu �X; �Y mediile lor de selectie si cu(S�1 )

2; (S�2 )

2 dispersiile de selectie modificata. Atunci obtinem urmatoarea statistica:

Y =

��X � �Y

�q(n1 � 1) (S�1 )

2+ (n2 � 1) (S�2 )

2

vuutn1 + n2 � 11

n1+1

n2

� t (n1 + n2 � 2) :

Demonstratie. Consideram statisticile

Z1 =

��X � �Y

�� (�1 � �2)

r1

n1+1

n2

� N (0; 1) si Z2 =(n1 � 1) (S�1 )

2

�2(S�1 )

2+(n2 � 1) (S�2 )

2

�2(S�2 )

2

În Lema 3.6 am aratat ca urmatoarele doua statistici independente stochastic au repartitiile

(n1 � 1) (S�1 )2

�2� �2 (n1 � 1) si

(n2 � 1) (S�2 )2

�2� �2 (n2 � 1) :

Aceasta conduce la faptul ca suma lor, Z2 � �2 (n1 + n2 � 2) : Aplicam Lema 3.7 variabilelor aleatoare Z1 si Z2si obtinem rezultatul dorit.

Urmatoarea statistica se foloseste pentru verificarea ipotezelor statistice de egalitate a dispersiilor teoreticepentru doua caracteristici independente ale unei populatii, precum si pentru determinarea intervalului de în-credere pentru raportul dispersiilor.

23

Page 24: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Lema 3.11 Daca X � �2(m; 1) = �2(m) si Y � �2 (n; 1) = �2(n); unde m;n 2 N�; sunt doua variabile aleatoareindependente, atunci distributia

F =X=m

Y=n� F (m;n) :

Demonstratie. Sa calculam mai întâi functia de repartitie a v.a. X=Y; FX=Y : R! [0; 1];

FXY(u) =

ZZDfX (x) fY (y) dxdy;

unde D =�(x; y) 2 R2 : x � 0; y > 0; x=y � u

. Notam

C1 =1

2n2 �n� (n=2)

; C2 =1

2m2 �m� (m=2)

:

Explicitând si domeniul D obtinem D = f(x; y) : x � 0; y � x=ug, deci

FXY(u) = C1C2

Z +1

0

Z +1

x=u

xn2�1 y

m2 �1 exp

��x+ y2�2

�dy

!dx:

Derivând functia de repartitie de mai sus, obtinem:

fX

Y

(u) = C1C2

Z +1

0

(�)�xu

�0xn2�1

�xu

�m2 �1

exp

��x+ x

u

2�2

�dx =

C1C2u1+m=2

Z +1

0

xn+m2 �1 exp

�� x

2�2

�1 +

1

u

��dx:

În aceasta integrala facem substitutia x2�2

�1 + 1

u

�= x0; cu dx = 2�2

1+1=udx0; deci

fX

Y

(u) =C1C2u1+m=2

Z +1

0

�2�2

1 + 1=ux0�n+m

2 �1

e�x0 2�2

1 + 1=udx0 =

C1C2u1+m=2

�2�2�n+m

2

(1 + u)n+m2 u�

n+m2

Z +1

0

xn+m2 �1e�xdx

= C1C2un=2�1

(1 + u)n+m2

�2�2�n+m

2 �

�n+m

2

�:

Înlocuind cantitatile C1 si C2 în formula de mai sus obtinem:

fX

Y

(u) =��n+m2

���n2

���m2

� un=2�1

(1 + u)n+m2

:

Se noteaza acum V = mn U si deteminam denstatea variabilei aleatoare V :

fV (v) = fU

� nmv� nm:

Folosind si legatura dintre functiile Gamma si Beta, concluzionam ca

fV (v) =��n+m2

���n2

���m2

� �nmv�n=2�1�

1 + nmv�n+m

2

n

m=

��n+m2

���n2

���m2

� � nm

�n=2vn2�1

�1 +

n

mv��n+m

2

=

�nm

�n=2��n2 ;

m2

� v n2�1 �1 + n

mv��n+m

2

; v � 0:

Relatia din enunt se poate obtine si calculând direct densitatea de repartitie fX=Y cu ajutorul formulei câtului adoua variabile aleatoare independente, repartizate �2(m); respectiv �2(n).

24

Page 25: Elemente de Teoria selec¸tiei - Facultatea de Matematicaeduard/Capitolul 2. Teoria...Elemente de Teoria selec¸tiei Conf. dr. habil. Eduard Rotenstein¸ 1 Considera¸tii generale.

Bibliografie

[1] Anderson, M., A characterization of the multivariate normal distribution, The Annals of Mathematical Statistics,vol. 42, no. 2, 824-827, 1971.

[2] Benhamou, E.; Melot, V., Seven proofs of the Pearson Chi-squared independence test and its graphical interpretation,arXiv:1808.09171v3, 2018.

[3] Berk, R., Review 1922 of ‘Invariance of Maximum Likelihood Estimators’ by Peter W. Zehna, Mathematical Re-views, 33, 342-343, 1967.

[4] Devore, J; Berk, K., Modern Mathematical Statistics with Applications, 2nd Edition, Springer New York Dor-drecht Heidelberg London, 2012.

[5] Duret, R., Probability: Theory and Examples, 5th Edition, Cambridge Series in Statistical and ProbabilisticMathematics, 2014.

[6] Gibbons Dickinson, J.; Chakraborti, S., Nonparametric Statistical Inference, Fourth Edition, Revised and Ex-panded, Marcel Dekker, INC., New York, Basel, 2003.

[7] Kendall, M.G., The Advanced Theory of Statistics, Volume 1, Distribution Theory, London, Charles Griffin &Company, 1945 (Edition by Stuart, Alan, Ord, Keith, 2010).

[8] Kendall, M.G.; Stuart, A., The Advanced Theory of Statistics, Volume 2, Inference and Relationships, HafnerPublishing Company, 1961 (Edition by Wiley, 2010).

[9] Klenke, A., Probability Theory: A Comprehensive Course, 2nd Edition, Springer, 2014.[10] Kolmogorov, A. N., Sulla Determinazione Empirica di Una Legge di Distribuzione, Giornale dell’Istituto Italiano

degli Attuari, 4. 83-91, 1933.[11] Montgomery, D; Runger, G, Applied Statistics and Probability for Engineers, 3rd Edition, John Wiley & Sons,

Inc, 2003.[12] Owen, A, Lectures on statistics, Department of Statistics, Stanford University.[13] Stoleriu, I., Statistica aplicata, note de curs, 2019.[14] Wackerly, D.; Mendenhall, W.; Scheaffer, R., Mathematical Statistics with Applications, 7th Edition, Thomson

Brooks/Cole, 2008.[15] Walck, C., Handbook on Statistical distributions for experimentalists, Particle Physics Group, University of

Stockholm.[16] Watson, G.S., Some recent results in chi-square goodness-of-fit tests, Biometrics, 15, 440, 1959.

25