Analiza Multidim c1 Octombrie 2014

21
Analiza statistică multidimensională Curs 1, Octombrie 2014 Titular de curs: Conf.univ.dr.Cristina BOBOC Email: [email protected] WEB page: www.cristinaboboc.wordpress.com

description

Analiza factoriala

Transcript of Analiza Multidim c1 Octombrie 2014

Page 1: Analiza Multidim c1 Octombrie 2014

Analiza statistică multidimensională

Curs 1, Octombrie 2014

Titular de curs: Conf.univ.dr.Cristina BOBOC

Email: [email protected]

WEB page: www.cristinaboboc.wordpress.com

Page 2: Analiza Multidim c1 Octombrie 2014

I. Prezentare curs

Page 3: Analiza Multidim c1 Octombrie 2014

Conținutul cursului I. Introducere: notiuni elementare, norul de indivizi şi de variabile.

II. Analiza componentelor principale: Domenii de aplicare. Descrierea metodei. Interpretare

geometrica. Analiza norului de indivizi. Analiza norului de puncte variabile.

III. Analiza factoriala a corespondentelor multipla: Notiuni si definitii. Domenii de aplicare.

Descrierea metodei. Variabilele suplimentare. Interpretarea reprezentarilor simultane.

IV. Analiza cluster: Domenii de aplicare; Descrierea metodei de clasificare ierarhica.Interpretare

arborii de clasificare; Descrierea metodei de clasificare neierarhica.Interpretarea clusterilor;

Complementaritate cu metodele anterioare

V. Analiza canonica: Formularea problemei si notatii. Definirea variabilelor canonice. Interpretarea

rezultatelor ; Legatura cu analiza corespondentelor

VI. Analiza discriminanta si legatura cu alte metode: Descrierea metodei de analiza

discriminata. Interpretarea rezultatelor; Analiza discriminanta si analiza componentelor principale

VII. Modelul de regresie: Regresia multipla si legatura cu alte medote de analiza

multidimensionala; Regresia pentru date de tip panel

Page 4: Analiza Multidim c1 Octombrie 2014

Bibliografie

Andrei T. (2003) - Statistica si Econometrie, Ed. Economica

Boboc C. (2007), Analiza statistica multidimensionala, Meteor Press

Saporta G., Stefanescu V.(1996), Analiza datelor & informatica, Ed. Economica, Bucuresti.

Spircu L., Spircu T., Calciu M.(1994), Analiza datelor de marketing, Ed. ALL, Bucuresti.

Bouroche J–M, Saporta G. (1980), “L’analyse des données”, Presses Universitaires de France, Paris

Lebart L., Morineau A., Piron M. (1997): Statistique exploratoire multidimensionnelle, Dunod

Page 5: Analiza Multidim c1 Octombrie 2014

Structura notei finale

Examen scris: 60% din nota finală

Proiect: 40% din nota finală

2-3 membri în echipă

De realizat o analiză multidimensională

Notare: - 50% conţinutul şi forma lucrării

- 50% prezentarea lucrării

- între 10 şi 15 de minute, în funcţie de numărul de membri ai echipei

- comentarii şi întrebări: 5 minute

Page 6: Analiza Multidim c1 Octombrie 2014

Noţiuni introductive

Page 7: Analiza Multidim c1 Octombrie 2014

Noţiuni introductive Variabile statistice - clasificare

1. după modul de exprimare:

variabile calitative: exprimate prin cuvinte, cu care se precizează apartenenţa la o

categorie sau o modalitate a unei mulţimi finite de observaţii

variabile cantitative (numerice): exprimate prin numere, mulţimea observaţiilor

putând fi infinită

2. după cardinalul mulţimii a observaţiilor:

variabile binare (alternative): 10, da, nu etc

variabile discrete

variabile continue

3. după conţinutul variabilei:

variabile de timp (cronologice): exprimate prin funcţii de timp

variabile de spaţiu: exprimate prin funcţii de spaţiu

variabile atributive: sunt definite printr-o funcţie atributivă

Page 8: Analiza Multidim c1 Octombrie 2014

Noţiuni introductive Transformarea datelor

se realizează prin operații de prelucrare primară asupra datelor primare: centrare și standardizare sau

logaritmare

Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură specifice naturii fenomenului X.

Vectorul valorilor lui X poate fi definit prin 2 parametri:

Media arimetică (M(x)):

Abaterea medie pătratică: unde:

Valori centrate

Media:

Dispersia:

n

x

x

n

i

i 1

n

xxn

i

i

xx

1

2

2

dispersian

xx

xD

n

i

i

x

1

2

22

xxx ii *

0

*

**

n

xx

n

xxMx

ii

i

xDn

xx

n

xxxD

ii 2

22**

*2

Page 9: Analiza Multidim c1 Octombrie 2014

Noţiuni introductive Transformarea datelor

Valori centrate şi normate:

Media:

Dispersia:

Valori logaritmate:

Media:

Dispersia:

x

ii

xxx

**

0

1**

****

n

xx

n

xx

n

xxMx

i

xx

i

i

1

1

)(

2

2

2

2

2

2****

**2

x

x

i

xx

i

i

n

xx

n

xx

n

xMxxD

)ln( ix

))(ln()ln()ln()ln(

)ln()ln(

1

in

i

ii

ii xMGxn

x

n

xxMx

in

i

i

nii

i xDn

x

x

n

xx

xD 2?

2

1

21

2)(

ln)ln()ln(

)ln(

Page 10: Analiza Multidim c1 Octombrie 2014

Noţiuni introductive Măsurarea intensităţii legăturii dintre variabilele cantitative

Coeficientul de corelaţie liniară a lui Pearson

r=1 - există o legătură perfectă directă între x şi y

r=-1 - există o legătură perfectă inversă între x şi y

r=0 - nu există legătură între x şi y

Testarea existenţei legăturii liniare între x şi y

Ipotezele: H0: variabilele x şi y nu sunt corelate HA: variabilele x şi y sunt corelate

se respinge H0

se acceptă H0

1,1

)()( 2222

iiii

iiii

yynxxn

yxyxnr

2n2

T~

r1

2nrt

2n;tt

2n;tt

Page 11: Analiza Multidim c1 Octombrie 2014

Noţiuni introductive Tipuri de date

a) date de tip profil

reprezintă rezultatul unor măsurători efectuate la un anumit moment asupra uneia sau mai multor variabile, pe mulţimea unităţilor populaţiei

b) date de tip serii de timp (serii cronologice)

reprezintă rezultate ale unor măsurători efectuate asupra caracteristicilor, unităţilor populaţiei studiate, de-a lungul timpului, la momente succesive sau la anumite intervale de timp

c) date de tip panel

sunt rezultate ale măsurătorilor efectuate asupra caracteristicilor unor unităţi individuale, atât de-a lungul unităţilor individuale, cât şi de-a lungul timpului

Page 12: Analiza Multidim c1 Octombrie 2014

Definirea analizei statistice

multidimensionale

Page 13: Analiza Multidim c1 Octombrie 2014

Datele sunt organizate de teme majore: clienţii, produse, vanzari, …

Subiect = fapte + dimensiuni

Colectează date relevante cu privire la un subiect

Exemplu: vânzări

Sintetizează o vedere unică de evenimente care urmează să fie analizate

Exemplu: vânzări (nr, produs, perioada, magazin)

Detalii pe diverse dimensiuni

Exemplu: Produse (IDprod, descriere, culoare, dimensiune, ...)

Magazine (IDMAG numele, oraşul, ţara dept,)

Perioade (IDper, an, trimestru, lună, zi)

Necesitatea utilizării metodelor de analiză

multidimensională

Page 14: Analiza Multidim c1 Octombrie 2014

Dimensiuni:

Timp

Geografie

Produse

Clienți

Canalele de distribuție .....

Indicatori:

Număr de unități vândute

CA

Cost

Marjă …..

Necesitatea utilizării metodelor de analiză

multidimensională

Page 15: Analiza Multidim c1 Octombrie 2014

Dimensiuni – unități

Zi An Trimestru Lună Timp

Țară Regiune Oraș Geografie

Gamă Tip Număr Produse Marcă

Page 16: Analiza Multidim c1 Octombrie 2014

Ce este analiza multidimensională?

Analiza statistică multidimensională urmărește utilizarea celor mai adecvate metode

statistico-matematice pentru:

Obținerea de reprezentări grafice sintetice

Reducerea dimensiunii pentru comprimarea sau rezumarea datelor

Cercetarea și reprezentarea tipologiilor de observații

Estimații și inferență statistică a datelor

Page 17: Analiza Multidim c1 Octombrie 2014

Metode de analiză multidimensională

Metode de învățare nesupervizate:

Analiza în componente principale

Analiza de corespondențe simplă și multiplă

Analiza canonica

Analiza de clasificare

Metode de învățare supervizate și de previziune

Analiza discriminantă

Regresia logistică

Regresia multiplă

Analiza de regresie pentru date de tip panel

Modele cu ecuații structurale

Page 18: Analiza Multidim c1 Octombrie 2014

Datele și caracteristicile lor: Tabelul de date

Utilizatorii metodelor

factoriale pleacă de la un

tablou de măsuri, pe coloane

figurând variabilele numerice

continue, liniile fiind indivizii ei

pentru care sunt măsurate

variabilele xj

valoarea variabilei j pentru individul i

vector coloană Vectorul linie

p puncte în Rn n puncte în Rp

𝑒𝑖′ = 𝑥𝑖

1, … , 𝑥𝑖𝑝

𝑥𝑗 =𝑥1𝑗

⋮𝑥𝑛𝑗

Page 19: Analiza Multidim c1 Octombrie 2014

Datele si caracteristicile lor: Matricea ponderilor; Centrul de greutate

Page 20: Analiza Multidim c1 Octombrie 2014

Datele si caracteristicile lor: Matricea dispersie covarianță

Matricea dispersie-covarianță:

unde

Notații:

Matricea diagonală a inverselor abaterilor medii pătratice:

Matricea diagonală a inverselor dispersiilor:

Tabelul datelor centrate și reduse

cu

𝐕 = 𝐗′𝐃𝐗 − 𝐠𝐠′ = 𝐘′𝐃𝐘 𝐗′𝐃𝐗 = 𝐩𝐢𝐞𝐢𝐞𝐢′

𝐧

𝐢=𝟏

𝐃𝟏/𝐬 =

𝟏/𝐬𝟏 𝟎

⋱𝟎 𝟏/𝐬𝐩

𝐃𝟏/𝒔𝟐 =

𝟏/𝐬𝟏𝟐 𝟎

⋱𝟎 𝟏/𝐬𝒑

𝟐

𝐙 = 𝐘𝐃𝟏/𝐬 zji =xij − x j

sj

Page 21: Analiza Multidim c1 Octombrie 2014

Datele si caracteristicile lor: Matricea de corelatie

R – matricea care grupează toți coeficienții de corelație liniară între p variabile luate

două :câte două se numește matricea de corelație:

Observatie: Matricea de corelatie R este matricea dispersie covarianta V pentru

date centrate si reduse

R =

1 𝑟12 … 𝑟1𝑝⋯ 1 ⋯ ⋯𝑟𝑝1 ⋯ ⋯ 1

= 𝐷1/𝑠𝑉𝐷1/𝑠=Z’DZ