Analiza Multidim c1 Octombrie 2014
-
Upload
cristinaboboc -
Category
Documents
-
view
248 -
download
6
description
Transcript of Analiza Multidim c1 Octombrie 2014
Analiza statistică multidimensională
Curs 1, Octombrie 2014
Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: [email protected]
WEB page: www.cristinaboboc.wordpress.com
I. Prezentare curs
Conținutul cursului I. Introducere: notiuni elementare, norul de indivizi şi de variabile.
II. Analiza componentelor principale: Domenii de aplicare. Descrierea metodei. Interpretare
geometrica. Analiza norului de indivizi. Analiza norului de puncte variabile.
III. Analiza factoriala a corespondentelor multipla: Notiuni si definitii. Domenii de aplicare.
Descrierea metodei. Variabilele suplimentare. Interpretarea reprezentarilor simultane.
IV. Analiza cluster: Domenii de aplicare; Descrierea metodei de clasificare ierarhica.Interpretare
arborii de clasificare; Descrierea metodei de clasificare neierarhica.Interpretarea clusterilor;
Complementaritate cu metodele anterioare
V. Analiza canonica: Formularea problemei si notatii. Definirea variabilelor canonice. Interpretarea
rezultatelor ; Legatura cu analiza corespondentelor
VI. Analiza discriminanta si legatura cu alte metode: Descrierea metodei de analiza
discriminata. Interpretarea rezultatelor; Analiza discriminanta si analiza componentelor principale
VII. Modelul de regresie: Regresia multipla si legatura cu alte medote de analiza
multidimensionala; Regresia pentru date de tip panel
Bibliografie
Andrei T. (2003) - Statistica si Econometrie, Ed. Economica
Boboc C. (2007), Analiza statistica multidimensionala, Meteor Press
Saporta G., Stefanescu V.(1996), Analiza datelor & informatica, Ed. Economica, Bucuresti.
Spircu L., Spircu T., Calciu M.(1994), Analiza datelor de marketing, Ed. ALL, Bucuresti.
Bouroche J–M, Saporta G. (1980), “L’analyse des données”, Presses Universitaires de France, Paris
Lebart L., Morineau A., Piron M. (1997): Statistique exploratoire multidimensionnelle, Dunod
Structura notei finale
Examen scris: 60% din nota finală
Proiect: 40% din nota finală
2-3 membri în echipă
De realizat o analiză multidimensională
Notare: - 50% conţinutul şi forma lucrării
- 50% prezentarea lucrării
- între 10 şi 15 de minute, în funcţie de numărul de membri ai echipei
- comentarii şi întrebări: 5 minute
Noţiuni introductive
Noţiuni introductive Variabile statistice - clasificare
1. după modul de exprimare:
variabile calitative: exprimate prin cuvinte, cu care se precizează apartenenţa la o
categorie sau o modalitate a unei mulţimi finite de observaţii
variabile cantitative (numerice): exprimate prin numere, mulţimea observaţiilor
putând fi infinită
2. după cardinalul mulţimii a observaţiilor:
variabile binare (alternative): 10, da, nu etc
variabile discrete
variabile continue
3. după conţinutul variabilei:
variabile de timp (cronologice): exprimate prin funcţii de timp
variabile de spaţiu: exprimate prin funcţii de spaţiu
variabile atributive: sunt definite printr-o funcţie atributivă
Noţiuni introductive Transformarea datelor
se realizează prin operații de prelucrare primară asupra datelor primare: centrare și standardizare sau
logaritmare
Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de măsură specifice naturii fenomenului X.
Vectorul valorilor lui X poate fi definit prin 2 parametri:
Media arimetică (M(x)):
Abaterea medie pătratică: unde:
Valori centrate
Media:
Dispersia:
n
x
x
n
i
i 1
n
xxn
i
i
xx
1
2
2
dispersian
xx
xD
n
i
i
x
1
2
22
xxx ii *
0
*
**
n
xx
n
xxMx
ii
i
xDn
xx
n
xxxD
ii 2
22**
*2
Noţiuni introductive Transformarea datelor
Valori centrate şi normate:
Media:
Dispersia:
Valori logaritmate:
Media:
Dispersia:
x
ii
xxx
**
0
1**
****
n
xx
n
xx
n
xxMx
i
xx
i
i
1
1
)(
2
2
2
2
2
2****
**2
x
x
i
xx
i
i
n
xx
n
xx
n
xMxxD
)ln( ix
))(ln()ln()ln()ln(
)ln()ln(
1
in
i
ii
ii xMGxn
x
n
xxMx
in
i
i
nii
i xDn
x
x
n
xx
xD 2?
2
1
21
2)(
ln)ln()ln(
)ln(
Noţiuni introductive Măsurarea intensităţii legăturii dintre variabilele cantitative
Coeficientul de corelaţie liniară a lui Pearson
r=1 - există o legătură perfectă directă între x şi y
r=-1 - există o legătură perfectă inversă între x şi y
r=0 - nu există legătură între x şi y
Testarea existenţei legăturii liniare între x şi y
Ipotezele: H0: variabilele x şi y nu sunt corelate HA: variabilele x şi y sunt corelate
se respinge H0
se acceptă H0
1,1
)()( 2222
iiii
iiii
yynxxn
yxyxnr
2n2
T~
r1
2nrt
2n;tt
2n;tt
Noţiuni introductive Tipuri de date
a) date de tip profil
reprezintă rezultatul unor măsurători efectuate la un anumit moment asupra uneia sau mai multor variabile, pe mulţimea unităţilor populaţiei
b) date de tip serii de timp (serii cronologice)
reprezintă rezultate ale unor măsurători efectuate asupra caracteristicilor, unităţilor populaţiei studiate, de-a lungul timpului, la momente succesive sau la anumite intervale de timp
c) date de tip panel
sunt rezultate ale măsurătorilor efectuate asupra caracteristicilor unor unităţi individuale, atât de-a lungul unităţilor individuale, cât şi de-a lungul timpului
Definirea analizei statistice
multidimensionale
Datele sunt organizate de teme majore: clienţii, produse, vanzari, …
Subiect = fapte + dimensiuni
Colectează date relevante cu privire la un subiect
Exemplu: vânzări
Sintetizează o vedere unică de evenimente care urmează să fie analizate
Exemplu: vânzări (nr, produs, perioada, magazin)
Detalii pe diverse dimensiuni
Exemplu: Produse (IDprod, descriere, culoare, dimensiune, ...)
Magazine (IDMAG numele, oraşul, ţara dept,)
Perioade (IDper, an, trimestru, lună, zi)
Necesitatea utilizării metodelor de analiză
multidimensională
Dimensiuni:
Timp
Geografie
Produse
Clienți
Canalele de distribuție .....
Indicatori:
Număr de unități vândute
CA
Cost
Marjă …..
Necesitatea utilizării metodelor de analiză
multidimensională
Dimensiuni – unități
Zi An Trimestru Lună Timp
Țară Regiune Oraș Geografie
Gamă Tip Număr Produse Marcă
Ce este analiza multidimensională?
Analiza statistică multidimensională urmărește utilizarea celor mai adecvate metode
statistico-matematice pentru:
Obținerea de reprezentări grafice sintetice
Reducerea dimensiunii pentru comprimarea sau rezumarea datelor
Cercetarea și reprezentarea tipologiilor de observații
Estimații și inferență statistică a datelor
Metode de analiză multidimensională
Metode de învățare nesupervizate:
Analiza în componente principale
Analiza de corespondențe simplă și multiplă
Analiza canonica
Analiza de clasificare
Metode de învățare supervizate și de previziune
Analiza discriminantă
Regresia logistică
Regresia multiplă
Analiza de regresie pentru date de tip panel
Modele cu ecuații structurale
Datele și caracteristicile lor: Tabelul de date
Utilizatorii metodelor
factoriale pleacă de la un
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
valoarea variabilei j pentru individul i
vector coloană Vectorul linie
p puncte în Rn n puncte în Rp
𝑒𝑖′ = 𝑥𝑖
1, … , 𝑥𝑖𝑝
𝑥𝑗 =𝑥1𝑗
⋮𝑥𝑛𝑗
Datele si caracteristicile lor: Matricea ponderilor; Centrul de greutate
Datele si caracteristicile lor: Matricea dispersie covarianță
Matricea dispersie-covarianță:
unde
Notații:
Matricea diagonală a inverselor abaterilor medii pătratice:
Matricea diagonală a inverselor dispersiilor:
Tabelul datelor centrate și reduse
cu
𝐕 = 𝐗′𝐃𝐗 − 𝐠𝐠′ = 𝐘′𝐃𝐘 𝐗′𝐃𝐗 = 𝐩𝐢𝐞𝐢𝐞𝐢′
𝐧
𝐢=𝟏
𝐃𝟏/𝐬 =
𝟏/𝐬𝟏 𝟎
⋱𝟎 𝟏/𝐬𝐩
𝐃𝟏/𝒔𝟐 =
𝟏/𝐬𝟏𝟐 𝟎
⋱𝟎 𝟏/𝐬𝒑
𝟐
𝐙 = 𝐘𝐃𝟏/𝐬 zji =xij − x j
sj
Datele si caracteristicile lor: Matricea de corelatie
R – matricea care grupează toți coeficienții de corelație liniară între p variabile luate
două :câte două se numește matricea de corelație:
Observatie: Matricea de corelatie R este matricea dispersie covarianta V pentru
date centrate si reduse
R =
1 𝑟12 … 𝑟1𝑝⋯ 1 ⋯ ⋯𝑟𝑝1 ⋯ ⋯ 1
= 𝐷1/𝑠𝑉𝐷1/𝑠=Z’DZ