Post on 04-Oct-2015
Capitolul 5. Aplicaii economice
Vom descrie n acest capitol cteva aplicaii economice ale tehnicilor prezentate n Capitolele 14. Vom folosi exemplul 2 din Anexa 1, dar vom prezenta i alte aplicaii noi, utile pentru un economist, cum ar fi modelul de credit scoring dar i unele tehnici de analiz pe tabele de contingen.
5.1 Analiza i clasificarea firmelor pe baza indicatorilor financiari
S considerm problema descris n exemplul 2 din Anexa 1. n acest exemplu sunt prezentai 7 indicatori financiar-contabili, calculai pentru un lot de 12 firme, indicatorii fiind urmtorii:
I1: Total datorii/capital social; I2: Cifr de afaceri/total activ; I3: Profit brut/total activ; I4: Capital social/cifr de afaceri; I5: Datorii/total activ; I6: log(Activ); I7: Rata de cretere a activului.
Matricea de date coninnd valori ale acestor indicatori pentru cele 12 firme este prezentat n tabelul urmtor:
Firma I1 I2 I3 I4 I5 I6 I7 1 0,414 0,032 0,000 5,59 0,677 7,03 0,62 2 0,231 0,324 0,034 2,45 0,165 7,45 0,40 3 0,432 0,684 0,054 1,05 0,204 7,32 0,40 4 0,156 0,326 0,020 2,59 0,129 7,16 0,47 5 0,227 0,124 -0,080 7,49 0,149 7,54 0,43 6 0,295 0,176 0,026 4,33 0,199 7,72 0,45 7 0,261 0,470 0,023 1,77 0,147 7,62 0,46 8 0,446 0,343 0,020 2,17 0,240 8,08 0,38 9 0,352 0,831 0,036 0,82 0,243 7,18 0,37 10 0,267 0,141 0,003 5,20 0,258 8,27 0,31 11 0,703 0,185 0,002 3,27 0,268 8,15 0,42 12 0,206 0,969 0,029 0,72 0,26 8,38 0,36
Scopul analizei matricei de date n acest exemplu este acela de a afla civa indicatori relevani (de regul doi sau trei), pe baza crora s putem
obine o clasificare ct mai elocvent a firmelor. Problema formulat n acest mod ne conduce spre ideea utilizrii tehnicii analizei componentelor principale, dublat i de o analiz a clasificrii (vezi Capitolul 3, 3.1).
S ncepem analiza. Mai nti constatm c toate caracteristicile urmrite (anume indicatorii financiar-contabili) sunt variabile continue, scara lor de msur fiind uor de identificat. Prin urmare, ntr-o prim analiz putem calcula pentru fiecare dintre aceste variabile indicatorii de centrare i de mprtiere, cum ar fi media, valoarea minim i valoarea maxim, precum i abaterea standard (vezi tabelul urmtor).
Descriptive Statistics Valid N Mean Minimum Maximum Std.Dev.
I1 12 0.332 0.156 0.703 0.149 I2 12 0.383 0.032 0.969 0.298 I3 12 0.014 -0.08 0.054 0.033 I4 12 3.120 0.72 7.49 2.127 I5 12 0.244 0.13 0.67 0.144 I6 12 7.658 7.03 8.38 0.463 I7 12 0.422 0.31 0.62 0.077
Remarcm faptul c elementele matricei de date iniiale ar necesita o standardizare, deoarece abaterile standard ale celor apte indicatori sunt destul de diferite.
Pentru a vedea dac indicatorii calculai sunt independeni sau nu, vom analiza matricea coeficienilor de corelaie din tabelul urmtor:
I1 I2 I3 I4 I5 I6 I7 I1 1 -0.165 0.073 -0.052 0.351 0.165 0.092 I2 -0.165 1 0.559 -0.837 -0.265 0.078 -0.443 I3 0.073 0.559 1 -0.842 -0.050 -0.059 -0.174 I4 -0.052 -0.837 -0.842 1 0.274 -0.048 0.341 I5 0.351 -0.265 -0.050 0.274 1 -0.192 0.608 I6 0.165 0.078 -0.059 -0.048 -0.192 1 -0.619 I7 0.092 -0.443 -0.174 0.341 0.608 -0.619 1
Identificm n matrice coeficieni de corelaie mari i anume: ntre indicatorii I2 i I4 (n sens negativ), ntre indicatorii I3 i I4 (n sens negativ); de asemenea, apare un coeficient de corelaie destul de mare ntre
indicatorii I5 i I7 (n sens pozitiv) i ntre indicatorii I6 i I7 (n sens negativ). Pe baza acestor constatri am putea trage concluzia renunrii la unii indicatori, dar la care? Pentru a elimina subiectivismul deciziei, vom folosi tehnicile de analiz a componentelor principale implementate ntr-un mediu de analiz statistic. Ne propunem s identificm trei indicatori sintetici cu care ne-am mulumi n atingerea scopului propus. n acest context obinem urmtoarele o serie de categorii de informaii ce sunt utile pentru eliminarea subiectivismului n ierarhizarea firmelor.
A) Informaiile privind calitatea ajustrii sunt exprimate cu ajutorul valorilor proprii ale matricei corelaiilor i a proprietilor acestora.
Reamintim faptul c raportul =
=
7,...,1
11
ii
exprim cantitatea de informaie
recuperat (sau variana explicat) de prima ax factorial, apoi
=
+=7,...,1
212
ii
exprim cantitatea de informaie recuperat (variana
explicat) de primele dou axe factoriale .a.m.d.
Vom putea analiza astfel calitatea ajustrii norului de puncte (n cazul nostru firmele) urmrind informaiile din tabelul urmtor:
Eigenvalues % total Cumul. Cumul.
Eigenval Variance Eigenval % 1 2.914 41.636 2.914 41.636 2 1.689 24.134 4.603 65.771 3 1.275 18.228 5.879 83.999
n coloana Eigenval identificm cele trei valori proprii, n ordine descresctoare, i anume: = 2.914, 1 2 = 1.689, 3 = 1.275. Cum rangul matricei corelaiilor este 7, putem s explicm uor coninutul coloanei % total Variance i anume: ajustnd norul de puncte printr-o singur ax factorial (adic acceptnd doar un singur indicator sintetic), se explic 41.636% din totalul varianei datelor; apoi, ajustnd norul de puncte prin dou axe factoriale (adic acceptnd doi indicatori sintetici) recuperm nc 24.134% din variana total, adic un total de 65.771% din aceast varian (vezi i coloana Cumul. %). n sfrit, dac solicitm trei axe factoriale (adic ceea ce ne-am propus, trei indicatori sintetici) explicm 84% din variana total (ceea ce este un rezultat foarte bun!)
B) Informaiile despre axele principale sunt prezentate n tabelul urmtor:
Factor Score Coefficients Factor 1 Factor 2 Factor 3
I1 -0.051 -0.152 0.676 I2 -0.316 -0.0049 -0.0981 I3 -0.384 0.113 0.124 I4 0.388 -0.024 -0.051 I5 -0.021 0.218 0.422 I6 0.105 -0.535 0.257 I7 0.013 0.445 0.069
Coloana unui factor ne ofer informaii despre ponderile (coeficienii) cu care particip fiecare indicator financiar-contabil (I1, , I7) la descrierea factorului respectiv. Acest factor poate fi exprimat, prin urmare, ca o combinaie liniar de indicatorii financiar-contabili (cu coeficienii respectivi).
C) Informaii despre scorurile firmelor, care sunt proieciile acestor firme (considerate ca puncte n spaiul indivizilor) pe cele trei axe principale sunt prezentate n tabelul urmtor:
Factor Scores Rotation: Varimax raw
Factor 1 Factor 2 Factor 3 1 0.782 2.366 1.463 2 -0.294 0.170 -0.717 3 -1.265 0.253 0.222 4 -0.132 0.882 -1.316 5 2.177 -0.223 -1.184 6 0.340 0.087 -0.160 7 -0.405 0.230 -0.559 8 -0.150 -0.823 0.753 9 -1.271 0.320 -0.239
10 0.902 -1.326 -0.030 11 0.355 -0.963 2.030 12 -1.037 -0.974 -0.262
Cele trei coloane (Factor 1, 2 i 3) conin componentele principale sau noii indicatori sintetici calculai pentru cele 12 firme. Devine posibil acum reprezentarea grafic n spaiul tri- sau bidimensional pentru a observa
gruparea firmelor. n figura 1 prezentm cele 12 firme reprezentate n planul primelor dou axe principale. Observm un grup destul de compact de firme ce par a avea un comportament asemntor n raport cu noii indicatori, dar i dou firme, anume F5 i F1, care se detaeaz de grup.
-2
-1
0
1
2
3
-2 -1 0 1 2 3
F1
F2F3
F4
F5
F6F7
F8
F9
F10F11
F12
1 3
4 2
Figura 1. Scorurile firmelor n planul axelor principale 1 i 2
D) Informaii privind interpretarea componentelor principale se obin analiznd coeficienii de corelaiile calculai ntre cele trei componente principale i indicatorii financiari-contabili.
Reamintim faptul c dac C este o component principal (deci un vector din nR ) obinut plecnd de la o valoare proprie i un vector propriu , atunci coeficientul de corelaie dintre componenta principal C i variabila j iniial avnd valorile observate
este:
),...,,...,( 1 pj uuuu =
),...,,...,( 21 njjjj xxxx =
jxC ur j =, ( ). },...,2,1{ pj Dac, de exemplu, avem dou componente principale C1 i C2,
obinem pentru fiecare variabil j perechea de coeficieni de corelaie . Aceste perechi, reprezentate n planul axelor principale sunt
puncte n interiorul aa-numitului cerc al corelaiilor (n rare cazuri chiar i pe cercul unitate!). n acest context, interpretarea componentelor principale este relativ simpl. Anume, o component principal poate fi explicat
),( ,, 21 jj xCxC rr
prin acea variabil iniial pentru care coeficientul de corelaie este maxim dar, n acelai timp, variabila iniial are cu celelalte componente principale coeficieni de corelaie mici.
Revenind la exemplul nostru, se obin aa-numiii Factor Loadings se apar ntr-un tabel de forma urmtorului.
Factor Loadings (Unrotated) (Marked loadings are > .700000)
Factor 1 Factor 2 Factor 3 I1 -0.13 -0.25 -0.87 I2 0.86 -0.22 0.10 I3 0.71 -0.57 -0.09 I4 -0.89 0.41 0.05 I5 -0.54 -0.56 -0.37 I6 0.31 0.64 -0.59 I7 -0.70 -0.61 0.16
Expl.Var 2.91 1.69 1.28 Prp.Totl 0.42 0.24 0.18
Aadar, componenta principal 1 fiind puternic corelat (pozitiv) cu indicatorul financiar-contabil I2 (care, la rndul su este slab corelat cu celelalte dou componente), se interpreteaz ca fiind un indicator sintez al rentabilitii (I2 este Cifra de afaceri/total activ, adic un indicator al rentabilitii).
A doua component principal este greu de interpretat. Ea are un coeficient de corelaie relativ mare (negativ) cu indicatorul I7, dar acesta nu are coeficieni de corelaie mici cu celelalte dou componente rmase. Aceeai situaie este ntlnit i pentru a treia component principal.
De aceea, pentru o analiz mai relevant i o interpretare mai apropiat de realitate, se recomand folosirea unei opiuni de rotire a axelor ce are ca scop obinerea unor coeficieni de corelaie ct mai mici pe una sau dou componente principale. Una dintre cele mai utilizate rotiri este cunoscut ca tehnica Varmax. n acest fel, interpretarea componentelor principale devine mai semnificativ.
n exemplul nostru, apelnd la opiunea de rotire a axelor (Varmax), obinem informaiile din tabelul Factor Loadings urmtor.
Factor Loadings (Rotated) (Marked loadings are > .700000) Factor 1 Factor 2 Factor 3
I1 -0.04 -0.11 0.90 I2 -0.84 -0.19 -0.22 I3 -0.90 0.06 0.11 I4 0.97 0.13 0.02 I5 0.16 0.53 0.66 I6 0.07 -0.89 0.23 I7 0.27 0.87 0.23
Expl.Var 2.57 1.89 1.42 Prp.Totl 0.37 0.27 0.20
Se observ c de data aceasta am obinut coeficieni de corelaie mari pe cte o component dar mici pentru celelalte. Acum componenta principal 1 este interpretat n termenii indicatorului I3 sau eventual I4. (De fapt, matricea corelaiilor ne arat c acetia sunt puternic corelai ntre ei, deci putem renuna la unul.) Oricare dintre ei este nc un indicator sintez al rentabilitii.
Componenta principal 2 este interpretat n termenii indicatorului I6 (corelaie negativ), adic este un indicator sintetic al mrimii firmei (reamintim c I6 este logaritmul activului firmei). Se observ faptul c componenta principal 2 se poate interpreta i n termenii indicatorului I7 (rata de cretere a activului), cu o corelaie pozitiv! Preferm explicarea prin indicatorul I7, ce exprim dinamica activului firmei.
Componenta principal 3 este interpretat n termenii indicatorului financiar-contabil I1 (adic Total datorii/capital social) care este un indicator al structurii financiare.
Dup ce am dat o interpretare acestor trei componente principale, putem s obinem o clasificare a firmelor, utiliznd proieciile n planul axelor principale. Ne folosim de scorurile acestor firme i de graficul din figura 1. Conform semnificaiei componentei principale 1 se observ faptul c scorul este cu att mai bun cu ct este mai mic (cci corelaia cu indicatorul I3 este invers). Pe de alt parte, n funcie de componenta principal 2 (care este corelat pozitiv cu rata de cretere a activului), un scor pozitiv pe aceast component este bun. Prin urmare, clasificm cele 12
firme n planul indicatorilor sintetici de rentabilitate i dinamic a activului astfel:
Clasa 1. Conine firmele F2, F3, F4, F7 i F9 ce au scoruri bune pe ambele componente;
Clasa 2. Conine firmele F8 i F12 ce au scoruri bune la indicatorul de rentabilitate dar au o dinamic proast a activului;
Clasa 3. Conine firmele F1 i F6 ce au un scor mai slab la indicatorul de rentabilitate dar au o dinamic a activului bun;
Clasa 4. Conine firmele F5, F10 i F11 care au scoruri slabe la ambii indicatori sintez, att la rentabilitate ct i la dinamica activului.
Evident, analiza poate fi completat lund n calcul i componenta principal 3, care este o component a structurii financiare, ns interpretarea grafic se ngreuneaz.
S aplicm acum, pentru aceeai matrice de date (a indicatorilor financiar-contabili) tehnici de clasificare bazate pe algoritmi ierarhici (vezi Capitolul 3, 3.3). Folosind aceste tehnici putem s exemplificm att gruparea firmelor ct i gruparea indicatorilor.
A) Gruparea firmelor n clase ct mai omogene, lund n considerare toi cei 7 indicatori. Vom folosi un algoritm ierarhic de agregare. Mai nti trebuie calculat matricea de proximitate (de dimensiune 1212, simetric). Ea este prezentat n tabelul urmtor:
0.00 3.24 4.63 3.08 2.06 1.54 3.93 3.63 4.87 1.41 2.64 5.17 3.24 0.00 1.47 0.34 5.05 1.91 0.72 0.73 1.73 2.88 1.19 2.07 4.63 1.47 0.00 1.62 6.47 3.35 0.83 1.40 0.32 4.30 2.44 1.17 3.08 0.34 1.62 0.00 4.92 1.84 0.96 1.06 1.86 2.85 1.34 2.33 2.06 5.05 6.47 4.92 0.00 3.17 5.73 5.36 6.72 2.41 4.29 6.88 1.54 1.91 3.35 1.84 3.17 0.00 2.58 2.20 3.61 1.04 1.22 3.76 3.93 0.72 0.83 0.96 5.73 2.58 0.00 0.66 1.12 3.51 1.68 1.40 3.63 0.73 1.40 1.06 5.36 2.20 0.66 0.00 1.70 3.05 1.14 1.63 4.87 1.73 0.32 1.86 6.72 3.61 1.12 1.70 0.00 4.57 2.74 1.22 1.41 2.88 4.30 2.85 2.41 1.04 3.51 3.05 4.57 0.00 1.99 4.56 2.64 1.19 2.44 1.34 4.29 1.22 1.68 1.14 2.74 1.99 0.00 2.72 5.17 2.07 1.17 2.33 6.88 3.76 1.40 1.63 1.22 4.56 2.72 0.00
Fiecare element al matricei de proximitate reprezint distana euclidian ntre firmele corespunztoare, distan calculat n funcie de toi
cei 7 indicatori observai. (Folosim distana euclidian ca msur a disimilaritii.)
Dendrograma- distante euclidiene -
Sing
le li
nkag
e
0
0.5
1
1.5
2
2.5
0
0.5
1
1.5
2
2.5
5 10 6 12 11 9 3 3 7 4 2 1 Figura 2. Dendrograma (metoda vecinilor celor mai apropiai)
n continuare, pentru constituirea claselor, vom folosi o metod de agregare considernd cele trei tehnici descrise n 3.3. Prezentm sintetizat n tabelul de mai jos etapele de grupare a firmelor pentru cele trei metode de agregare Single linkage (vecinii cei mai apropiai), Complete linkage (vecinii cei mai ndeprtai) i Average linkage (nlnuirea prin medii).
Single linkage. Clase
Complete linkage. Clase
Average linkage. Clase
Nivelul de agregare
< 0.5 C1=(9,3); C2=(4,2)
C1=(9,3); C2=(4,2) C1=(9,3); C2=(4,2)
0.5 1 C3=(8,7); C4=(C2,C3); C5=(C1,C4); C6=(10,6);
C3=(8,7); C4=(C2,C3); C5=(10,6)
C3=(8,7); C4=(C2,C3); C5=(10,6)
1 1.5 C7=(C5,11); C8=(12,C7); C9=(C6,C8); C10=(1,C9);.
C6=(12,C1); C7=(1,C5);
C6=(12,C1); C7=(11,C4): C8=(1,C5);.
1.5 2 C8=(11,C4); 2 4 C11=(5,C10); C9=(C7,C8);
C10=(5,C6); C9=(C6,C7); C10=(C8,5);
> 4 C11=(C9,C10); C11=(C10,C9);
Pentru completarea analizei gruprii firmelor, n figurile 2, 3 i 4 sunt prezentate dendrogramele pentru cele trei tehnici de agregare. Cteva concluzii sunt evidente: n dendrograma din figura 2 nu distingem grupe, firmele par a fi destul de omogene (cu excepia uneia); n schimb n dendrogramele din figurile 3 i 4 apar clase distincte. Mai precis, n figura 3 dendrograma prezint dou grupe dezechilibrate ca numr de firme, n timp ce n dendrograma din figura 4 se disting trei grupe destul de echilibrate.
Pentru exemplificarea agregrii firmelor prezentm n tabelul urmtor etapele de constituire a claselor. Se observ modul de formare a unui grup precum i nivelul de agregare corespunztor (pentru algoritmul Single linkage.)
Nivelul agregrii 1 2 3 4 5 6 7 8 9 0.321 C_3 C_9 0.340 C_2 C_4 0.661 C_7 C_8 0.719 C_2 C_4 C_7 C_8 0.831 C_2 C_4 C_7 C_8 C_3 C_9 1.041 C_6 C_10 1.143 C_2 C_4 C_7 C_8 C_3 C_9 C_11 1.170 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12 1.217 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12 C_6 1.412 C_1 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12 2.057 C_1 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12
Dendograma -distante euclidiene-
Com
plet
e lin
kage
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
12 9 3 11 8 7 4 2 5 10 6 1 Figura 3. Dendrograma (metoda vecinilor celor mai ndeprtai)
Evident, un utilizator poate folosi orice algoritm de agregare: cel al vecinilor celor mai apropiai, cel al vecinilor celor mai ndeprtai sau un algoritm de agregare prin medii. Pentru a decide care este indicat a se folosi analizm tabelul de mai sus i dendrogramele din figurile 2 4. Se observ faptul c algoritmul Complete linkage se aseamn mai mult cu algoritmul Average linkage; fixnd, de exemplu, nivelul de agregare n intervalul (2; 3.5), avem deja constituite dou clase: prima format din firmele {12, 9, 3, 11, 8, 7, 4, 2} iar a doua format din firmele {5, 10, 6, 1}; difer doar nivelul agregrii finale al acestora. Dup cum am mai spus, algoritmul vecinilor celor mai apropiai nu este indicat n acest caz.
Dendograma -distantele euclidiene-
Ave
rage
link
age
0
1
2
3
4
5
0
1
2
3
4
5
12 9 3 11 8 7 4 2 5 10 6 1 Figura 4. Dendrograma (nlnuirea pe baza mediilor)
Este interesant de vzut dac clasele obinute prin aceste tehnici bazate pe distana euclidian, pornind de la matricea iniial de date, ne conduc sau nu la aceleai clasificri ca i cele obinute n planul compo-nentelor principale.
S ne reamintim clasele de firme formate n planul primelor dou axe factoriale: clasa 1 coninea firmele F2, F3, F4, F7 i F9, clasa 2 coninea firmele F8 i F12, clasa 3 coninea firmele F1 i F6 i clasa 4 coninea firmele F5, F10 i F11. Exist i firme ale cror poziionare n clase se pstreaz, dar n general clasificarea realizat conform analizei compo-nentelor principale este mult mai elocvent i explicativ!
B) Gruparea celor 7 indicatori financiar-contabili n clase ct mai omogene se realizeaz prin tehnici de clasificare ierarhic, pornind tot de la matricea de date iniial. Mai nti calculm matricea distanelor euclidiene ntre coloanele matricei i obinem urmtoarea matrice simetric a disimilaritilor (matrice de ordinul 7 7):
0.0 1.2 1.2 12.0 0.6 25.4 0.6 1.2 0.0 1.6 12.3 1.3 25.3 1.1 1.2 1.6 0.0 12.9 0.9 26.5 1.4
12.0 12.3 12.9 0.0 12.1 17.3 11.7 0.6 1.3 0.9 12.1 0.0 25.7 0.7
25.4 25.3 26.5 17.3 25.7 0.0 25.1 0.6 1.1 1.4 11.7 0.7 25.1 0.0
Pentru agregarea n clase putem folosi de asemenea algoritmul vecinilor celor mai apropiai (Single linkage), algoritmul vecinilor celor mai ndeprtai (Complete linkage) i algoritmul nlnuirii prin medii (Average linkage). Dendrogramele rezultate sunt prezentate n figurile 5 7.
Dendrograma- distantele euclidiene-
Sing
le li
nkag
e
0123456789101112131415161718
0123456789
101112131415161718
I6 I4 I2 I3 I5 I7 I1
Figura 5. Dendrograma (metoda vecinilor celor mai apropiai)
Dendrograma- distante euclidiene -
Com
plet
e lin
kage
012345678910111213141516171819202122232425262728
0123456789
10111213141516171819202122232425262728
I6 I4 I3 I2 I5 I7 I1
Figura 6. Dendrograma (metoda vecinilor celor mai ndeprtai)
Dendrograma- distante euclidiene -
Ave
rage
link
age
012345678910111213141516171819202122232425
0123456789
10111213141516171819202122232425
I6 I4 I2 I3 I5 I7 I1
Figura 7. Dendrograma (nlnuirea pe baza mediilor)
Pentru a trage cteva concluzii privind omogeneitatea celor 7 indicatori financiar-contabili putem urmri etapele de constituire a claselor. Acestea vor fi exemplificate folosind algoritmul agregrii vecinilor celor mai apropiai (Single Linkage). Matricea de mai jos conine etapele de agregare (n numr de 6), nivelele de agregare i constituirea claselor.
Nivelul Etape agregrii 1 2 3 4 5 6 7 0.621 I1 I7 0.633 I1 I7 I5 0.942 I1 I7 I5 I3 1.136 I1 I7 I5 I3 I2 11.662 I1 I7 I5 I3 I2 I4 17.328 I1 I7 I5 I3 I2 I4 I6
Cei mai apropiai, la un nivel de agregare minim, sunt indicatorul I1 i indicatorul I7, adic Total datorii/capital social i Rata de cretere a activului. Acetia se agreg la nivelul 0.621. n etapa urmtoare, la un nivel de agregare destul de apropiat de primul, adic 0.633, li se asociaz indicatorul I5, mai precis indicatorul Datorii/total activ. La o distan (nivel de agregare) ceva mai mare de clasa deja format se asociaz indicatorul I3, adic Profit brut/total activ (nivelul de agregare 0.942). Nici indicatorul I2 (adic Cifr de afaceri/total activ) nu este departe de primii grupai! El se va agrega la nivelul 1.136. Un salt calitativ, evideniat clar cantitativ, se obine prin ataarea n etapa 5 a indicatorului I4, adic Capital social/cifr de afaceri, de grupa deja format. Acesta este agregat
Linkage Distance
Plot of Linkage Distances across StepsEuclidean distances
Step
Link
age
Dis
tanc
e
-5
0
5
10
15
20
0 1 2 3 4 5 6 7
Figura 8. Nivele de agregare a indicatorilor
la un nivel de 11.662, i putem s afirmm c este, sub acest aspect, diferit de primii. n final se asociaz, la un nivel de asemenea destul de ridicat, ultimul indicator negrupat nc, i anume I6 (log(Activ)). n figura 8 se pot urmri, grafic, nivelele de agregare, regsind pe etape explicaiile date anterior.
Folosind algoritmul de clasificare putem spune c indicatorii financiar-contabili urmrii prin nivelele lor pentru cele 12 firme se pot grupa n trei clase:
A) clasa format din indicatorii I1, I7, I5, I3 i I2 (a se vedea interpretarea lor!),
B) clasa format din indicatorul I4 (Capital social/cifr de afaceri),
C) clasa format din indicatorul I6 (log(Activ)). Este interesant de comparat clasele de indicatori obinute pe baza
metricii euclidiene cu gruparea indicatorilor dup coeficienii lor de corelaie liniar calculai n etapa de analiz a componentelor principale!
Indicator I1 I2 I3 I4 I5 I6 I7 I1 C1
I2 C1 Corelaie puternic
I3 C1 Corelaie puternic
I4 C2
I5 C1 Corelaie puternic
I6 C3 Corelaie puternic I7 C1
Pentru comparaie putem urmri tabelul anterior ce ne informeaz att despre corelaiile puternice ntre indicatorii financiar-contabili, corelaii exprimate prin coeficienii de corelaie mari, ct i despre clasa la care aparine un indicator (informaiile de pe diagonala principal), clas obinut prin tehnica agregrii.
n acest paragraf am prezentat o propunere de analiz pentru informaii coninute ntr-o matrice de forma indivizi caracteristici (caracteristicile fiind variabile continue). Evident, analiza se poate aplica pe orice matrice atunci cnd avem ca scop reducerea numrului de coloane sau linii i explicarea formrii claselor de indivizi sau variabile.
5.2 Modele de credit scoring analiza discriminant utilizat pentru diagnoza financiar
1. Formularea problemei. S presupunem c avem o populaie format din firme omogene ca activitate, fie aceasta P. Populaia este mprit n dou subpopulaii disjuncte, P i P1 2, dup valorile unei variabile nominale Booleene y. Modalitile variabilei y, pentru o firm oarecare i din populaia P, pot fi codificate prin 1 i 0, mai precis:
=
altfelB)(sau 0 faliment de staren firmapentru F)(sau 1 i
yi
S presupunem c pentru firmele din populaia studiat se pot msura un numr p de indicatori financiar-contabili ct mai independeni posibil. Fiecare dintre acetia influeneaz probabilitatea de faliment a firmei fie monoton cresctor, fie monoton descresctor, dar evident ei acioneaz simultan.
Vom nota cu vectorul valorilor celor p indicatori,
n particular cu respectiv vectorii corespunztori celor dou subpopulaii P
),...,,( 21 pxxxx =),...,,( 112
111 pxxxx = ),...,,( 22222 1 pxxxx =
i P1 2. Facem urmtoarele ipoteze:
a) Vectorul este normal repartizat cu media i matricea de varian-covarian
),...,,( 112111 pxxxx = 1
1 ; b) Vectorul este normal repartizat cu media
i matricea de varian-covarian
),...,,( 112111 pxxxx = 2
2 ; Prin urmare, populaia P este caracterizat de ansamblul
. ),,,( 2121 2. Scopul analizei este acela de a gsi un indicator sintez, fie
acesta z , i un nivel al acestui indicator, astfel nct pentru o firm i oarecare pebtru care este valoarea indicatorului sintez s putem decide
zz
c
i
dac atunci firma aparine populaiei Pci zz 1 dac atunci firma aparine populaiei Pci zz > 2. Valoarea se numete nivel (scor) de tiere sau cutting score. cz
De regul, indicatorul sintez se consider a fi o combinaie liniar de valorile celor p indicatori financiar-contabili, adic
. (1) pp xxxz +++= ...2211Pentru o firm i, pentru care valorile celor p indicatori sunt
, valoarea ),...,,( 21 ipii xxx ippiii xxxz +++= ...2211 se numete scorul firmei n raport cu indicatorul sintez z iar decizia de ncadrare ntr-o categorie sau alta se face utiliznd scorul de tiere . cz
n literatura de specialitate se obinuiete a se numi expresia (1) model de scoring deoarece pe baza sa se obin scoruri ale firmelor i apoi o clasificare a acestora.
3. Scurt istoric al problemei obinerii modelelor de scoring Primele studii realizate i publicate au fost cele ale lui E.I. Altman.
ntr-un prim studiu, datnd din 1966, Altman prezint modele de scoring rezultate n urma studierii unui eantion de 66 firme asupra crora s-au urmrit 22 de indicatori financiar-contabili n evoluia lor pe dou decade (1946-1965). n intervalul de timp analizat unele dintre firme au dat faliment, altele ns au evoluat pozitiv din punct de vedere financiar. Indicatorul sintez la care ajunge Altman este o combinaie liniar de 5
indicatori de baz, dintre care enumerm trei: activtotalrulment de fond
activ totalbrutprofit , ,
activ totalafaceri de cifra .
Altman repet ulterior studiul, lund n analiz 106 firme i 27 de indicatori urmrii pe perioada 1962-1975. Obine un nou indicator sintez, combinaie liniar de 7 indicatori iniiali, dup care clasific firmele.
Alte studii au fost realizate n Frana n anul 1973 de ctre Vernimmen, Schlosser, Margaine i Altman. n Belgia au fost publicate rezultatele obinute de ctre Ooghe i Van Wymeersch (1983). Toate modele de scoring realizate n perioada anilor `80 dar i ulterior sunt implementate n sistemele informatice ale marilor bnci, fiind folosite n departamentele de management a riscului pentru ordonarea i clasificarea solicitanilor de credite. Evident, modele de scoring au fost realizate att pentru persoane juridice ct i pentru persoane fizice.
Numeroasele rezultate obinute nu pot fi generalizate de la un grup de firme la altul. n general, direciile de cercetare n acest domeniu se ndreapt spre construirea de modele de scoring ct mai specifice
domeniului de activitate al firmelor. De asemenea, funciile z de scoring se pot obine i pentru urmtoarele situaii:
funcie de scor n cazul un an nainte de faliment; funcie de scor n cazul doi ani nainte de faliment; funcie de scor n cazul trei ani nainte de faliment.
4. Construcia unui model de scoring Tehnica cea mai indicat pentru rezolvarea problemei de credit
scoring este cea oferit de analiza discriminrii factoriale (vezi Capitolul 4, 4.2.2) pentru cazul particular n care variabila rspuns este nominal cu dou modaliti. Indicatorul-sintez este exprimat prin funcia de discriminare
(2) pp xuxuxuz +++= ...2211n care este versorul axei de discriminare. ),...,,( 21 puuuu =
Pentru aflarea axei de discriminare, a componentei principale asociate, precum i a bonitii discriminrii se aplic etapele prezentate n 4.2.2.
Analiza prin tehnicile de discriminare factorial n cazul particular a dou clase are ca scop aflarea unei noi axe (de discriminare), care s aib proprietatea c proieciile punctelor (aici coordonatele firmelor) din spaiul variabilelor (indicatorilor) pe ea s formeze tot dou clase, iar separarea dintre ele s fie maxim (adic zona de incertitudine s fie minim).
Reamintim c se folosiete descompunerea matricei varianei-covarianei totale V n cele dou componente naturale ale sale, i anume variana-covariana W din interiorul claselor i variana-covariana B dintre clase. Etapele parcurse pentru aflarea axei de discriminare, a componentelor factoriale i a bonitii separrii n clase sunt urmtoarele.
1). Aflarea unui versor ),...,,( 21 puuuu = , ce d prima (i unica) ax de discriminare. n ideea minimizrii varianei-covarianei W proiectat pe aceast ax, adic a mrimii , avem de rezolvat urmtoarea problem de optimizare cu restricie egalitate
WuuT
1
max
=uVuuBuu
T
T
u
ceea ce revine la aflarea vectorilor proprii (corespunztori valorilor proprii) ai matricei . Astfel, primul vector propriu asociat valorii proprii (cea mai mare din spectrul matricei ) este prima ax de discriminare.
BV 1 *u *BV 1
**
**
)()(
VuuBuu
T
TCum raportul este tocmai (prima valoare proprie),
aceasta va exprima, procentual, gradul de discriminare al primei axe.
*
Pentru cazul unei variabile de discriminare cu doar dou modaliti, problema se simplific. n acest caz avem o singura ax de discriminare , ea este calculat simplu unde este vectorul centrelor de greutate pentru cele dou clase iniiale ale populaiei.
*u)( 121* mmVu = ),( 21 mm
2) Aflarea componentelor de discriminare (adic a vectorului scorurilor pe axa de discriminare) se realizeaz dup aflarea axei de discriminare. Astfel, dac este versorul axei de
discriminare, atunci componenta de discriminare (unic) este .
),...,,( 21 puuuu = *****1 XuC =
3) n cazul unei variabile de discriminare cu doar dou modaliti, pentru analiza ratei succesului tehnicii de discriminare se folosete tabelul urmtor
Grupul dup reclasificare Grupul iniial
Numr de indivizi n grupul iniial 1 2
1 1n 11n 12n 2 2n 21n 22n
Observaie: Cu ct elementele de pe diagonala principal sunt mai mari, cu att rata succesului discriminrii este mai mare. Se folosete
raportul 21
2211nn
pS +=nn +
ce exprim proporia elementelor diagonale, iar
orice valoare a sa peste 50% este considerat ca validnd succesul tehnicii. (Comparativ cu situaia n care am dispune de o procedur aleatoare, de repartizare uniform n cele dou clase, pentru care raportul are evident valoarea 50%.)
Sp
5. Aplicaie exemplu
S presupunem c dorim s gsim un model de scoring atunci cnd dispunem de un eantion de 12 firme asupra crora s-au nregistrat 2
indicatori, i anume proprii capitaluri1
=I totaledatoriiscurt termen pe datorii2
=I circulante active i .
Datele privind nivelul acestor indicatori financiar-contabili precum i starea fiecrei firme sunt prezentate n tabelul urmtor (am notat cu F o firm n stare de faliment i cu B o firm n stare bun)
proprii capitaluri totaledatorii
1 =I scurt termen pe datoriicirculante active
2 =IFirma Starea firmei
1 0.6 0.2 F 2 1 0.4 F 3 0.9 0.7 F 4 0.65 0.65 F 5 1.1 1.1 F 6 0.6 1.1 F 7 0.9 1.5 F 8 0.3 0.55 B 9 0.4 0.7 B
10 0.68 0.95 B 11 0.4 1.05 B 12 0.25 1.25 B 13 0.57 1.47 B 14 0.45 1.68 B
S presupunem c cei doi indicatori financiar-contabili urmeaz, att pentru populaia de firme n stare bun, ct i pentru populaia de firme n stare proast, repartiii normale (vezi graficele din figura 9 i figura 10).
S analizm mai nti indicatorul I1 (vezi figura 9). Pentru firmele n stare bun indicatorii de centrare (media, mediana, ) au valori mici, n timp ce pentru firmele n stare proast aceiai indicatori de centrare au valori mari. Evident, va exista un nivel al acestui indicator I1, fie acesta , care are proprietatea c ori de cte ori indicatorul ia valori mai mici dect este foarte probabil ca firma s fie din clasa n stare bun i ori de cte ori indicatorul ia o valoare mai mare dect este foarte probabil ca firma s fie n clasa n stare proast. Exist i o zon de incertitudine, vecintate a nivelului , ce are proprietatea c dac indicatorul I1 ia valori n acea zon nu putem decide asupra strii firmei (ea poate fi sau proast, sau bun).
Aceeai analiz se poate face i pentru indicatorul I2 (vezi figura 10), cu o singur deosebire: de data aceasta, pentru firmele n stare bun valorile indicatorilor de centrare sunt mari n timp ce pentru firmele n stare proast indicatorii de centrare au valori mici. Nivelul de separare apare i n acest caz (l-am notat cu ) aa cum apare i zona de incertitudine ntr-o vecintate a nivelului , pentru care nu putem decide starea firmei.
stare bun stare proast
Figura 9. Repartiiile valorilor indicatorului I1
stare bun
stare proast
Figura 10. Repartiiile valorilor indicatorului I2
Figura 11. Firmele n planul indicatorilor
Am descris o posibil analiz uni-dimensional lund pe rnd cte un indicator financiar-contabil i comportamentul firmelor n raport cu valoarea acestuia. Aceast analiz nu este ns suficient de relevant. Tehnicile de analiz a discriminrii ne permit s analizm indicatorii n ansamblul lor, surprinznd i aciunea lor comun. O prim analiz a celor doi indicatori n ansamblul lor se poate face urmrind figura 11, n care firmele sunt prezentate n planul indicatorilor financiar-contabili I1 i I2. n aceast figur firmele n stare bun (marcate cu codul B) sunt delimitate destul clar de cele n stare proast (marcate cu codul F), aprnd dou clase cu intersecia nevid (intersecie pe care o putem asimila cu o zon de incertitudine a clasificrii unei firme). Pentru o analiz complet urmrim rezultatele urmtoare:
1) Mediile pe ntregul eantion sunt grupate n vectorul 0.950) ,6285.0(=m iar mediile pentru cele dou clase sunt
coninute n vectorii respectiv
.
1.092) ,4357.0(=Bm0.8071) ,8214.0(=Fm
2) Abaterile standard sunt 0.437) ,263.0(=s pentru ntregul ean-tion i pentru clasa de firme n stare bun
respectiv pentru cele n stare proast.
0.404) ,149.0(=Bs0.451) ,203.0(=Fs
3) Matricea de varian-covarian pentru interiorul claselor este
iar matricea de varian-covarian
pentru ansamblul firmelor este .
=
1575.00168.00168.00273.0
W
=1779.00107.00107.00645.0
V
4) Matricele de corelaie pentru interiorul claselor i total sunt
respectiv .
1256.0256.01
1100.0100.01
5) Analiza indicatorului financiar-contabil cel mai discriminat se face folosind tabelul urmtor, ce conine valori ale statisticii F i Lambda a lui Wilks
Wilks' Partial F-remove Indicatorul Lambda Lambda (1,11) p-level
I 0.885 0.399 16.519 0.0018 1I 0.423 0.835 2.1671 0.1690 2
Aadar, indicatorul cel mai discriminat este I1, lui corespunzn-du-i o valoare mai mare pentru statistica F (care este raportul dintre mprtierea dintre clase i mprtierea din interiorul claselor).
6) Funcia de discriminare standardizat este
21 522.0997.0 IIz += . Cum centrele de greutate ale celor dou clase de firme sunt proiectate pe axa de discriminare n punctele 1.25 respectiv 1.25 (prima valoare reprezint centroidul firmelor n stare bun iar cea de-a doua valoare reprezint centroidul firmelor n stare proast) putem considera scorul de tiere . 0=cz
7) Scorurile firmelor obinute pe baza funciei de discriminare (de la punctul 6) sunt (prezentate n ordine cresctoare) urmtoarele:
Scor pentru funcia z gsit
Firma Clasa iniial/ clasa repartizat
2 Faliment/Faliment -2.7442 5 Faliment/Faliment -2.4499
3 Faliment/Faliment -1.8203 7 Faliment/Faliment -0.8458 1 Faliment/Faliment -0.7540 4 Faliment/Faliment -0.4851 10 Bun/faliment -0.2872 6 Faliment/bun 0.3422 13 Bun/bun 0.9605 9 Bun/bun 0.9719 8 Bun/bun 1.3476 11 Bun/bun 1.3982 14 Bun/bun 1.8864 12 Bun/bun 2.4795
8) Matricea succesului discriminrii este
Rata succesului Corect p=.50000 p=.50000 Clasa1 1/clasa 1 85.714 6 1 Clasa 2/clasa 2 85.714 1 6
Total 85.714 7 7
adic rata succesului discriminrii este de 85.71% (= . )14/)66( +9) Interpretarea axei de discriminare se face utiliznd urmtorul
tabel al coeficienilor de corelaie
Indicatorul Coeficientul de corelaie cu axa
I -0.863 1I 0.266 2
Observm c coeficientul de corelaie ntre indicatorul I1 i axa de discriminare este 0.863, iar coeficientul de corelaie ntre indicatorul I2 i ax este 0.266. Prin urmare, cel mai discriminant
este indicatorul proprii capitaluri
totaledatorii1 =I , care d i o interpretare
unicei axe de discriminare.
5.3 Analize pe tabele de contingen. Analiza corespondenelor n marketing
Tabelele de contingen descrise n 1.4 se pot crea ori de cte ori populaia studiat este mprit n subpopulaii prin variabile categoriale nominale. Informaii de acest gen provin de obicei din chestionare.
De regul, se grupeaz cte dou variabile categoriale i se obin aa-numitele tabele cu dubl intrare, ce conin frecvenele absolute pe nivele.
Fie de exemplu dou variabile categoriale X i X1 2, prima avnd r modaliti iar cea de-a doua avnd c modaliti. S notam cu N matricea ce conine frecvenele absolute pentru modalitile cele dou variabile, adic
Total pe linii
Modaliti X1\X2
1 2 j c
11
n12
nc
n1 1njn11
21
n22
nc
n2 2njn22
1in
2in
icn
ijn ini
rcn rn1rn 2rn rjnr n Total
coloane cn1n 2n jn
Evident, elementul din tabelul anterior exprim numrul de indivizi (din totalul celor n) pentru care variabila X
ijn
1 are modalitatea i i variabila X2 are modalitatea j. Aa cum am precizat n 1.4, matricea este bordat cu o coloan a totalurilor pe linii i cu o linie a totalurilor pe coloane.
n aplicaii se obinuiete a se asocia matricei N dou alte matrice (tabele) i anume:
a) matricea frecvenelor condiionate relativ la linii, numit i matricea profil-linie;
b) matricea frecvenelor condiionate relativ la coloane, numit i matricea profil-coloan.
Vom prezenta n cele ce urmeaz modul de construire a celor dou matrice i proprietile lor.
Matricea profil-linie se obine din matricea iniial N mprind fiecare element al acesteia prin totalul liniei corespunztoare, adic
elementul de pe linia i i coloana j va fi n matricea profil-linie in
nij . Noua
matrice astfel obinut o vom nota L. Dac vom considera toate liniile matricei profil-linie L, ele vor forma
n spaiul cR al modalitilor variabilei X un nor alctuit din r puncte. 2Centrul de greutate al acestui nor de puncte se calculeaz folosind
matricea de ponderi 11 Dn
. Matricea D1 este o matrice diagonal (de
dimensiune r r) a totalurilor pe linii:
=
.
...000
..........0...000..000..00
3
2
1
1
rn
nn
n
D .
Fie vectorul centrului de greutate. Componenta sa se obine ca o sum ponderat a elementelor coloanei j din matricea profil-linie, adic din vectorul coloan
),...,,...,,( 21 cjl mmmmm =
m j
T
2
2
1
1 ,...,,...,,
rrj
i
ijjj
nn
nn
nn
nn
ponderile fiind coninute n vectorul coloan
T21 ,...,,...,,
nn
nn
nn
nn ri .
Prin urmare, componenta a centrului de greutate a matricei
profil-linie va fi
jm
nn
nn
nn
m jkr
k k
kjj
=
==1
iar centrul de greutate va avea
coordonatele:
T1 ,...,,...,
=
nn
nn
nnm cjl .
Matricea profil-coloan se obine din matricea iniial N mprind fiecare element al acesteia prin totalul corespunztor pe coloan, adic
elementul de pe linia i i coloana j va fi n matricea profil-coloan j
ij
n
n
.
Vom nota cu C noua matrice format. Dac vom considera toate coloanele matricei profil-coloan C, ele
vor forma, n spaiul rR al modalitilor variabilei X1, un nor alctuit din c puncte.
Centrul de greutate al acestui nor de puncte se calculeaz folosind
acum matricea de ponderi 21 Dn
unde matricea D2 este matricea diagonal a
totalurilor pe coloane
=
.
...000
..........0...000..000..00
3
2
1
2
cn
nn
n
D .
Fie vectorul centrului de greutate al acestui nor de puncte. Componenta sa se obine ca o sum ponderat a elementelor liniei i din matricea profil-coloan, adic din vectorul coloan
T21 ),...,,...,,( ri
c mmmmm =im
T
2
2
1
1 ,...,,...,,
cic
j
ijiinn
nn
nn
nn
T21 ,...,,...,,
nn
nn
nn
nn cj . i ponderile
nn
nn
nn
m ikc
k k
iki
=
==1
Prin urmare, iar centrul de greutate al
matricei profil-coloan va avea coordonatele: T
1 ,...,,...,
= n
nn
nn
nm ric .
Observaii: Cum condiia de independen a celor dou variabile
categoriale Xnn
nn
jiij = nn i X nseamn 1 2 pentru orice i i j, vom obine urmtoarele egaliti:
nn
nn j
i
ij = { }ri ,...,2,1= { }cj ,...,2,1=a) i pentru orice
i
nn
nn i
j
ij
= { }ri ,...,2,1= { }cj ,...,2,1=b) . pentru orice i Condiia a) nseamn c, n cazul n care variabilele categoriale sunt
independente statistic, toate punctele norului de puncte ale matricei profil-
linie vor coincide cu centrul lor de greutate T
1 ,...,,...,
=
nn
nn
nnm cjl .
Analog, condiia b) nseamn c, n cazul n care variabilele categoriale sunt independente statistic, toate punctele norului de puncte ale matricei profil-coloan vor coincide cu centrul lor de greutate
T1 ,...,,...,
=
nn
nn
nnm ric .
Atunci cnd variabilele nu sunt independente statistic este important s evalum ct de aproape sau de departe sunt punctele de centrul lor de greutate.
S revenim la matricea profil-linie n care considerm dou linii i i i
ale cror elemente sunt T
21 ,...,,...,,
iic
i
ij
i
i
i
inn
nn
nn
nn i respectiv
T
'
'
'
'
'
2'
'
1' ,...,,...,,
ici
i
ji
i
i
i
inn
nn
nn
nn
.
cRntre aceste linii privite ca puncte n spaiul calculm distana ponderat dat de metrica 2 i anume
2
'
'
1
2 )',(2
=
=
i
ji
i
ijc
j jnn
nn
nniid .
n consecin, putem calcula distana de la o linie i a matricei profil-
linie la centrul de greutate T
1 ,...,,...,
=
nn
nn
nnm cjl prin formula:
2
1
2 ),(2
=
= nnnnnnmid jiij
c
j j
l .
care d o msur 2 a deprtrii punctului i de centrul norului. Putem s calculm distana (ponderat) de la toate punctele (linii) ale
matricei profil-linie la centrul lor de greutate obinnd ceea ce se numete ineria norului de puncte
lm
=
=
=
=
r
i
j
i
ijc
j j
ir
i
lin
nnn
nn
nnmid
nn
1
2
11
2 ),(2
Un simplu calcul ne va conduce la urmtoarea expresie a ineriei norului de puncte (abatere faa de centrul de greutate)
= =
=r
i
c
j ji
jiij
nnnnnnn
n1 1
22
/)/(1 (3)
(recunoatem n expresia de mai sus i valoarea statisticii 2). Analog, putem s introducem o msur de tip 2 ntre coloanele
matricei profil-coloan i apoi s calculm distana ponderat a punctelor
din nor la centrul lor de greutate T
1 ,...,,...,
= n
nn
nn
nm ric ; obinem
aceeai expresie (3).
Observaii: 1) Norul de puncte asociat matricei profil-linie formeaz un subspaiu W cR ; 1 n spaiul
lm0 cR (din spaiul 2) vectorul ) este un vector ortogonal n sensul metricii 2 pe subspaiul W . 1
Analiza corespondenelor este analiza componentelor principale aplicat celor dou matrice profil-linie i profil-coloan asociate matricei de contingen. Principiile aflrii axelor principale i ale componentelor
principale fiind cele prezentate n 3.1, practic avem de rezolvat urmtoarele dou sisteme de ecuaii algebrice duale i anume:
aaLC =T i (4) bLbC =TPropoziia 1. Ambele sisteme (4) au soluia 10 = (valoare proprie
a matricei i ). Mai mult, n caz c TLC LC T cr spectrul matricei se regsete n spectrul matricei , iar n caz c
TLCLC T cr > spectrul matricei
se regsete n spectrul matricei . LC T TLCn analiza factorilor i componentelor principale valoarea proprie se elimin, aa cum se elimin i vectorul propriu corespunztor,
reinndu-se restul de r1 factori a respectiv c1 factori b. 10 =
Propoziia 2. Cu notaiile de mai sus, ntre vectorii proprii a i vectorii proprii b exist urmtoarele legturi:
i
r
i j
ijj an
nb
= =
1
1j
c
j i
iji bn
na
= =
1
1 i .
n tabelul urmtor prezentm sintetic descrierea factorilor principali i a componentelor principale ca vectori proprii ai matricelor i . TLC LC T
ACP pentru matricea profil-linie
ACP pentru matricea profil-coloan
Factorii principali
Vectorii proprii ai matricei
Vectorii proprii ai matricei LC T TLC
Vectorii proprii a ai matricei , normalizai prin
Vectorii proprii b ai matricei , normalizai prin
Componen-tele principale TLC LC T
=aDan
T1
1 =bDbn
T2
1
n cazul analizei corespondenelor nu are sens s calculm corelaiile dintre componentele principale i coloanele respectiv liniile din matricele profil corespunztoare. Interpretarea componentelor principale se face prin evaluarea aa-numitei contribuii a liniei respectiv a coloanei la ineria total a norului de puncte.
Ineria recuperat de o ax (fie c aceast ax este a sau b) poate fi evaluat astfel
=
=
==c
jjj
r
iii bnn
ann
J1
2
1
2 )(1)(1 ,
prin urmare vom defini contribuia liniei i din matricea profil-linie la ineria norului (pe o ax a) prin formula:
J
an
n
iCTRi
i 2)()(
=
nniCTR i>)(i vom avea n atenie acele linii i pentru care .
Analog, vom defini contribuia coloanei j din matricea profil-coloan la ineria norului (pe o ax b) prin
J
bn
n
jCTRj
j 2)()(
=
nn
jCTR j>)(i vom avea n atenie acele coloane pentru care . Aplicaie - exemplu. ntr-un sondaj de opinie lansat de o fabric de
bere n scopul obinerii datelor necesare elaborrii strategiei de extindere i diversificare a produciei, una dintre temele urmrite a fost dependena de categoria de venit a mrcii de bere consumate. A fost chestionat un eantion reprezentativ format din 1355 de consumatori, iar datele obinute sunt prezentate n tabelul de contingen urmtor. Evident, pe linii apar mrcile de bere indicate, iar pe coloane 6 categorii de venit (ordonate de la venit foarte mic pn la venit foarte mare)
C.Venit V1 V2 V3 V4 V5 V6 Total Azu 12 24 30 14 8 6 94 Buc 8 14 23 22 11 16 94 Bra 11 22 23 11 12 13 92 Cis 18 30 11 6 10 5 90 Fav 9 15 14 8 8 6 60 Gam 8 14 12 17 12 5 68 Mam 11 20 18 22 15 13 99 Ori 1 7 14 16 11 17 76 Rah 12 30 47 27 14 12 152 Sil 17 23 25 26 15 17 123 Urs 10 20 16 26 4 4 80 Bws 3 11 5 6 1 3 29 Dab 5 2 8 11 18 23 46 Dre 10 21 13 8 7 3 62 Efe 13 23 8 11 9 3 67 Hpk 6 12 5 8 8 2 41
C.Venit V1 V2 V3 V4 V5 V6 Total Tub 15 14 18 20 9 6 82 Total 169 302 290 259 182 153 1355
S parcurgem cteva etape de analiz plecnd de la acest tabel de contingen.
1) Matricea profil-linie L este prezentat n tabelul urmtor (n care pe ultima linie apare vectorul-centroid al norului de puncte)
C.Venit V1 V2 V3 V4 V5 V6 Azu 0.128 0.255 0.319 0.149 0.085 0.064Buc 0.085 0.149 0.245 0.234 0.117 0.170Bra 0.120 0.239 0.250 0.120 0.130 0.141Cis 0.200 0.333 0.122 0.067 0.111 0.056Fav 0.150 0.250 0.233 0.133 0.133 0.100Gam 0.118 0.206 0.176 0.250 0.176 0.074Mam 0.111 0.202 0.182 0.222 0.152 0.131Ori 0.013 0.092 0.184 0.211 0.145 0.224Rah 0.079 0.197 0.309 0.178 0.092 0.079Sil 0.138 0.187 0.203 0.211 0.122 0.138Urs 0.125 0.250 0.200 0.325 0.050 0.050Bws 0.103 0.379 0.172 0.207 0.034 0.103Dab 0.109 0.043 0.174 0.239 0.391 0.500Dre 0.161 0.339 0.210 0.129 0.113 0.048Efe 0.194 0.343 0.119 0.164 0.134 0.045Hpk 0.146 0.293 0.122 0.195 0.195 0.049Tub 0.183 0.171 0.220 0.244 0.110 0.073
ml 0.125 0.223 0.214 0.191 0.134 0.113Pentru fiecare linie (marc de bere) se identific acea categorie de
venit ai crei consumatori consum cel mai mult marca respectiv. 2) Matricea profil-coloan C este prezentat transpus n tabelul
urmtor (mpreun cu vectorul-centroid al norului de puncte):
C.Ven Azu Buc Bra Cis Fav Gam Mam Ori Rah Sil Urs Bws Dab Dre Efe Hpk Tub V1 0.07 0.05 0.07 0.11 0.05 0.05 0.07 0.01 0.07 0.10 0.06 0.02 0.03 0.06 0.08 0.04 0.09 V2 0.08 0.05 0.07 0.10 0.05 0.05 0.07 0.02 0.10 0.08 0.07 0.04 0.01 0.07 0.08 0.04 0.05 V3 0.10 0.08 0.08 0.04 0.05 0.04 0.06 0.05 0.16 0.09 0.06 0.02 0.03 0.04 0.03 0.02 0.06 V4 0.05 0.08 0.04 0.02 0.03 0.07 0.08 0.06 0.10 0.10 0.10 0.02 0.04 0.03 0.04 0.03 0.08 V5 0.04 0.06 0.07 0.05 0.04 0.07 0.08 0.06 0.08 0.08 0.02 0.01 0.10 0.04 0.05 0.04 0.05 V6 0.04 0.10 0.08 0.03 0.04 0.03 0.08 0.11 0.08 0.11 0.03 0.02 0.15 0.02 0.02 0.01 0.04 mc 0.07 0.07 0.07 0.07 0.04 0.05 0.07 0.06 0.11 0.09 0.06 0.02 0.03 0.05 0.05 0.03 0.06
Pentru fiecare linie (ce reprezint aici categoria de venit) se identific acea marc/acele mrci de bere consumate maximal de ctre categoria respectiv.
3) Evaluarea acoperirii ineriei totale a norului de puncte prin axele factoriale, evaluare ce utilizeaz valorile proprii ale matricei (sau ale matricei ) este urmtoarea: TCL LC T
Nr. Val. proprie % inerie % cumulat 1 0.1013 62.5% 62.5% 2 0.0323 19.9% 82.4% 3 0.0178 11.0% 93.4% 4 0.0043 2.7% 96.1% 5 0.0064 3.9% 100.0%
Se observ c primele dou axe factoriale acoper peste 82% din ineria norului de puncte, ceea ce se consider a fi relevant pentru analiz.
4) Continum aadar cu 2 axe factoriale. Pentru fiecare dintre acestea putem folosi formula
=
=
==c
jjj
r
iii bnn
ann
J1
2
1
2 )(1)(1
pentru a-i evalua ineria. Apoi, contribuia fiecrei coloane j la aceast inerie se obine din formula
2)(1)( jj b
nn
JjCTR =
iar contribuia fiecrei linii i la ineria asociat axei este dat de: 2)(1)( i
i an
nJ
iCTR = . Concret, rezultatele obinute din analiza coloanelor sunt urmtoarele:
Ineria: 0.1358 0.1711 C.Venit Axa1 Axa2
V1 0.084 0.158 V2 0.279 0.087 V3 0.371 0.011 V4 0.003 0.195 V5 0.103 0.170 V6 0.520 0.020
Prin urmare, contribuia maxim la prima ax factorial aparine categoriei de venit V6 (foarte ridicat), iar la a doua ax factorial aparine categoriei de venit V3 (mic spre mediu).
Analog, rezultatele obinute din analiza liniilor sunt urmtoarele:
ineria 0.0409 0.0575 Marca Axa1 Axa2 Azu 0.037 0.045 Buc 0.029 0.060 Bra 0.000 0.003 Cis 0.257 0.076 Fav 0.005 0.008 Gam 0.000 0.000 Mam 0.005 0.000 Ori 0.127 0.028 Rah 0.008 0.196 Sil 0.003 0.001 Urs 0.032 0.086 Bws 0.015 0.000 Dab 0.539 0.112 Dre 0.052 0.026 Efe 0.055 0.120 Hpk 0.009 0.050 Tub 0.007 0.009
Prin urmare, contribuia maxim la prima ax factorial aparine mrcii Dab, iar la a doua ax factorial aparine mrcii Cis.
5) ncheiem analiza cu reprezentarea grafic a ambelor seturi de modaliti n planul celor 2 axe factoriale. (Fiecare modalitate, fie c este o categorie de venit, fie ca este o marc de bere, va fi reprezentat prin cel dou componente principale ale sale.)
Graficul este prezentat n figura 12.
Se observ c prima ax factorial exprim opoziia dintre veniturile mici i cele mari. De asemenea, este destul de clar asocierea dintre marca Dab i categoria de venit V6.
S presupunem c iniiatorul acestei anchete este, de exemplu, marca Tub. Constat c se afl n zona de indiferen, dar constat i poziia concurenilor si. Este vizibil c ecartul su fa de categoria V6 este mai mare dect cel fa de categoria V4. n consecin, politica sa de diversificare ar trebui s se adreseze acestui segment de consumatori.
B raGamS il
Hp k
F a v
Tub
R ahU rs
A z u
B w s
D re
Ef e
C is V 1
V 2
V 3
V 4
M a m
B ucOri
V 5D ab
V 6
Figura 12. Reprezentarea simultan n planul factorial
Ca un alt exerciiu de aplicare a analizei corespondenelor se pot folosi datele din tabelul urmtor 1. Datele sunt prelevate dintr-un eantion de 10000 de studeni la diferite faculti (Fac) i provenind din categorii socio-profesionale ale prinilor (CSP) dup cum urmeaz: fermier (Ferm), muncitor agricol (MAgr), patron (Patr), profesie liberal (PLib), cadre medii (CMed), salariat (Salr), muncitor (Munc), personal de serviciu (Serv), alte profesii (Alte).
CSP\Fac Drept Econo-mice
Litere tiine Medi-cin
Farma-cie
Fac. tehn.
Alte fac.
Total
Ferm 80 36 134 99 65 28 58 11 511 MAgr 6 2 15 6 4 1 4 1 39 Patr 168 74 312 137 208 53 62 21 1035 PLib 470 191 806 400 876 164 79 45 3031 CMed 236 99 493 264 281 56 87 36 1552 Salr 145 52 281 133 135 30 54 20 850 Munc 166 64 401 193 127 23 129 28 1131 Serv 16 6 27 11 8 2 8 2 80 Alte 305 115 624 247 301 47 90 42 1771 Total 1592 639 3093 1490 1005 404 571 206 10000
1 G. Saporta, Probabilits, Analyse des Donnes et Statistique, Ed. Technip, Paris 1990
Se va ncerca a da rspuns urmtoarelor ntrebri:
1) Ce studii urmeaz copiii avnd prini dintr-o categorie socio-profesional?
2) Ce origine socio-profesional au studenii de la diverse faculti? 3) Alegerea unei faculti depinde sau nu de categoria socio-
profesional a prinilor i, dac da, cum anume?
Capitolul 5. Aplicaii economice5.1 Analiza i clasificarea firmelor pe baza indicatorilor financiari5.2 Modele de credit scoring analiza discriminant utilizat pentru diagnoza financiar5.3 Analize pe tabele de contingen. Analiza corespondenelor n marketing