Analiza factoriala

6
Analiza factoriala in R Analiza factoriala este o tehnica matematica (statistica) conceputa pentru a lega un set de variabile observate de un numar mai mic de factori numiti factori latent. Dimensiunea latent rezultata este definita de ceea ce au in comun variabilele observate utilizate in analiza. Obiectivele metodei sunt: -sa extraga un numar redus de factori(=economia) -prin rotirea factorilor, sa se obtina saturatii mai mari pentru acelasi indicator numai intr-un singur factor (=interpretabilitatea) O structura factoriala este cu atat mai simpla cu cat are mai putini factori (=variabile latente). Coeficientii de saturatie (=loadings) masoara intensitatea influentei unui factor asupra unui indicator. Setul de date dataset_exploratoryFactorAnalysis.csv contine un esantion ipotetic de 300 raspunsuri ale 300 studenti referitoare la materiile favorite. Raspunsurile sunt exprimate in note de la 1 la 5, care reprezinta o scala de la ” imi displace total” la “imi place foarte mult”. Sa se cerceteze daca exista variabile latente la baza raspunsurilor studentilor. >data<-read.csv("C:/dataset_exploratoryFactorAnalysis.csv") >data >cordata<-cor(data) Se calculeaza matricea coeficientilor de corelatie. > covdata<-cov(data) Se calculeaza matricea de covarianta. > fa_1<-factanal(data,2,covmat=NULL,rotation="varimax") 1

description

SSD

Transcript of Analiza factoriala

Analiza factoriala in R Analiza factoriala este o tehnica matematica (statistica) conceputa pentru a lega un set de variabile observate de un numar mai mic de factori numiti factori latent.

Dimensiunea latent rezultata este definita de ceea ce au in comun variabilele observate utilizate in analiza.Obiectivele metodei sunt: -sa extraga un numar redus de factori(=economia) -prin rotirea factorilor, sa se obtina saturatii mai mari pentru acelasi indicator numai intr-un singur factor (=interpretabilitatea)O structura factoriala este cu atat mai simpla cu cat are mai putini factori (=variabile latente).

Coeficientii de saturatie (=loadings) masoara intensitatea influentei unui factor asupra unui indicator.Setul de date dataset_exploratoryFactorAnalysis.csv contine un esantion ipotetic de 300 raspunsuri ale 300 studenti referitoare la materiile favorite. Raspunsurile sunt exprimate in note de la 1 la 5, care reprezinta o scala de la imi displace total la imi place foarte mult.Sa se cerceteze daca exista variabile latente la baza raspunsurilor studentilor.>datadata

>cordata covdata fa_1 fa_1

Call:

factanal(x = data, factors = 2, covmat = NULL, rotation = "varimax")

Uniquenesses:

BIO GEO CHEM ALG CALC STAT

0.252 0.375 0.249 0.374 0.048 0.715

Loadings:

Factor1 Factor2

BIO 0.855 0.133

GEO 0.779 0.135

CHEM 0.865

ALG 0.791

CALC 0.971

STAT 0.170 0.506

Factor1 Factor2

SS loadings 2.124 1.863

Proportion Var 0.354 0.311

Cumulative Var 0.354 0.665

Test of the hypothesis that 2 factors are sufficient.

The chi square statistic is 2.94 on 4 degrees of freedom.

The p-value is 0.568Unicitatea (=uniqueness) este proportia din varianta unei variabile care nu este explicata de toti factorii impreuna. O unicitate foarte mare indica faptul ca o variabila nu este conectata cu nici un factor.

Din analiza factoriala de mai sus rezulta:Variabila1 =BIO= 0.855* Factor1+ 0.133*Factor2

Variabila 2=GEO= 0.779* Factor 1 + 0.135* Factor 2, etc.

SS Loadings=suma patratelor incarcaturilor factorilor2.124=, etc.

Proportion Var 0.354 0.31135,4% din varianta este explicata de factorul 1, iar 31,1% de factorul al 2-lea.> plot(fa_1$loadings) Se grupeaza variabilele pe baza factorilor care le afecteaza.

O alta varianta de reprezentare cu etichetarea factorilor este:>load plot(load,type="n")> text(load,labels=names(data),cex=0.7)

Din figura se observa ca materiile Calc(=Calculus, analiza matematica), Alg(=algebra), Stat(=statistica) , deci stiintele exacte, determina factorul 2, reprezentativ pentru interesul studentului in aceste discipline.Materiile Geo(=geografie), Bio(=biologie), Chem(=chimie) determina factorul 1.

Factorul 1 exprima varianta raspunsurilor in proportie de 35,4%, iar factorul 2 in proportie de 31,1%. Determinarea numarului de factori extrasiSe instaleaza pachetul psy.Dupa instalarea lui:

> library(psy)> scree.plot(fa_1$correlation)Screeplotul are aceeasi interpretare ca in cazul PCA. Conform lui, alegem doar primul factor.

6

_1492353161.unknown