Metode cantitative avansate de cercetare sociala

27
Metode cantitative avansate de cercetare sociala Tema 3-4: Analiza cluster (partea a 2-a) Bibliografie: Manual, Capitolul 5 Mark S. Aldenderfer, Roger K. Blashfield, Roger K. 1984. Cluster Analysis. Newbury Park, Ca.: Sage Publications. [Biblioteca Stiinte Politice]

description

Metode cantitative avansate de cercetare sociala. Tema 3-4: Analiza cluster (partea a 2-a) Bibliografie: Manual, Capitolul 5 Mark S. Aldenderfer, Roger K. Blashfield, Roger K. 1984. Cluster Analysis. Newbury Park, Ca.: Sage Publications. [Biblioteca Stiinte Politice]. Recapitulare:. - PowerPoint PPT Presentation

Transcript of Metode cantitative avansate de cercetare sociala

Page 1: Metode cantitative avansate de cercetare sociala

Metode cantitative avansate de cercetare sociala

Tema 3-4: Analiza cluster (partea a 2-a)

Bibliografie: Manual, Capitolul 5

Mark S. Aldenderfer, Roger K. Blashfield, Roger K. 1984. Cluster Analysis. Newbury Park, Ca.: Sage Publications. [Biblioteca Stiinte Politice]

Page 2: Metode cantitative avansate de cercetare sociala

Recapitulare:

Analiza cluster: nume generic pentru o varietate de proceduri statistice care au ca scop gruparea unei populatii de obiecte in functie de un set de caracteristici stabilite in acord cu premizele teoretice, astfel incit sa se obtina grupuri de obiecte similare, cit mai omogene intern si cit mai eterogene extern.

Puncte critice de rezolvat: *stabilirea variabilelor de grupare*definirea unei masuri de similaritate relevante*specificarea algoritmului de grupare

Page 3: Metode cantitative avansate de cercetare sociala

(cont.)

Algoritmi de grupare:1. Metode ierarhice aglomerative:

* cum definim distanta intre doua grupuri?

* cind oprim algoritmul? = numarul final de grupuri

2. Metode de partitionare iterative (urmeaza):

Page 4: Metode cantitative avansate de cercetare sociala

(cont. – metode ierarhice aglomerative)

Distanta intre doua grupuri: *single linkage; [nearest neighbour]*complete linkage; [furthest neighbour]*average linkage between groups; *average linkage within groups (distanta

medie in grupul rezultant); *centroid (distanta intre centroide); *Ward (varianta grupului rezultant)

Page 5: Metode cantitative avansate de cercetare sociala

Algoritmi de grupare metode de partitionare iterative:

(b) Metode de partitionare iterative.-nu au forma arborescenta; pornesc de la o impartire

(partitionare) initiala a obiectelor intr-un numar specificat de grupuri, k.

*Se calculează centroidul fiecăruia dintre grupuri (centrul de cluster). Fiecare obiect e alocat grupului cu centroidul cel mai apropiat un nou set de k grupuri. Se recalculează centroizii noilor grupuri. Se repetă procedura – realocarea obiectelor în raport cu noii centroizi – până cînd nu se mai produc schimbări în componenţa grupurilor.

Page 6: Metode cantitative avansate de cercetare sociala

(cont.)

(i) se porneşte direct de la k puncte care joaca rolul de “centri iniţiali de cluster” (cluster seeds). În raport cu aceştia se va calcula prima partiţie în grupuri (parallel threshold method).

(ii) se selectează initial doar un singur punct ca centru iniţial de cluster, şi se formează un grup din toate obiectele care se află la o distanţă specificată de acesta. Apoi se va alege un al doilea centru de cluster, şi se formează un al doilea grup din toate obiectele aflate la distanţa respectivă de el. Dacă un obiect a intrat deja într-un grup, el nu va fi considerat pentru grupurile următoare. Se continuă astfel până se obţin k grupuri. Mai departe se urmează algoritmul general descris mai sus (sequential threshold method).

Page 7: Metode cantitative avansate de cercetare sociala

(cont.)

Avantajele metodelor de partitionare iterative fata de cele ierarhice aglomeratice:

*semnificativ mai putine calcule – nu e nevoie ca la fiecare aglomerare sa se calculeze distantele intre toate perechile de obiecte posibile.

*multimea de obiecte este parcursa de mai multe ori, nu doar o singura data, permitind imbunatatirea solutiei.

*grupurile obtinute sunt “independente”, nu sunt rezultatul amalgamarii a doua grupuri anterioare.

Page 8: Metode cantitative avansate de cercetare sociala

2. Metode de partitionare iterative:* cum stabilim numarul de

grupuri (k)?* cum alegem centrii de grupuri

initiali?

Page 9: Metode cantitative avansate de cercetare sociala

Stabilirea numarului de grupuri:

Examinarea distanţelor între clusteri la paşi succesivi (metode ierarhice aglomerative): când creşte brusc, înseamnă că la pasul respectiv (să zicem pasul p) sunt unite două grupuri sensibil diferite. numarul de grupuri final va fi N-p.

În cazul metodelor de partiţionare iterativă, distanţa între centroizi este un indicator al similarităţii grupurilor. Dacă aceasta este foarte mică pentru două grupuri, atunci putem considera unirea celor două grupuri într-unul singur. Putem examina si compara solutii cu numar de grupuri diferite.

Page 10: Metode cantitative avansate de cercetare sociala

Centrii grupurilor initiale:

* pot fi fixati de noi astfel incit sa fie acoperita scala de variatie a variabilelor de grupare.

** in SPSS pot fi produsi prin aplicarea procedurii de partitionare, si salvarea centrilor grupurilor rezultante. Acestia vor constitui centrii initiali de cluster intr-o noua aplicare a procedurii.

Page 11: Metode cantitative avansate de cercetare sociala

Sugestii de buna practica:

Examinarea vizuala a datelor, in masura in care acest lucru e posibil, prin scatterplots.

Pentru o obtine o solutie buna vom folosi ambele tipuri de algoritmi: *pornim cu o metoda de grupare ierarhica, pentru a stabili numarul final de grupuri (k). *continuam folosind un algoritm de partitionare, pentru a obtine centrii de cluster, atunci cind nu avem un set initial formulat pe baza teoriei (NB: trebuie sa standardizam variabilele inainte: in SPSS Descriptives).*repetam analiza, folosind iar un algoritm de partionare, in care centrii initiali de cluster au fost obtinuti anterior.

Page 12: Metode cantitative avansate de cercetare sociala

Interpretarea grupurilor:

Examinarea valorilor pe care le iau variabilele de grupare pentru obiectele din fiecare grup rezultat, pentru a înţelege natura grupurilor.

Analiza centroizilor.

Page 13: Metode cantitative avansate de cercetare sociala

Exemplu:

Gruparea unui esantion de tari ale lumii in functie de nivelul de dezvoltare (World95.sav): *PIB/cap (gdp_cap)*rata natalitatii (birth_rate)

Page 14: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birth

rate

per 1000 p

eople

60

50

40

30

20

10

0

Page 15: Metode cantitative avansate de cercetare sociala
Page 16: Metode cantitative avansate de cercetare sociala
Page 17: Metode cantitative avansate de cercetare sociala
Page 18: Metode cantitative avansate de cercetare sociala
Page 19: Metode cantitative avansate de cercetare sociala
Page 20: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Cluster

4

3

2

1

Page 21: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Cluster

4

3

2

1

Uganda

USA

U.Arab Em.

Thailand

SwitzerlandRomaniaPoland

Libya

Hungary

Afghanistan

Page 22: Metode cantitative avansate de cercetare sociala

Definitii ale distantei intre grupuri si rezultatele pe care le produc:

Page 23: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Single Linkage

4

3

2

1

Page 24: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Complete Linkage

4

3

2

1

Page 25: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Complete Linkage

4

3

2

1

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Single Linkage

4

3

2

1

Page 26: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Ward

4

3

2

1

Page 27: Metode cantitative avansate de cercetare sociala

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Complete Linkage

4

3

2

1

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le60

50

40

30

20

10

0

Single Linkage

4

3

2

1

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Ward

4

3

2

1

Gross domestic product / capita

3000020000100000-10000

Birt

h ra

te p

er 1

000

peop

le

60

50

40

30

20

10

0

Cluster

4

3

2

1