Analiza two-step cluster

29
Analiza Two - Step Cluster I. Partea teoretica 1. Definitie Analiza Two - Step Cluster din SPSS este o metoda scalabila care a fost conceputa pentru a face fata seturilor mari de date, extinzand astfel facilitatile oferite de celelalte metode de grupare: K-means, respectiv clusterizarea ierarhica. In cazul acestei metode setul de date este parcurs o singura data si se pot utiliza atat variabile cantitative cat si categoriale (ordinale). Denumirea Two - Step provine de la cei 2 pasi care trebuie parcursi: Pre-clusterizarea cazurilor (instantelor) in mai multe subclustere. Clusterizarea acestor subgrupe rezultate la etapa anterioara intr-un numar dorit de grupe. De asemenea metoda permite si selectia automata a numarului de grupe. 2. Principalele elemente ale metodei - Numarul total de variabile continue utilizate in analiza. - Numarul total de variabile categoriale utilizate in analiza.

description

Analiza two-step cluster

Transcript of Analiza two-step cluster

Analiza Two - Step ClusterI. Partea teoretica1. DefinitieAnaliza Two - Step Cluster din SPSS este o metoda scalabila care a fost conceputa pentru a face fata seturilor mari de date, extinzand astfel facilitatile oferite de celelalte metode de grupare: K-means, respectiv clusterizarea ierarhica. In cazul acestei metode setul de date este parcurs o singura data si se pot utiliza atat variabile cantitative cat si categoriale (ordinale). Denumirea Two - Step provine de la cei 2 pasi care trebuie parcursi:

Pre-clusterizarea cazurilor (instantelor) in mai multe subclustere.

Clusterizarea acestor subgrupe rezultate la etapa anterioara intr-un numar dorit de grupe.

De asemenea metoda permite si selectia automata a numarului de grupe.

2. Principalele elemente ale metodei

- Numarul total de variabile continue utilizate in analiza.

- Numarul total de variabile categoriale utilizate in analiza.

- Numarul de categorii a celei de a k-a variabile ordinale.

- Ordinul celei de-a k-a variabile continue. N - Numarul de instante din setul de date.

- Numarul de instante din clusterul k.

- Varianta estimata a celei de-a k-a variabile continue pentru tot setul de date.

- Varianta estimata a celei de-a k-a variabile continue pentru clusterul j.

- Numarul de instante in clusterul j pentru care a k-a variabila categoriala ia valoarea l.

d(j,s) - Distanta dintre clusterele j si s.

- Un index care reprezinta clusterul format prin combinarea clusterelor j si s. 3. Etapele metodei3.1. Etapa I : Pre-clusterizarea

In aceasta etapa se merge pe o abordarea secventiala. Se analizeaza fiecare instanta in parte si pe baza criteriului distantei se decide daca va fi clasificata in una din clusterele deja existente sau se va forma un nou cluster. Aceasta procedura a fost implementata cu ajutorul unui arbore pentru clusterizare si anume cluster feature tree (CF). O frunza din acest arbore reprezinta un subcluster final. Celelalte noduri din arbore servesc pentru clasificarea unei noi instante in subclusterul adecvat. Fiecare nod are o anumita proprietate cluster (cluster feature) care inglobeaza urmatoarele informatii: numarul de instante, media si varianta fiecarei variabile continue si categoria pentru fiecare variabila categoriala. Fiecare instanta parcurge in mod recursiv nodurile arborelui incepand de la cel radacina pana ce va fi clasificata intr-unul din subclusterele reprezentate de nodurile frunza. Clasificarea se realizeaza pe baza calcului distantelor: daca instanta se afla la o distanta mai mica decat o distanta-prag de una din subclustere va fi absorbit in acel sublcluster si acesta va fi actualizat, iar daca nu se poate incadra in niciunul din subclustere se va forma un nou nod frunza cu instanta respectiva. In caz ca nu exista suficient spatiu pentru crearea unui nou nod frunza, instanta respectiva va fi clasificata in cel mai apropiat subcluster in prima faza. In urma acestui pas subclusterul respectiv este divizat in alte doua grupe pe principiul celor doua cele mai indepartate instante, iar apoi cazurile ramase se vor clasifica in una din subgrupe in functie de distanta. In caz ca dimensiunea arborelui depaseste dimensiunea maxima permisa, acesta va fi reconstruit dupa ce in prealabil se fixeaza o distanta-prag mai mare pentru clasificarea in subclustere. Noul arbore va avea o dimensiune mai redusa si permite introducerea unor noi noduri. Aceste operatii descrise mai sus se repeta pana ce va fi parcurs intregul set de date. Toate instantele dintr-un anumit nod al arborelui sunt reprezentate in mod colectiv de proprietatea cluster care contine detaliile descrise anterior. Atunci cand o noua instanta este clasificata intr-un anumit nod, aceasta proprietate cluster este actualizata doar pe baza proprietatii cluster vechi si pe baza noii instante (nu este nevoie sa se cunoasca detaliile referitoare la fiecare instanta). Aceasta caracteristica faciliteaza mentenanta datelor referitoare la un subcluster, iar arborele ocupa un spatiu de memorie mult mai mic. Singurul dezavantaj este acela ca performanta arborelui este influentata uneori de ordinea instantelor, iar pentru eliminarea acestui neajuns se recomanda ordonarea cazurilor in mod aleator. 3.1.1. Optiunea pentru tratarea punctelor izolate

In procesul de construire a arborelui cluster feature algoritmul trateaza intr-un pas separat si cazul punctelor izolate. Acestea sunt considerate a fi observatii din setul de date care nu se incadreaza in niciuna din grupe. De obicei sunt clasificate intr-o frunza separata a arborelui si dimensiunea acesteia (numarul de instante continut) este mult mai mica decat dimensiunea frunzei (subclusterului) care contine cele mai multe instante (numarul de puncte izolate nu poate depasi 25% din numarul de instante din cel mai mare subcluster). Atunci cand se construieste arborele se verifica daca sunt instante care nu ar putea fi clasificate in niciuna din grupe si sunt separate. Dupa ce s-au format toate grupele se cauta o solutie pentru a incadra cat mai multe puncte in una din subgrupele existente pentru a nu mari dimensiunea arborelui. 3.2. Etapa II : Clusterizarea

La acast pas subclusterele rezultate la etapa anterioara (excluzand cele formate numai din puncte izolate) sunt considerate ca date de intrare pentru a realiza o noua grupare. Din moment ce numarul subclusterelor este mult mai mic decat numarul de instante din setul de date, pot fi utilizate in mod adecvat procedurile de grupare traditionale. SPSS utilizeaza in acest scop metoda de clusterizare ierarhica. Un motiv fundamental ar fi ca lucreaza eficient cu metoda auto-cluster. 3.2.1. Acuratete

In general, cu cat se produc mai multe subgrupe la pasul intai cu atat se obtine o acuratete mai buna a rezultatelor. Singurul neajuns este acela ca totusi prea multe subgrupe vor incetini procedura de grupare la cel de-al doilea pas. Prin urmare, numarul subgrupelor trebuie astfel ales incat sa fie suficient de mare pentru a produce rezultate de o acuratete buna si suficient de mici astfel incat sa nu incetineasca algoritmul de clasificare. 4. Numarul de clustere: Auto-cluster

Una din principalele probleme este legata de numarul de grupe care trebuie format, aceasta stabilindu-se in stransa legatura cu numarul de instante din setul de date. In cazul clusterizarii ierarhice se produce o secventa de partitii la o singura rulare (1,2,3, clustere), in timp ce algoritmul K-means trebuie rulat de mai multe ori (cate o data pentru fiecare numar de clustere) pentru a genera aceasta secventa. Pentru determinarea automata a numarului de grupe, in SPSS s-a dezvoltat o procedura in doi pasi care are la baza metoda de clusterizare ierarhica.

Pasul 1: Se utilizeaza criteriile de informatie Akaike si Schwartz pentru fiecare numar de grupe si se realizeaza o prima estimare pentru numarul de grupe. Pasul 2: Se realizeaza o optimizare fata de pasul 1 si anume se considera cea mai mare distanta intre doua grupe in fiecare etapa a clusterizarii ierarhice. Criteriile de informatie Akaike (AIC) si Schwartz (BIC) pentru J clustere se definesc in felul urmator:

unde,

5. Masurarea distantei

Atat in etapa de pre-clusterizare, cat si in cea de clusterizare este nevoie de o metoda pentru masurarea distantei intre grupele formate sau intre instante. In acest caz mentionam doua variante:5.1. Distanta log verosimilitate (Log-likelihood distance)

In aceasta metoda se permite utilizarea atat a variabilelor calitative, cat si a celor categoriale. Este o metoda de calcul a distantei bazata pe probabilitati. Se considera ca scaderea log - verosimilitatii intre doua clustere coincide cu scaderea distantei si cresterea probabilitatii de a fi unite intr-o singura grupa. In calcularea distantei log verosimilitate se utilizeaza distributia normala pentru variabilele continue, respectiv cea multinomiala pentru cele categoriale. Se presupune de asemenea ca variabilele si cazurile sunt independente. Distanta intre clusterele j si s este definita in felul urmator:

unde,

Daca este ignorata in prima ecuatie de mai sus, atunci distanta dintre clusterele j si s coincide cu cresterea probabilitatii astfel incat cele doua vor fi unite intr-o singura grupa. Termenul este adaugat tocmai pentru a inlatura neajunsurile cauzate de situatia cand , caz in care logaritmul natural va fi nedefinit ( de exemplu cand o grupa contine un singur caz). 5.2. Distanta euclidiana

Aceasta metoda de masurare a distantei se poate aplica doar cand toate variabilele sunt continue. Distanta euclidiana intre doua puncte este clar definita, in cazul a doua clustere reprezentand distanta dintre centroizii lor.

6. Repartizarea instantelor in clustere

In cazul repartizarii instantelor in grupe putem distinge doua situatii si anume:6.1. Nu se utilizeaza optiunea pentru tratarea punctelor izolate

O instanta din setul de date este repartizata in cel mai apropiat cluster pe baza criteriului distantei.

6.2. Se utilizeaza optiunea pentru tratarea punctelor izolate6.2.1. Distanta log-verosimilitateSe presupune ca punctele izolate urmeaza o distributie uniforma. Se calculeaza distanta log-verosimilitate in cazul in care instanta este repartizata intr-o grupa formata din puncte izolate, respectiv in cazul in care este repartizata in cel mai apropiat cluster normal (care nu cuprinde puncte izolate). Daca diferenta intre cele doua distante este mai mica decat o valoare prag, atunci instanta va fi repartizata intr-un cluster normal, altfel intr-o alta grupa formata doar din puncte izolate.

unde C valoarea prag.

6.2.2. Distanta euclidiana

La fel ca si in cazul anterior se calculeaza distanta euclidiana in cazul in care instanta ar fi repartizata intr-o grupa formata din puncte izolate si cand ar fi repartizata in cea mai apropiata grupa normala. Daca diferenta intre cele doua distante este mai mica decat o valoare prag, instanta va apartine grupei normale, altfel va fi un punct izolat.

- valoare prag

7. Valori lipsa

Nu se accepta pastrarea valorilor-lipsa in analiza. Acestea sunt eliminate in virtutea optiunii LISTWISE.II. Partea practica1. Setul de date judges.savAceasta baza de date este formata din 8 variabile de tip Scale reprezentand notele acordate pentru 300 de gimnasti de catre cei 7 membri ai juriului din diverse tari plus un membru care este fan (Armchair Enthusiast).

1.1. Setul de variabile judge1 - Italia

judge2 - Coreea de Sud

judge3 - Romania

judge4 - Franta

judge5 - China

judge6 - Statele Unite

judge7 - Rusia

judge8 - Membru fan

1.2. Numarul de instanteSetul de date cuprinde 300 de instante reprezentand cei 300 de gimnasti care primesc note pentru evolutia lor. 2. Setarile analizei Two Step Cluster pentru baza de date judges.sav2.1. Fereastra principalaIn fereastra TwoStep Cluster Analysis trebuie sa specificam urmatoarele detalii: Lista de variabile: Cele 8 variabile continue reprezentand notele acordate de catre juriu.

Numarul variabilelor continue: Aceste variabile vor fi standardizate in mod implicit. (8 variabile).

Metoda pentru masurarea distantei: Distanta log-verosimilitate este cea implicita. In cazul acesta utilizam distanta euclidiana deoarece toate variabilele sunt continue.

Numarul de grupe: Utilizam criteriul Bayesian (BIC) pentru determinarea automata a numarului optim de grupe si specificam ca numarul acestora sa nu depaseasca 15.

Figura 1 Fereastra principala pentru Analiza TwoStep Cluster in SPSS2.2. Fereastra OptionsIn fereastra Options putem sa specificam urmatoarele detalii:

Outlier treatment: pentru tratarea punctelor izolate. Aceasta casuta nu este bifata in mod implicit. Daca se ajunge la un arbore cluster feature de o dimensiune prea mare, se reconstruieste utilizand o distanta prag mai mare. Daca o instanta nu va putea fi repartizata in nicio grupa, aceasta se marcheaza cu -1 si nu este inclusa in numararea instantelor dintr-o grupa. Daca se bifeaza casuta noise handling, se va crea o frunza separata doar pentru instantele izolate. Procentul instantelor din acest cluster nu va putea depasi cel specificat la percentage (implicit este 25%). Memory allocation: Aceasta optiune se utilizeaza pentru setarea memoriei pentru analiza. Memoria implicita este 64 MB, insa seturile mari de date ar putea necesita mai multa memorie. Daca memoria setata este prea mica analiza esueaza deoarece nu se gaseste numarul corect de grupe. Standardization: In aceasta sectiune se pot alege variabilele care vor fi standardizate. In mod implicit toate variabilele continue sunt standardizate. CF tree tuning criteria: Aceasta optiune se acceseaza prin intermediul butonului Advanced din fereastra Options. Se pot seta detalii privind arborele de clasificare cum ar fi : numarul maxim de descendenti per nod (Maximum branches per leaf node), numarul maxim de nivele (Maximum tree depth). Prin intermediul optiunii Initial distance change threshold se seteaza o valoare prag pentru repartizarea unei instante intr-o grupa. Daca distanta fata de un cluster este mai mare decat aceasta valoare prag, instanta respectiva va deveni la randul ei o frunza a arborelui. Daca dimensiunea arborelui ( Maximum number of nodes possible) atinge o valoare limita maxima, atunci pragul critic asociat distantei de calcul va fi crescut treptat. Cluster model update: Prin aceasta optiune accesata tot prin intermediul butonului Advanced se poate importa un arbore cluster feature salvat anterior intr-un fisier XML. Modelul importat este actualizat apoi in functie de setul de date curent. Lista de variabile trebuie sa fie in aceeasi ordine ca si in cazul ultimei salvari. Fisierul XML nu va suferi schimbari decat daca utilizatorul opteaza pentru a-l salva din nou. Cand se importa un astfel de model toate setarile vor fi actualizate in functie de cele utilizate in modelul importat. In procedura de actualizare se presupune ca nicio instanta curenta nu a fost utilizata in modelul importat. In cazul in care se depisteaza instante duplicate, cele doua seturi de date trebuie concatenate, eliminand duplicatele, dupa care se reface analiza two step cluster.

Figura 2 Fereastra Options pentru Analiza TwoStep Cluster in SPSS2.3. Fereastra PlotsIn aceasta fereastra se poate selecta afisarea diverselor tipuri de grafice. Alegerea uneia sau mai multor tipuri de grafice are drept rezultat crearea unei variabile pentru apartenenta fiecarei instante la o grupa si salvarea ei in setul de date. In aceasta fereastra se aleg urmatoarele tipuri de grafice:

Within cluster percentage chart: este un grafic de tip bara care ne arata in fiecare grupa procentul in care au contribuit variabilele la obtinerea grupei respective. Cluster pie chart: ne arata dimensiunea fiecarei grupe obtinute. Variable importance chart (by cluster or by variable): ne arata importanta fiecarei variabile in procesul de grupare. Significance tests of importance: diverse teste de semnificatie privind variabilele. Confidence level: setarea nivelului de incredere (implicit 95%).

Figura 3 Fereastra Plots pentru Analiza TwoStep Cluster in SPSS2.4. Fereastra Output

In aceasta fereastra se pot selecta tipurile de iesiri pe care dorim sa le furnizeze analiza:

Descriptives by cluster: optiuni descriptive pentru fiecare grupa. Cluster frequencies: frecvente pentru fiecare grupa. Information criterion (AIC or BIC): criteriile informationale (AIC si BIC).Cluster membership variable: Se creeaza o variabila care retine apartenenta fiecarei instante la o grupa. Numele implicit al variabilei va fi TSC (de la TwoStage Cluster) urmat de un cod generat de SPSS.

Export tree or model: Se poate exporta arborele cluster feature sau intregul model. Acest lucru este util pentru o reutilizare ulterioara in cazul altor seturi de date.

Figura 4 Fereastra Output pentru Analiza TwoStep Cluster in SPSS3. Rezultatele obtinute in urma analizei Two Step Cluster3.1. Autoclustering table

Ne furnizeaza valorile criteriilor informationale BIC si AIC pentru fiecare numar de clustere considerat (mai mic sau egal cu cel setat de catre utilizator), in vederea stabilirii numarului optim de grupe. Se alege numarul de clustere pentru care Ratio of BIC Changes si Ratio of Distance Measures au cele mai mari valori.

Figura 5 Autoclustering Table in analiza Two Step Cluster in SPSSIn tabelul de mai sus se poate observa ca in cazul a 2 clustere, valoarea ajustata pentru criteriul informational BIC este 1, iar distanta considerata este 2.671, de unde rezulta ca acesta este numarul optim de grupe. De asemenea valoarea criteriului informational BIC luat singur este cea mai mica si anume -841.601 care intareste motivatia alegerii a doua clustere. 3.2. Cluster distribution table

In acest tabel este ilustrat pentru fiecare grupa numarul de instante pe care le contine si procentul lor din total.

Figura 6 Cluster Distribution Table in analiza Two Step Cluster in SPSS

Se poate observa ca prima grupa contine cele mai multe instante (164 instante), reprezentand 54.7% din totalul instantelor, in timp ce a doua grupa contine 136 instante, reprezentand 45.3%.3.3. Centroids table

In acest tabel sunt ilustrate informatii de natura descriptiva pentru variabilele de tip continuu. Se pot vedea diferentele existente intre grupe in functie de media si deviatia standard a fiecarei variabile continue (in cazul acesta judges).

Figura 7 Centroids table in analiza Two Step Cluster in SPSSDin acest tabel se poate observa de exemplu ca gimnastii care au fost clasificati in cea de-a doua grupa au primit note mult mai mari de la toti cei 8 membri ai juriului decat cei apartinand primei grupe. Daca realizam o analiza mai detaliata se pot constata urmatoarele:Prima grupa:

Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din Rusia, media notelor fiind de 7.4049.

A doua grupa:

Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din Statele Unite media notelor fiind 9.7301, iar cele mai mici note de la membrul juriului din China, media notelor fiind de 8.6463.Analizand per ansamblu se observa ca membrul juriului din Franta a fost cel mai permisiv media notelor lui pentru toti participantii fiind de 8.9703, iar cel mai exigent a fost membrul juriului din China, media notelor lui fiind de 8.0380.

3.4. Cluster Pie Chart

Se ilustreaza in mod grafic marimea fiecarei grupe, respectiv procentul instantelor din fiecare grupa din total.

Figura 8 Marimea fiecarei grupe rezultate in urma analizei Two Step Cluster in SPSSSe observa ca prima grupa cuprinde 54.67% din totalul instantelor fiind astfel cea mai voluminoasa, in timp ce a doua grupa cuprinde 45.33% din totalul instantelor.

3.5. Within cluster variation plot

Pentru variabilele continue sunt afisate bare de eroare pentru fiecare cluster. Aceste grafice numite Intervale de incredere pentru medie afiseaza media pentru fiecare variabila continua in fiecare grupa, iar aripioarele reprezinta limita de incredere de 95% in jurul valorii medii.

Figura 9 Cluster Variation Plot pentru variabila continua judge1 care reprezinta notele acordate de membrul din ItaliaDin graficul de mai sus se poate observa ca media notelor acordate de catre juriul din Italia este de 8.50. Gimnastii clasificati in primul cluster au media notelor sub aceasta medie (7.85), pe cand cei din a doua grupa au media notelor cu mult peste 8.50 (9.27). Pentru prima grupa abaterea standard a notelor este de 0.53715 (din Cluster Profiles), in timp ce pentru cea de-a doua grupa abaterea notelor este de 0.44936.La ceilalti membri ai juriului se poate observa aceeasi ierarhie, gimnastii din prima grupa au o medie a notelor mult mai mica si cei din a doua grupa o medie mult mai mare.

Se poate observa ca per ansamblu membrul din Franta a dat cele mai mari note gimnastilor si anume media notelor lui fiind 8.97, iar cele mai mici note le-a dat membrul din China si anume media lor este 8.03. Cele mai mari abateri privind notele au fost la ultimul membru, aceasta fiind de 0.8176 in cazul primei grupe, respectiv 0.75803 la ce-a de-a doua grupa. 3.6. Variablewise importance plot

Acest grafic ne arata importanta fiecarei variabile in procedura de grupare. Pe axa X sunt afisate valorile Hi-patrat, iar pe axa Y lista de variabile. Daca barele prezentate in grafic depasesc valoarea critica inseamna ca variabila joaca un rol important in obtinerea grupei respective. In cazul acesta fiind 2 grupe vom avea doua grafice.

Figura 10 Variablewise importance plot grupa1 pentru analiza Two Step Cluster in SPSS

Din graficul de mai sus se observa ca toate variabilele contribuie la diferentierea acestei grupe. Cea mai importanta variabila este judge7 Russia, iar cea mai neimportanta este al 8-lea membru si anume Arcmchair Enthusiast.

Figura 11 Variablewise importance plot grupa2 pentru analiza Two Step Cluster in SPSS

In cazul celei de-a doua grupe se observa la fel ca toate variabilele sunt importante si au contribuit la obtinerea acestei grupe. Cea mai importanta variabila este judge6 United States, iar cea mai neimportanta este din nou a 8-a variabila. 3.7. Clusterwise variable importance plot

Daca din fereastra Plots din sectiunea Rank Variables alegem optiunea By Cluster se va afisa cate un grafic pentru fiecare variabila in parte, aratand importanta acesteia in obtinerea grupelor.

Figura 12 Clusterwise variable importance plot pentru judge1 - Italy

Din graficul de mai sus se observa ca primul membru al juriului, cel din Italia, a avut o contributie importanta in obtinerea grupei 2 unde au fost clasati gimnastii cu cele mai mari note. Aceeasi observatie o avem si pentru membrii juriului din: Franta, Coreea de Sud, Statele Unite, respectiv al 8-lea membru al juriului. Toti au contribuit fundamental la obtinerea celei de-a doua grupe.

Ceilalti membrii ai juriului: China, Romania, respectiv Rusia au contribuit fundamental la obtinerea primei grupe, unde au fost clasati gimnastii cu notele cele mai mici.

III. ConcluziiIn urma analizei Two - Step Cluster pe baza de date judges.sav formata din 8 variabile continue reprezentand membrii juriului din diverse tari la Campionatul Mondial de Gimnastica s-au obtinut doua grupe. In cele ce urmeaza se trec in revista per ansamblu principalele detalii care caracterizeaza fiecare grupa in parte.

Grupa 1 Cuprinde 164 de gimnasti reprezentand 54.7% din cei 300 prezenti la Campionatul Mondial.

Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din Rusia, media notelor fiind de 7.4049. Cea mai importanta variabila pentru diferentierea acestei grupe este judge7 Russia, iar cea mai neimportanta este al 8-lea membru si anume Arcmchair Enthusiast. Membrii juriului din: China, Romania, respectiv Rusia au contribuit fundamental la obtinerea primei grupe, unde au fost clasati gimnastii cu notele cele mai mici. Grupa 2

Cuprinde 136 de gimnasti reprezentand 45.3% din cei 300 prezenti

Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din Statele Unite media notelor fiind 9.7301, iar cele mai mici note de la membrul juriului din China, media notelor fiind de 8.6463. Cea mai importanta variabila pentru diferentierea acestei grupe este judge6 United States, iar cea mai neimportanta este din nou a 8-a variabila.

Primul membru al juriului, cel din Italia, a avut o contributie importanta in obtinerea grupei 2 unde au fost clasati gimnastii cu cele mai mari note. Aceeasi observatie o avem si pentru membrii juriului din: Franta, Coreea de Sud, Statele Unite, respectiv al 8-lea membru al juriului, Armchair Enthusiast.IV. Bibliografie1. SPSS, Inc. (2011). The SPSS twostep cluster component. Chicago, IL: SPSS. SPSS white papers/technical report TSCPWP-0101.

2. Theodoridis, S. & Koutroumbas, K. (1999). Pattern recognition. NY: Academic Press.

3. Zhang, T.; Ramakrishnon, R.; & Livny, M. (1996). BIRCH: Method for very large databases. Proceedings of the ACM. Management of Data. Pp. 103114. Montreal, Canada.

_1304502958.unknown

_1304502963.unknown

_1304502965.unknown

_1304502967.unknown

_1304502968.unknown

_1304502966.unknown

_1304502964.unknown

_1304502960.unknown

_1304502961.unknown

_1304502959.unknown

_1304502953.unknown

_1304502956.unknown

_1304502957.unknown

_1304502954.unknown

_1304502951.unknown

_1304502952.unknown

_1304502949.unknown