Download - IA Laborator12

Transcript
  • Laboratorul 1 Invatare Automata Generarea setului de date de antrenament

    Generarea setului de date de antrenament

    Generalitii Pentru o mai buna analiza a rezultatelor algoritmilor de nvare care vor fi dezvoltai datele de antrenament (test) vor reprezenta o mulime de puncte care s poat fi reprezentat grafic ntr-un spaiu bidimensional. Astfel fiecare dat de intrare va avea dou caracteristici: coordonata pe x respectiv coordonata pe y a punctului astfel nct acel punct s fie afiabil pe ecran. Se va propune un algoritm care pe baza funciei lui Gauss va genera aleator aceste puncte.

    Probabilitatea Gaussean Probabilitatea Gaussean reprezint probabilitatea ca un punct s se gseasc n intervalul [m-, m+ ], unde m este mijlocul intervalului (curbei), iar reprezint dipersia datelor(probabilitatea ca punctul respectiv s se gseasc sub clopotul lui Gauss) Funcia lui Gauss:

    2

    2

    2)(

    )( xm

    exGauss=

    m m- m+

    Algoritmul de generare a unei coordonate aleatoare Acest algoritm se va rula independent pentru fiecare caracteristic a datei de antrenament (coordonata pe x i pe y). Parametrii m i se specific pentru fiecare grupare de date n parte. Valorile pentru x i y vor fi reprezentate n coordonate carteziene nu coordonate ecran.

    1. Se alege aleator o valoare n domeniul de coordonate pentru coordonata pe x; 2. Se calculeaz probabilitatea dac valoarea aleas aleator este sau nu apropiat de centru m

    (folosind funcia lui Gauss); 3. Se genereaz aleator o probabilitate n domeniul [0,1];

    1 of 2

  • Laboratorul 1 Invatare Automata Generarea setului de date de antrenament

    2 of 2

    4. Se verific dac probabilitatea calculat pentru coordonata punctului nostru este mai mare dect probabilitatea aleas aleator;

    a. Dac da punctul ales aleator se ia in considerare i se trece la pasul 5; b. Dac nu se trece din nou la pasul 1;

    5. Se reia algoritmul pentru coordonata y, dup care la pasul 4.a algoritmul se termina pentru o dat de intrare (un punct).

    Pentru o medie m i o dispersie dat algoritmul va genera aleator un numr de puncte n jurul lui m. Problem. S se realizeze un program care scrie ntr-un fiier pe fiecare linie caracteristicile unui punct (dat de intrare). Se vor genera puncte pentru trei centre i dispersii diferite. La final n fiier vor fi 3000 de linii (se va genera aproximativ 1000 de puncte pentru fiecare centru). Liniile cu caracteristicile pentru un centru i o dispersie nu vor fi consecutive (pe ct posibil). Observaie:

    Se va considera centrul ecranului ca fiind centru axelor de coordonate (0,0), iar media i punctele vor fi n coordonate carteziene (nu coordonate ecran).

    Generarea setului de date de antrenamentGeneralitiiProbabilitatea GausseanAlgoritmul de generare a unei coordonate aleatoare