1. Colectarea Şi Aranjarea Datelor. Masuri Ale Tendintei

15
Colectarea şi aranjarea datelor Statistica este o disciplină ştiinţifică şi tehnică ce permite colectarea, aranjarea, sistematizarea, prezentarea şi prelucrarea unor date, prelucrare în baza căreia se pot trage concluzii şi lua decizii raţionale. 1. Colectarea datelor Datele brute, care sunt colectate, sunt mărginite numeric şi sunt denumite date de experiment sau observaţii. Acestea aparţin unor mulţimi de date sau populaţii care pot fi finite sau infinite. Metodele statistice permit, ca prin examinarea unui set de date dintro mulţime, să se tragă concluzii asupra întregii mulţimi de date. 2. Rangul datelor colectate Datele brute sunt datele colectate care nu sunt organizate numeric. Aranjarea datelor constă în dispunerea lor întro ordine numerică crescătoare sau descrescătoare formându-se aşa numita serie de date sau şir de date. Diferenţa dintre numărul cel mai mare şi numărul cel mai mic al şirului de date aranjate se numeşte rangul datelor. Cu cât datele sunt mai grupate cu atât rangul este mai mic; cu cât datele sunt mai răspândite, cu atât rangul lor este mai mare. Viteze măsurate la 100m Timpul (sec) Banda 2 Banda 3 9..10 5 10 10..11 4 7 11..12 2 11 12..14 11 8 14..18 10 10 18..24 16 0 24..30 3 2 30..36 4 2 NR TOTAL 55 50

description

Inginerie de trafic

Transcript of 1. Colectarea Şi Aranjarea Datelor. Masuri Ale Tendintei

  • Colectarea i aranjarea datelor

    Statistica este o disciplin tiinific i tehnic ce permite colectarea, aranjarea,

    sistematizarea, prezentarea i prelucrarea unor date, prelucrare n baza creia se pot trage

    concluzii i lua decizii raionale.

    1. Colectarea datelor Datele brute, care sunt colectate, sunt mrginite numeric i sunt denumite date de

    experiment sau observaii. Acestea aparin unor mulimi de date sau populaii care pot fi

    finite sau infinite. Metodele statistice permit, ca prin examinarea unui set de date dintro

    mulime, s se trag concluzii asupra ntregii mulimi de date.

    2. Rangul datelor colectate Datele brute sunt datele colectate care nu sunt organizate numeric. Aranjarea

    datelor const n dispunerea lor ntro ordine numeric cresctoare sau descresctoare

    formndu-se aa numita serie de date sau ir de date. Diferena dintre numrul cel mai

    mare i numrul cel mai mic al irului de date aranjate se numete rangul datelor. Cu

    ct datele sunt mai grupate cu att rangul este mai mic; cu ct datele sunt mai rspndite,

    cu att rangul lor este mai mare.

    Viteze msurate la 100m Timpul (sec) Banda 2 Banda 3

    9..10 5 10 10..11 4 7 11..12 2 11 12..14 11 8 14..18 10 10 18..24 16 0 24..30 3 2 30..36 4 2

    NR TOTAL 55 50

  • Viteze msurate la 100m Viteza (km/h) Banda 2 Banda 3

    36..40 5 10 32,73..36 4 7 30..32,73 2 11 25,71..30 11 8 20..25,71 10 10

    15..20 16 0 12..15 3 2 10..12 4 2

    NR TOTAL 55 50

    3. Frecvene ale distribuiilor

    3.1. Clase sau categorii de date

    Cnd numrul de date colectate este mai mare, acestea se mpart n clase sau

    categorii i se determin numrul de date ce aparin fiecrei clase.

    Dup ce datele brute se dispun ntrun ir de date aranjate, se afl rangul datelor.

    Acesta va fi diferena ntre viteza maxim i cea minim, exprimat n km/h.

    Exemplu: viteza minim este de 10 km/h, iar cea maxim de 40 km/h

    Rangul datelor = 40-10 = 30

    Clasele de date se afl mprind ragul datelor la un numr ntreg (cel puin 5).

    Rang / 5 = 6 clase de date (5 este intervalul unei clase de date)

    3.2. Frecvene

    Un astfel de aranjament al datelor pe clase numerice, cu frecvena lor, se numete

    frecven a distribuiilor sau tabel al frecvenelor.

    Datele organizate i adunate ntrun tabel al frecvenelor se numesc date grupate.

    Clase de date Frecvene numerice Viteza(km/h) Banda 2 Banda 3

    10..15 7 4 15..20 16 0 20..25 11 8 25..30 10 10 30..35 5 17 35..40 6 11

    NR TOTAL 55 50

  • 3.3. Intervalele i limitele claselor.

    Pentru a grupa n mod corespunztor datele n clase numerice, se va considera

    interval deschis la limita superioar a clasei i interval nchis la cea inferioar.

    3.4. Marca claselor

    Marca clasei este numrul de la mijlocul intervalului clasei i se obine ca medie a

    celor dou limite ale clasei (se adun limita inferioar cu cea superioar i se mparte

    la 2). Pentru scopurile analizei matematice a datelor, toate datele aparinnd unei

    clase se presupun c coincid cu marca clasei respective.

    Exemplu: Marca clasei 10..15 este: 5.122

    1510=

    +

    Marca clasei Frecvene numerice Banda 2 Banda 3

    12.5 7 4 17.5 16 0 22.5 11 8 27.5 10 10 32.5 5 17 37.5 6 11

    NR TOTAL 55 50

    3.5. Reguli generale pentru determinarea distribuiilor frecvenelor

    3.5.1. Se determin randul datelor

    3.5.2. Se mparte rangul ntrun numr convenabil de intervale, avnd aceeai

    lungime (acelai pas). Numrul de intervale se ia ntre 5 i 20; astfel nct s

    se ndeplineasc dou condiii:

    Ct mai multe date observate s coincid cu marca clasei (mijlocul

    intervalului),

    Nici o dat brut s nu coincid cu limitele claselor

    3.5.3. Se determin numrul de date care aparin fiecrui interval

  • 3.6. Histograme i poligoane ale frecvenelor

    Histograma frecvenelor const ntrun set de dreptunghiuri cu

    Bazele pe axa orizontal, cu mijlocul n marca clasei i de lungime egal

    cu lungimea intervalului,

    Ariile proporionale cu frecvenele claselor (nalimea dreptunghiurilor

    reprezint frecvena clasei respective, numrul de vehicule care circul

    cu aceeasi vitez).

    Histograma frecventelor

    02468

    1012141618

    10..15 15..20 20..25 25..30 30..35 35..40

    Clasa de viteze

    Frec

    vent

    a nu

    mer

    ica

    Banda 2

    Histograma frecventelor

    02468

    1012141618

    10..15 15..20 20..25 25..30 30..35 35..40

    Clasa de viteze

    Frec

    vent

    a nu

    mer

    ica

    Banda 3

  • Poligonul frecvenelor este o linie frnt, cu punctele de frngere situate pe

    verticalele mrcilor claselor, care se obine prin unirea laturilor de sus ale

    dreptunghiurilor din histograma frecvenelor.

    Pe baza histogramei frecvenelor se poate stabili numrul de cazuri (procentul din

    totalul de cazuri) cuprinse ntre anumite valori care intereseaz.

    Poligonul frecventelor

    02468

    1012141618

    12.5 17.5 22.5 27.5 32.5 37.5

    Clasa de viteze

    Frec

    vent

    a nu

    mer

    ica

    Banda 2

    Poligonul frecventelor

    02468

    1012141618

    12.5 17.5 22.5 27.5 32.5 37.5

    Clasa de viteze

    Frec

    vent

    a nu

    mer

    ica

    Banda 3

  • BANDA 2

    02468

    1012141618

    12.5 17.5 22.5 27.5 32.5 37.5

    Clase de viteze

    Frec

    vent

    e nu

    mer

    ice

    Histograma frecventelorPoligonul frecventelor

    BANDA 3

    02468

    1012141618

    12.5 17.5 22.5 27.5 32.5 37.5

    Clase de viteze

    Frec

    vent

    e nu

    mer

    ice

    Histograma frecventelorPoligonul frecventelor

    3.7. Distribuii ale frecvenelor relative

    n locul frecvenelor numerice, absolute, se folosesc frecvenele relative. Acestea

    reprezint raportul dintre frecvena numeric a clasei i numrul total de cazuri (se

    exprim procentual).

  • Exemplu de calcul: pentru banda 2, numrul total de vehicule nregistrate este de

    55, iar numarul de vehicule din clasa 10..15 este de 7. Frecvena relativ pentru

    aceast clas este (%)100557

    =

    Marca clasei Frecvene relative Banda 2 Banda 3

    12.5 12.73% 8.00% 17.5 29.09% 0.00% 22.5 20.00% 16.00% 27.5 18.18% 20.00% 32.5 9.09% 34.00% 37.5 10.91% 22.00%

    100.00% 100.00%

    Reprezentarea grafic a frecvenelor relative are aceeai form ca i poligonul

    frecvenelor, numai c, n ordonat, n loc de frecvenele numerice, se vor raporta

    frecvenele relative.

    Poligonul frecventelor relative

    0.00%

    5.00%

    10.00%

    15.00%

    20.00%

    25.00%

    30.00%

    35.00%

    12.5 17.5 22.5 27.5 32.5 37.5

    Clasa de viteze

    Frec

    vent

    e re

    lativ

    e

    Banda 2

  • Poligonul frecventelor relative

    0.00%5.00%

    10.00%15.00%

    20.00%25.00%

    30.00%35.00%

    40.00%

    12.5 17.5 22.5 27.5 32.5 37.5

    Clasa de viteze

    Frec

    vent

    e re

    lativ

    e

    Banda 3

    3.8. Distribuii ale frecvenelor cumulate

    Un alt mod de reprezentare a distribuiei frecvenelor este reprezentarea

    frecvenelor cumulate.

    Marca clasei Frecvene numerice cumulateFrecvene relative

    cumulate (%)

    Banda 2 Banda 3 Banda 2 Banda 3

  • Poligonul frecventelor numerice cumulate

    0

    10

    20

    30

    40

    50

    60

    10 15 20 25 30 35 40

    Clasa de viteze

    Frec

    vent

    e nu

    mer

    ice

    cum

    ulat

    e

    Banda 2Banda 3

    Poligonul frecventelor relative cumulate

    0.00%10.00%

    20.00%30.00%

    40.00%50.00%60.00%

    70.00%80.00%

    90.00%100.00%

    10 15 20 25 30 35 40

    Clasa de viteze

    Frec

    vent

    e nu

    mer

    ice

    cum

    ulat

    e

    Banda 2Banda 3

    3.9. Curbele de frecven

    Datele colectate pot fi considerate ca facnd parte dintro mulime de date. Cu ct

    numrul de date ale setului crete, cu att intervalele n care se claseaz frecvenele

  • se micoreaz i deci, crete numrul claselor, astfel nct poligonul frecvenelor este

    aproximat printr-o curb a frecvenelor.

    Tipuri de curbe ale frecvenelor:

    a) Simetric sau normal (curba lui Gauss)

    b) Simetrice mai ascuite (leptocurtice) sau mai aplatisate (platocurtice) n

    raport cu curba normal

    c) i d) moderat simetrice deplasate la stnga (oblicitate pozitiv) sau la

    dreapta (oblicitate negativ)

    e) i f) Sub form de J sau J invers

    g)Sub form de U

    h) bimodale (cu 2 maxime)

    i) multimodale (cu mai mult de 2 maxime).

    Msuri ale tendinei centrale i ale dispersiei 4. Tendina central

    Valorile medii, ce exprim tendina central a unui set de date, sunt denumite

    valori tipice sau reprezentative ale setului, deoarece astfel de valori medii tind s se

    gseasc n zona central a unui set de date aranjate n ordinea mrimilor.

    Pentru a msura tendina central a unui set de date se folosesc mai multe tipuri de

    valori cantitative: media aritmetic, mediana, modul, media geometric i media

    armonic.

    Marca clasei Frecvene numerice Banda 2 Banda 3

    12.5 7 4 17.5 16 0 22.5 11 8 27.5 10 10 32.5 5 17 37.5 6 11

    NR TOTAL 55 50

  • 4.1. Media aritmetic ( X )

    Se noteaz cu

    =f

    xfX

    )( unde: x este marca clasei de viteze

    f este frecvena numeric (nr. vehicule)

    23.23651011167

    5.3765.3255.27105.22115.17165.127=

    ++++++++++

    =X

    4.2. Mediana ( X~ )

    Se noteaz cu X~ i reprezint valoarea din mijlocul setului de date sau

    media aritmetic a dou valori din mijlocul setului de date (clasele de date).

    n cazul nostru (date grupate), mediana se calculeaz dup formula:

    cf

    ff

    LXmedian

    += 1

    1

    )(2~

    unde: 1L este limita inferioar a clasei care conine mediana

    f este suma frecvenelor numerice ale tuturor claselor de viteze ( )1 f este suma frecvenelor numerice ale tuturor claselor de viteze

    situate naintea clasei care conine mediana

    medianf este frecvena numeric a clasei de viteze ce conine mediana

    c este lungimea intervalului clasei care conine mediana

    Mediana este 252

    5.225.27=

    Mediana datelor grupate (banda 2) este

    75.21510

    )11167(2

    55

    25~ =++

    +=X

  • 4.3. Modul ( X )

    Modul unui set de numere este numrul care apare n setul de date cu

    frecvena cea mai mare (dintre clasele de date). Modul poate s nu existe

    (distribuie de valori unice) sau, dac exist, poate s nu fie unic.

    Pentru datele grupate modulul se calculeaz dup formula:

    cLX +

    +=

    21

    11

    unde: 1L este limita inferioar a clasei care conine modul

    1 este diferena dintre frecvena clasei care conine modul i frecvena

    clasei anterioare

    2 este diferena dintre frecvena clasei care conine modul i frecvena clasei urmtoare

    c este lungimea intervalului clasei care conine modul

    Modul este 17.5

    Pentru datele grupate (banda 2):

    245111671615 =

    +=X

    4.4. Media geometric (G ) ( ) = f fn

    ff nxxxG ...21 21

    Pentru banda 2:

    225.375.325.275.225.175.1255 651011167 ==G

    4.5. Media armonic ( H )

    =

    xf

    fH 1

    Pentru banda 2: 05.05.37

    65.32

    55.27

    105.22

    115.17

    165.12

    7551

    =

    +++++=H

  • 5. Dispersia

    Gradul n care datele numerice sunt rspndite n jurul unei valori medii se

    numete variaie sau dispersia datelor.

    Msuri ale dispersiei cel mai des folosite: rangul datelor, deviaia medie,

    abaterea standard i variana.

    5.1. Rangul datelor

    Este diferena dintre valoarea cea mai mare i valoarea cea mai mic

    aparinnd unui set de date. Cu ct rangul este mai mare, cu att dispersia datelor

    fa de valoarea central este mai mare i invers.

    5.2. Deviaia medie (abaterea medie) DM

    ( )

    =f

    XXfDM

    5.3. Abaterea standard s

    ( )[ ]

    =f

    XXfs

    2

    5.4. Variana 2s

    Variana unui set de date este ptratul abaterii standard.

  • 5.5. Dispersia absolut i dispersia relativ. Coeficient de variaie (V )

    Variana sau dispersia unor date exprimat prin abaterea standard sau alte

    msuri ale dispersiei se numete dispersie absolut.

    Dispersia relativ este raportul dintre dispersia absolut i valoarea medie i

    se numete coeficient de variaie.

    XsV =

    5.6. Variabila standardizat z

    Variabila care msoar deviaiile fa de medie n uniti ale abaterii

    standard, se numete variabil standardizat.

    sXXz =

    unde: X =o valoare din tabel (numrul de maini ce aparine unei clase

    oarecare de date).

    6. Momente centrate

    6.1. Momente centrate pentru date grupate rM

    ( )[ ]

    =f

    XXfM

    rj

    r ( 4,3,2=r )

    6.2. Oblicitatea

    sXXaOblicitate

    =

  • 6.3. Coeficientul de asimetrie

    33

    3 sMa =

    6.4. Gradul de aplatisare (turtire)

    44

    4 sMa = 34 =a curb normal

    34 >a curb laptocurtic

    34