LP09- CORELAŢII ŞI REGRESII - ileana.brudiu.roileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV...

11
Matematici aplicate științelor biologie Lab09 MV 2019 1 LP09- CORELAŢII ŞI REGRESII Considerații teoretice Legăturile care există între două variabile statistice pot fi studiate folosind două tehnici: CORELAȚIA și REGRESIA. CORELAȚIA arată cât de puternică este legătura REGRESIA ajută în explicarea și previzionarea unui factor pe baza valorii altuia (altora). Prin intermediul regresiei se pot face predicții ale unei variabile, în funcție de valoarea alteia. CORELAȚIA Este un termen general folosit pentru a defini interdependenţa sau legătura dintre variabilele observate în populaţii statistice Coeficientul de corelație Coeficientul de corelație este o valoare cantitativă ce descrie relația dintre două sau mai multe variabile. El variază între (-1 si +1), unde valorile extreme presupun o relație perfectă între variabile în timp ce 0 înseamna o lipsa totală de relație liniară. Pentru datele de tip cantitativ continuu, normal distribuite, coeficientul de corelațiedr numește Pearson (r) Pntru datele nominale ordonate sau date de tip cantitativ continuu care nu sunt normal distribuite, coeficientul de corelație se numește Spearman. Coeficientul de determinare r 2 Măsoară proporția din variația uneia dintre variabile ce poate fi atribuită (sau explicată) de variația celeilalte variabile. Coeficientul de determinare arată procentual cât la sută din variația unei variabile e explicată de variația celeilalte variabile Ex. r 2 =0,89 – 89% din variația lui y este explicată de variația lui x REGRESIA Regresia statistica este folosita pentru modelarea legaturilor statistice dintre variabile. Prin regresia statistica se modeleaza legaturile statistice dintre una sau mai multe variabile endogene (denumite și variabile prezise, explicate sau dependente, și notate uzual cu Y) și una sau mai multe variabile exogene (denumite și variabile predictoare, explicative sau independente, și notate uzual cu X). Modelele construite cu o singura variabilă explicate sunt modele de regresie univariata, iar modelele construite cu mai multe variabile explicate sunt modele de regresie multivariata. Modelele de regresie univariata pot fi, la randul lor, modele de regresie simpla, construite pentru o singură variabilă explicativă, și modele de regresie multiplă, care implică mai multe variabile explicative în relație cu variabila explicată considerată. Modelele construite prin regresie pot fi folosite apoi la realizarea de predictii statistice. Pentru regresia statistică sunt disponibile modele liniare, construite pe baza unor ecuații sau funcții matematice liniare, și modele neliniare, construite pe baza unor ecuații sau funcții matematice neliniare. Regresia liniara (simplă) Legătura liniară dintre cele două variabile este descrisă de o ecuație liniară, ecuaţia de regresie (regression equation) căreia îi corespunde geometric dreapta de regresie (regression line). Dreapta de regresie Y = a + b*X, unde a se numește interceptor iar b coeficient de regresie Dacă variabila dependentă este explicată de mai multe variabile independente (predictoare) regresia se

Transcript of LP09- CORELAŢII ŞI REGRESII - ileana.brudiu.roileana.brudiu.ro/MVR/LUCRARI PRACTICE/MV...

Matematici aplicate științelor biologie Lab09 MV 2019

1

LP09- CORELAŢII ŞI REGRESII

Considerații teoretice Legăturile care există între două variabile statistice pot fi studiate folosind două tehnici: CORELAȚIA și REGRESIA.

• CORELAȚIA arată cât de puternică este legătura • REGRESIA ajută în explicarea și previzionarea unui factor pe baza valorii altuia (altora). Prin

intermediul regresiei se pot face predicții ale unei variabile, în funcție de valoarea alteia. CORELAȚIA Este un termen general folosit pentru a defini interdependenţa sau legătura dintre variabilele observate în populaţii statistice

Coeficientul de corelație Coeficientul de corelație este o valoare cantitativă ce descrie relația dintre două sau mai multe variabile. El variază între (-1 si +1), unde valorile extreme presupun o relație perfectă între variabile în timp ce 0 înseamna o lipsa totală de relație liniară.

• Pentru datele de tip cantitativ continuu, normal distribuite, coeficientul de corelațiedr numește Pearson (r) • Pntru datele nominale ordonate sau date de tip cantitativ continuu care nu sunt normal distribuite, coeficientul de corelație se numește Spearman.

Coeficientul de determinare r

2 • Măsoară proporția din variația uneia dintre variabile ce poate fi atribuită (sau explicată) de variația

celeilalte variabile. • Coeficientul de determinare arată procentual cât la sută din variația unei variabile e explicată de

variația celeilalte variabile • Ex. r

2=0,89 – 89% din variația lui y este explicată de variația lui x

REGRESIA

Regresia statistica este folosita pentru modelarea legaturilor statistice dintre variabile. Prin regresia statistica se modeleaza legaturile statistice dintre una sau mai multe variabile endogene (denumite și variabile prezise, explicate sau dependente, și notate uzual cu Y) și una sau mai multe variabile exogene (denumite și variabile predictoare, explicative sau independente, și notate uzual cu X). Modelele construite cu o singura variabilă explicate sunt modele de regresie univariata, iar modelele construite cu mai multe variabile explicate sunt modele de regresie multivariata. Modelele de regresie univariata pot fi, la randul lor, modele de regresie simpla, construite pentru o singură variabilă explicativă, și modele de regresie multiplă, care implică mai multe variabile explicative în relație cu variabila explicată considerată. Modelele construite prin regresie pot fi folosite apoi la realizarea de predictii statistice. Pentru regresia statistică sunt disponibile modele liniare, construite pe baza unor ecuații sau funcții matematice liniare, și modele neliniare, construite pe baza unor ecuații sau funcții matematice neliniare.

Regresia liniara (simplă) • Legătura liniară dintre cele două variabile este descrisă de o ecuație liniară, ecuaţia de regresie

(regression equation) căreia îi corespunde geometric dreapta de regresie (regression line). Dreapta de regresie

Y = a + b*X, unde a se numește interceptor iar b coeficient de regresie

Dacă variabila dependentă este explicată de mai multe variabile independente (predictoare) regresia se

Matematici aplicate științelor biologie Lab09 MV 2019

2

numește multiplă. Regresia liniara multipla Ecuația de regresie multiplă:

Y = a + b1 X1 + b2 X2 +…+ bk Xk, unde Y reprezintă variabila dependenta iar variabilele X1,…, Xk sunt variabilele explicative, predictoare. Constantele b1,…, bk reprezintă coeficienții de regresie, iar a este constanta de regresie sau interceptorul.

Obiective: - Calculul Coeficientul de corelaţie Pearson - Interpretarea coeficientului de corelație - Graficul de corelaţie (XY Scatter) - Regresia liniară - Determinarea coeficienților dreptei de regresie - Trasarea dreptei de regresie

Problema 1. Se realizează un studiu pe un lot format din 100 de pacienţi. Se culeg date despre următorii parametri biomedicali: vârsta (ani), greutate (kg), înălţime (cm), IMC(kg/m ), tensiunea arterială

sistolică (TAS) (mmHg), tensiunea arterială diastolică (TAD) (mmHg), glicemia (mg/dL), colesterol (mg/dL). Datele sunt prezentate în fişierul Tabel LP09. Salvaţi fişierul în folderul dvs. şi realizaţi următoarele prelucrări statistice în acest fişier.

a. Calculaţi coeficientul de corelaţie Pearson dintre Varsta şi Greutate cu ajutorul funcţiei CORREL. b. Calculaţi indicele de masă corporală EVIC după formula

c. Calculaţi coeficientul de corelaţie Pearson dintre IMC şi TAS cu ajutorul pachetului Data Analysis -

Correlation. d. Calculaţi matricea de corelaţii a variabilelor: Varsta, Greutate, Inaltime, IMC, TAS, TAD cu ajutorul

Data Analysis - Correlation

vârstă (ani)

greutate (kg)

inalțime (cm)

TAS (mmHg)

TAD (mmHg)

glucose (mg/dL)

colesterol (mg/dL)

IMC

vârstă (ani) 1,000 greutate (kg) 0,267 1,000

inalțime (cm) -0,403 0,477 1,000 TAS (mmHg) 0,527 0,487 0,163 1,000

TAD (mmHg) 0,413 0,116 -0,112 0,747 1,000 glucose (mg/dL) 0,335 0,457 0,220 0,692 0,417 1,000

colesterol (mg/dL) 0,420 0,485 0,122 0,214 -0,206 0,107 1,000 IMC 0,552 0,847 -0,054 0,440 0,197 0,354 0,478 1,000

e. Completaţi interpretarea Coeficientului de corelaţie pe coloana corelaţie conform regulilor lui Colton:

Reguli empirice privind interpretarea coeficientului de corelaţie Colton: 1. un coeficient de corelaţie de la -0,25 la 0,25 indică o corelaţie slabă sau nulă, 2. un coeficient de corelaţie de la 0,25 la 0,50 (sau de la -0,25 la -0,50) indică un grad de asociere acceptabil 3. un coeficient de corelaţie de la 0,5 la 0,75 (sau de la -0,5 la -0,75) indică o corelaţie moderată spre bună

Matematici aplicate științelor biologie Lab09 MV 2019

3

4. un coeficient de corelaţie mai mare decât 0,75 (sau mai mic decât -0,75) indică o foarte bună asociere sau corelaţie

Coeficientul de corelatie Pearson

Corelatie

VARSTA GREUTATE 0,266566858 slabă

VARSTA IMC 0,552 acceptabila

VARSTA Inaltime -0,403 acceptabila

VARSTA IMC

VARSTA TAS

VARSTA TAD

GREUTATE IMC

GREUTATE Inaltime

GREUTATE IMC

GREUTATE TAS

GREUTATE TAD

Inaltime IMC

Inaltime TAS

Inaltime TAD

IMC TAS

IMC TAD

TAS TAD

f. Reprezentaţi grafic dependenţa (corelaţia) dintre Vârstă şi IMC, adăugaţi pe grafic dreapta de regresie asociată, calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie.

g. Calculaţi coeficientul de determinare prin metoda grafică pentru Varsta şi TAS. h. Calculaţi coeficienţii dreptei de regresie dintre Varsta şi Glicemie prin metoda grafică. i. Interpretaţi graficele, dreapta de regresie şi coeficientul de determinare. j. Determinaţi coeficienţii dreptei de regresie liniară pentru variabila dependentă Glicemie şi variabila

independentă Greutate cu Regression din Data Analysis.

Instrucţiuni

a. Calcularea coeficientului de corelaţie Pearson dintre două variabile cantitative cu ajutorul funcţiei CORREL:

Coeficientul de corelaţie Pearson este un indice numeric ce dă o măsură a relaţiei dintre două variabile cantitative continue sau discrete (!!! Nu se calculează pentru altfel de variabile). Copiaţi Vârsta şi Greutatea în Sheet 2. Introduceţi în Sheet 2 următorul tablel:

Selectaţi celula unde vom calcula coeficientul de corelaţie. Meniul Formulas - Butonul Insert Function - Selectaţi funcţia CORREL

Array1 - domeniul variabilei Varsta Array2 - domeniul variabilei Greutate Apăsaţi OK

Matematici aplicate științelor biologie Lab09 MV 2019

4

Interpretarea rezultatului: r=-0,3347 indică o corelaţie acceptabilă între Varstă şi Greutate.

Semnificatia coeficientului de corelație. Se calculează t după formula: Tcalculat=6,131451 Calculam probabilitatea cu funcția TDIST(6,131451;298;2), vom obține P=2,76E-09 P mai mic decât 5% - coeficientul de corelaţie este semnificativ la un prag de semnificaţie mai mic de 0,05

c. Calcularea coeficientului de corelaţie Pearson dintre două variabile cantitative cu ajutorul pachetului Data Analysis Corelations

Copiaţi IMC în Sheet 3 în coloana A Copiaţi TAS în Sheet 3 în coloana B Apelați Data Analysis: Meniul Data Butonul Data Analysis Selectaţi Correlation. Apoi Ok. Input Range: selectaţi domeniul unde se găsesc valorile variabilelor IMC şi TAS: A1:B31 Selectaţi Labels in first row. Selectaţi Output Range În rubrica de lângă selectaţi celula D2.

IMC TAS (mmHg)

IMC 1 SBP (mmHg) 0,439810068 1

Rezultatul: Corelaţia dintre IMC şi TAS este 0,439 , valoare care corespunde unei corelaţii acceptabile. Valorile 1 obţinute corespund corelaţiilor dintre IMC cu IMC şi respectiv TAS cu TAS, corelaţii perfecte.

d. Realizarea matricei de corelaţii pentru 3 sau mai multe variabile Copiaţi variabilele în Sheet 4. Atenţie: IMC se va copia folosind optiunea Paste Options - Values sau Paste Special.

Matematici aplicate științelor biologie Lab09 MV 2019

5

Repetaţi paşii de la punctul anterior. Input Range: selectaţi domeniul unde se găsesc valorile variabilelor Selectaţi Labels in first row. Selectaţi Output Range În zona de editare de lângă această etichetă selectaţi o celula din foia de calcul unde vor apărea rezultatele. Rezultatul:

vârstă (ani)

greutate (kg)

înălțime (cm)

TAS (mmHg)

TAD (mmHg)

glucose (mg/dL)

colesterol (mg/dL) IMC

vârstă (ani) 1

greutate (kg) 0,27 1

înălțime (cm) -0,40 0,48 1

TAS (mmHg) 0,53 0,49 0,16 1

TAD (mmHg) 0,41 0,12 -0,11 0,75 1

glucose (mg/dL) 0,33 0,46 0,22 0,69 0,42 1

colesterol (mg/dL) 0,42 0,49 0,12 0,21 -0,21 0,11 1

IMC 0,55 0,85 -0,05 0,44 0,20 0,35 0,48 1

Aranjaţi tabelul cu coeficienţii de corelaţie în formatul cerut în cerinţe.

e. Realizaţi un grafic XY Scatter (nor de puncte ) (instrucţiuni în Laborator 4) cu variabilele cerute.

Graficul trebuie să aibă un titlu adecvat, titluri pe cele două axe, dreapta de regresie, ecuaţia dreptei de regresie şi coeficientul de determinare, ştergeţi legenda. Executaţi fiecare graficul pe o pagină nouă. Se selectează cele 2 coloane ce conțin valorile pentru variabilele cerute (dacă variabilele nu se găsesc în coloane adiacente folosiți tasta Ctrl) și le copiați în alt Sheet sau alăturat în sheetul unde se găsește tabelul. Pentru cele 2 variabile apelați opținea Insert - Charts și apoi selectați tipul de grafic Scatter. Graficul obținut este reprezentat astfel: y=f(X), unde x este prima colană iar y a doua coloană selectată. Pentru a reprezenta corect graficul precizați pe axe ce reprezintă ele. Pentru acesta folosiți unelte oferite de excel (add char element –din meniul DESIGN ex: Axes, axis title, chart title, etc. Pentru a reprezenta pe grafic dreapta de regresie, coeficientul de determinare apelați opțiunea Add tredline. Este posibil dacă utilizați versiuni mai vechi ale excel (ex: excel 2003 sau 2007), opțiunile prezentate mai sus să se găsească în alte meniuri

f. Interpretaţi graficele, dreapta de regresie şi coeficientul de determinare conform:

Matematici aplicate științelor biologie Lab09 MV 2019

6

Coeficientul de determinare este pătratul coeficientului de corelaţie r, adică d = r2.

Valoarea coeficientului de determinare exprimă o intensitate a relaţiei liniare între cele două variabile sau răspunde la întrebarea: cât la sută din variaţia lui Y se poate explica prin relaţia liniară cu X. Diagrama de dispersie (Norul de puncte) In acest sens, o idee ceva mai precisă privind relaţia între cele două caracteristici se obţine împărţind diagrama de dispersie în patru cadrane prin două drepte perpendiculare care trec prin punctul (X,Y ), având coordonatele egale cu mediile celor două variabile.

Dacă există o relaţie liniară între cele două variabile atunci punctele diagramei se vor repartiza preferenţial în anumite cadrane (II şi IV sau I şi III). Dacă punctele sunt repartizate în cadranele I şi III, atunci diagrama de dispersie are o tendinţă crescătoare (dreapta de regresie va avea un trend ascendent). Dacă punctele sunt repartizate în cadranele II şi IV, atunci diagrama de dispersie are o tendinţă descrescătoare (dreapta de regresie va avea un trend descendent). Dacă punctele sunt repartizate în toate cele patru cadrane în mod egal, atunci diagrama de dispersie ne indică o corelaţie nulă. Exemplu de interpretare:

Punctele diagramei sunt repartizate preferenţial în cadranele I şi III. Dependenţa dintre TAS şi Vârstă este pozitivă: o creştere a Vârstei implică o creştere a TAS. Dreapta de regresie are un trend ascendent. Diagrama de dispersie indică o tendinţă crescătoare. 27% din variaţia TAS se datorează vârstei

y = 0,7544x + 93,1 R² = 0,2778 60

110

160

210

20 40 60 80

TAS

Vârstă

Corelația dintre vârstă și TAS

Matematici aplicate științelor biologie Lab09 MV 2019

7

g. Determinarea dreaptei de regresie liniară cu Regression din Data Analysis:

Reveniţi pe pagina unde ati copiat Varsta si TAS

- Meniul Data - Butonul Data Analysis - Selectaţi Regression

Input Y Range: Selectaţi domeniul valorilor variabilei TAS ca variabilă dependentă Input X Range: Selectaţi variabila Vârstă ca variabilă independentă bifaţi Labels Bifaţi opţiunea Confidence Level pentru obţinerea intervalelor de încredere (cu nivelul de semnificaţie de 95%)

Rezultatele:

Regression Statistics

Multiple R 0,5271

R Square 0,2778

Adjusted R Square 0,2705

Standard Error 16,087

Observations 100

ANOVA

df SS MS F Significance

F Regression 1 9756,7 9756,714 38 1,76E-08 Residual 98 25362 258,7963

Total 99 35119

Coefficient

s Standard Error t Stat

P-value Lower 95%

Upper 95%

Lower 95,0%

Upper 95,0%

Intercept 93,1 5,2446 17,75174 0 82,69263 103,508 82,69263 103,508

age (ani) 0,7544 0,1229 6,140062 0 0,510551 0,99817 0,510551 0,99817

R Square = 0,277 este coeficientul de determinare multiplu R2 reprezintă proporţia variaţiei lui Y explicată de relaţia liniară cu X. In cazul nostru R2 = r2 = 0,277, deci 27% din variaţia TAS se poate explica prin relaţia liniară cu Vârsta.

Multiple R = 0,527 este coeficientul de corelaţie Pearson.

coeficientul de determinare corectat

16,087 este eroarea standard estimată şi este interpretată ca media erorii în predicţia lui Y cu ecuaţia de regresie. In cazul nostru eroarea standard este în medie 16,08 şi reprezintă media erorii predicţiei TAS cu ecuaţia de regresie.

Numărul total de subiecţi intraţi în studiu, în cazul

nostru 100

Matematici aplicate științelor biologie Lab09 MV 2019

8

Interpretare (cu italic interpretările, iar cu regular explicaţiile):

Anova - analiza de regresie include şi un test cu ipoteza nulă: panta dreptei este egala cu 0 (adică nu există corelaţie între variabila dependentă şi cea independentă luate în studiu). Dacă panta este semnificativ diferită de 0 (acest lucru se întamplă dacă la Significance F avem o valoare p<0,05) tragem concuzia că există o relaţie liniară între X şi Y. In cazul nostru p este mai mic decat 0,05, deci panta dreptei de regresie este semnificativ diferită de 0, deci există corelaţie semnificativă între TAS şi Vârstă.

Regression - variaţia lui Y care se explică în funcţie de X

Residual - variaţia lui Y care nu se explică în funcţie de X (valoarea reziduală este de preferat să fie cât mai mică)

Total - este variaţia totală, adică suma variaţiei regresiei cu variaţia reziduală

df - gradele de libertate.

SS - suma de pătrate.

MS - media sumei de pătrate MS=SS/df

F este parametrul testului F = MS(regression)/MS(residual).

Significance F = 1,76E-08 în acest caz se respinge ipoteza nulă (p-value<0,05), adică corelaţia dintre cele două variabile este semnificativă.

Coefficients - pentru Intercept (constanta) valoarea este 93,1, iar pentru coeficientul a (panta) valoarea este

0,7544. Deci dreapta de regresie Y=aX+b în cazul nostru este : y = 0,7544x + 93,1

Intercept - constanta

T stat este un test statistic cu ipoteza nulă: constanta (intercept) nu este diferită semnificativ de zero.

P-value este rezultatul testului. Dacă p-value<0,05, atunci se refuză ipoteza nulă şi se acceptă ipoteza alternativă constanta este semnificativ diferită de zero.

Lower 95% şi Upper 95% formează un interval de confidenţă de 95% în jurul constantei.

Varsta (X) Panta dreptei de regresie (coeficientul a) este 0,7544.

Matematici aplicate științelor biologie Lab09 MV 2019

9

Problema 2. Pentru a se studia hipercolesterolemia au fost luate în studiu două eşantioane: 187 de pacienţi (lot 1)

şi 255 de indemni de boală (lot 2). Pentru aceşti subiecţi au fost înregistraţi următorii parametri biologici: Varstă, Greutate, înălţime, Colesterol, Trigliceride, HDL colesterol, Glicemie. Datele se găsesc în fişierul Tabele problem propuse LP12. Realizaţi:

1. Sortaţi crescător datele cu cheia de sortare LOT (meniul Data - Sort, alegeţi LOT). 2. Calculaţi IMC (indice de masă corporală) cu formula:

)(

)(2 minănălţim

kggreutateaIMC

3. Calculaţi indicatorii de centralitate (media aritmetică, mediana), indicatorii de localizare (quartilele),

indicatorii de dispersie (amplitudinea, variaţia, abaterea standard, coeficientul de variaţie, boltirea şi asimetria) pentru Varstă, IMC, Colesterol, TG, Glicemie şi HDL separat la lotul 1 şi la lotul 2.

4. Pentru lotul de bolnavi (LOT=1) pentru variabilele cantitative calculaţi matricea de corelaţie. 5. Pentru lotul de bolnavi (LOT=2) calculaţi coeficientul de corelaţie Pearson r

pentru: - TG şi IMC, - Glicemie şi IMC, - TG şi HDL, - IMC şi Colesterol (utilizaţi funcţia CORREL).

Interpretaţi statistic rezultatele. 6. Reprezentaţi grafic corelaţiile, realizaţi dreapta de regresie asociată, calculaţi coeficientul de

determinare d şi ecuaţia dreptei de regresie pentru parametrii între care există corelaţie bună şi foarte bună (r obţinut la iii) şi iv) peste >0,5 sau sub <-0,5).

7. Determinaţi dreapta de regresie liniară pentru variabila dependentă TG şi variabila independentă IMC cu Regression din Data Analysis numai pentru pacienţii din LOT=1.

Problema 3.

Datele din tabelul de mai jos reprezintă presiunea medie şi umezeala medie relativă în cele 31 de zile ale lunii ianuarie 2015 întro locaţie din judeţul Timiş.

a. Stabiliţi ecuaţia de regresie ce descrie relaţia dintre cele două caracteristici urmărite (umezeala med. relativa=f(presiune medie.) (panta şi ordonata la origine a dreptei)

b. Reprezentaţi în acelaşi sistem de coordonate diagrama de imprăştiere umezeala med. relativ=f(presiune medie) şi dreapta descrisă de ecuaţia de regresie de la pct. a

Presiune medie

Umez.med relativa

1015,9 86

1014,1 78

1015,6 81

1010,2 82

1007,9 84

1010,5 79

1010,5 84

1016,2 79

1024,0 77

1021,7 81

1027,1 85

1027,2 88

1018,1 88

1005,8 77

1008,0 90

1012,1 91

1015,4 84

1009,4 82

1001,4 78

997,6 71

996,7 77

995,6 81

986,6 91

980,0 89

985,3 88

992,8 87

995,8 84

992,8 90

998,3 92

1005,8 84

1005,9 76

Matematici aplicate științelor biologie Lab09 MV 2019

10

Problema 4. Datele din tabelul de mai jos reprezintă temperatura medie în aer şi umezeala medie relativă în cele 31 de zile ale lunii ianuarie 2009 întro locaţie din judeţul Timiş.

1. Stabiliţi ecuaţia de regresie ce descrie relaţia dintre cele două caracteristici urmărite (Temp. Aer medie=f(umezeala med. relativă.) (panta şi ordonata la origine a dreptei)

2. Reprezentaţi în acelaşi sistem de coordonate diagrama de imprăştiere Temp. Aer medie= f(umezeala med. relativă) şi dreapta descrisă de ecuaţia de regresie de la pct. 1

Problema 5. Datele din tabelul de mai jos reprezintă temperatura medie în aer şi numărul de căpuşe pe unitatea de suprafaţa măsurate într-o locaţie din judeţul Timiş.

Temp. aer medie Umez.med relativa Temp. aer medie Umez.med relativa

-6,2 86 3,6 78

-5,9 78 6,5 71

-6,3 81 6,4 77

-9,6 82 9 81

-6,2 84 5,9 91

-6,5 79 4,5 89

-8,2 84 3,6 88

-0,3 90 4,4 87

-4,9 79 5,1 84

-7,3 77 6,1 90

-8,7 81 2,8 92

-7,7 85 2,2 84

-6,9 88 -2,6 84

-6,3 88 -1,9 82

1,2 77 -0,4 91

luna Ziua T Med Nr capuse luna Ziua T Med Nr capuse

1 12 6 32 6 7 20,4 2632

1 18 9 46 6 14 20,9 2851

1 25 4,5 73 6 21 24,8 3754

2 1 4,4 42 6 28 18 4173

2 8 10,7 61 7 5 16,4 4337

2 15 5,7 126 7 12 14,8 3575

2 22 10,2 84 7 19 27,3 4033

3 1 9,7 113 7 26 20,8 5106

3 8 10,2 168 8 2 20 5448

3 15 8,1 147 8 9 23,5 5613

3 22 6,8 182 8 16 22,9 4531

3 29 8,7 215 8 23 26,8 5874

4 5 8,6 238 8 30 23,1 6147

4 12 11,6 324 9 6 9,9 4648

4 19 9,5 375 9 13 13,4 1821

4 26 12,7 433 9 20 11 1617

5 3 12,1 612 9 27 17,3 1744

5 10 14,1 869 10 4 15 2136

5 17 14,8 1105 10 11 11,9 1589

Matematici aplicate științelor biologie Lab09 MV 2019

11

1. Care este ponderea zilelor cu temperaturi mai mari de 20C din numarul total de zile în care s-au făcut observaţii

2. Să se calculeze coeficientul de corelaţie dintre cei doi indicatori (nunmăr de căpuşe şi T med) 3. Interpretaţi rezultatul obţinut la punctul 2. 4. Stabiliţi ecuaţia de regresie ce descrie relaţia dintre cele două caracteristici urmărite (Număr de

căpuşe=f(Tmed.) (panta şi ordonata la origine a dreptei) 5. Reprezentaţi în acelaşi sistem de coordonate diagrama de imprăştiere Număr de căpuşe=f(Tmed) şi

dreapta descrisă de ecuaţia de regresie de la pct. 4

5 24 19,5 1477 10 18 9,7 871

5 31 13,5 2248 10 25 7,3 375