Geostatistica - notiuni

GEOSTATISTICA Statistica spatiala studiaza populaţiile statistice cu dispunere a esantioanelor intr-unanumit spaţiu. Cand spaţiul de dispunere este spaţiul bidimensional sau tridimensionalterestru, disciplina de studiu se numeşte geostatistica.

INTERPOLAREA - este procedura de estimare a unei valori într-o locaţie fără măsurători, folosind valorile măsurate în punctele vecine. Implică găsirea unei funcţii f(x, y) ce reprezintă întreaga suprafaţă a valorilor z asociate cu puncte (x, y) dispuse neregulat. Această funcţie face o predicţie a valorilor z pentru alte poziţii dispuse regulat. O asemenea funcţie este cunoscută ca funcţie de interpolare.

Metodele exacte fac ca intr-un punct in care se dă o valoare Z, dacă se aplică şi aici interpolarea, se determină exact acea valoare Z. Cu alte cuvinte, analizind probabilistic, in acel punct ponderea este infinită, iar probabilitatea de determinare a cotei devine 1 (eveniment cert). De fapt, o metodă este exactă doar atunci cand se cunoaşte dinainte expresia funcţiei Z, dacă aceasta există. Chiar şi unele metode exacte pot folosi un factor de netezire, in acest caz metodele trecind de la o grupă la alta.

Interpolarea poate fi: - exactă (când modelul obţinut păstrează valoarile datelor iniţiale); - aproximativă (când valorile datelor iniţiale sunt alterate); - locală (sunt luate în considerare doar valorile din punctele vecine); - globală (sunt luate în considerare toate punctele cu valori cunoscute).

Cu alte cuvinte interpolarea constă în prezicerea valorilor celulelor unui fişier raster pe baza unui număr limitat de măsurători punctuale [ESRI].

Dintre metodele exacte se pot aminti: interpolarea cu ponderea egală cu valoarea inversă a distanţei sau IDW (Inverse Distance Weighted) - (fără specificarea factorului de netezire); Kriging (fără specificarea efectului erorii nugget - pepită); metoda celui mai apropiat vecin sau Nearest Neighbour; metoda funcţiei bazei radiale sau Radial basis function method ; metoda Shepard modificată (fără specificarea factorului de netezire); metoda prin triangularizare cu interpolare liniară; metoda vecinului natural sau Natural Neighbour.

Metodele de interpolare prin netezire sau aproximative presupun folosirea unui factor de netezire, aşa cum se va vedea la fiecare metodă. Acest tip de interpolare reduce efectele variabilităţii la scară mică intre datele Z din punte vecine. Aceste metode nu consideră că in punctul in care se cunoaşte valoarea Z ponderea este infinită, respectiv probabilitatea să fie egală cu 1. Ca interpolatoare cu netezire pot fi considerate metodele: interpolarea cu ponderea egală cu valoarea inversă a distanţei sau IDW (cu specificarea factorului de netezire); kriging (cu specificarea efectului erorii nugget - pepită); regresiei polinomiale; funcţiei bazei radiale; Shepard modificată (cu specificarea factorului de netezire); a polinoamelor locale; a mediei glisante.

Metodele de interpolare utilizate sunt dictate de tipul setului de date, nu invers.

1

INTERPOLARI DETERMINISTICE

TRIANGULATIA

Metoda foloseşte triangulaţia Delaunay. Rezultatul constă într-o reţea de triunghiuri (structură de tip TIN) perfect circumscrise unor cercuri, lucru ce face ca distanţa dintre punctele care formează vârfurile triunghiului să fie întotdeauna minimă. Pentru fiecare triunghi se memorează coordonatele şi atributele celor trei vârfuri, topologia precum şi panta şi direcţia de înclinare a suprafeţei triunghiului. Triangulaţia funcţionează cel mai bine când datele sunt distribuite uniform pe suprafaţa ce urmează a fi interpolată. Metodă exactă ce foloseşte interpolarea polinomială lineară sau cubică. Este indicat a se utiliza pentru seturi mari de date, fiind şi destul de rapidă.

INVERSE DISTANCE WEIGHTED (IDW)

Metoda porneşte de la prezumţia că influenţa unui punct comparativ cu altul descreşte o dată cu distanţa. Mai exact, influenta unui punct in interpolare scade cu cat puterea creste (pondere mare – distanta alocata scade si invers). Puterea este un parametru care se optimizeaza in functie de fenomen, ci nu se calculeaza. Mediile ponderate sunt ceea ce se interpoleaza. Raza de cautare se poate ajusta: daca razele sunt egale => cerc, daca razele sunt inegale => elipsa. Anisotropie – interpolarea unei elipse. Este un interpolator de medie exact sau aproximativ în funcţie de parametrii stabiliţi de utilizator. Generează aşa-numiţii “ochi de taur” (bull’s eyes), efectul putând fi redus aplicându-se un filtru de netezire ( smoothing filter ).

Prezinta un grad scazut de acuratete in cazul diferentelor foarte mari de valori ale punctelor, cu minime si maxime extreme (varfuri, vai).

Cross validarea – reprezinta estimarea erorii pentru fiecare punct, cu acelasi set de date.

KRIGING

Metoda se bazează pe teoria variabilelor regionalizate, ce presupune că variaţia spaţială a fenomenului este omogenă din punct de vedere statistic, pe toată suprafaţa. Presupune că direcţia şi distanţa existentă între date reflectă o corelare spaţială ce poate fi folosită în explicarea variaţiei acestora. Poate fi “potrivită” unui set de date folosind o variogramă. Estimează erorile şi extrapolează valoarea Z. În funcţie de parametrii specificaţi de utilizator poate fi atât o metodă exactă cât şi una aproximativă. Metoda cuprinde mai multe tipuri distincte de Kriging, atât liniare cat şi non-liniare.

Metoda poate fi utilizată pentru orice set de date, este cea mai flexibilă, însă este lentă când volumul de date este mare.

La folosirea metodei este avut in vedere şi un model al variogramei. Variograma caracterizează fiecare set de date. Pentru insuşirea noţiunii sunt necesare concepţii statistice avansate. Variograma este o măsură a modului de modificare a valorilor faţă de medie. Principiul subliniat este acela că in medie, două observaţii alăturate sunt cu mult mai similare decat două observaţii indepărtate.

2

Deoarece procesele de subliniere a datelor au adesea orientări preferenţiale, valorile se pot modifica mai rapid intr-o direcţie decat in alta. In acest fel variograma este o funcţie de direcţie. Kriging este de fapt o metoda a mediei ponderate de determinare a valorilor Z in punctele unei grile, ponderile fiind determinate pe baza poziţiei datelor şi a gradului de continuitate spaţială prezent in date, prin determinarea semivariogramei. Ponderile sunt determinate astfel incat eroarea medie a estimării este zero şi varianţa estimării este minimă (principiul sumei minime a patratelor erorilor sau principiul celor mai mici patrate).

Există două tipuri de kriging – Kriging punctual şi Kriging bloc. Ambele tipuri de Kriging geneează o grilă interpolată. Metoda Kriging punctual estimează valorile punctelor in nodurile grilei. Kriging bloc estimează valoarea medie a blocurilor rectangulare centrate in nodurile grilei. Blocurile au dimensiunile şi forma unei celule a grilei. Kriging bloc estimează valoarea medie a unui bloc, generează curbe nenetezite. Deoarece Kriging bloc nu estimează valoarea intr-un punct, nu este un interpolator perfect. Acest lucru se intampla chiar dacă observaţiile cad exact intr-un nod al grilei, metoda estimind pentru acel nod altă valoare apropiată de cea dată.

Tipuri de Kriging:

▪ Ordinary Kriging (Kriging obisnuit) – cu o singura variabila, cea mai utilizata si complexa metoda. In cadrul acestei metode fiecare valoare este tratata individual.

Primul pas în Kriging obişnuit este de a construi o variograma pornind din punctul de împrăştiere setat pentru interpolare. O variograma constă in două părţi: o variogram experimentala şi un model de variograma. Odată ce variograma experimentala se calculează, următorul pas este de a defini un model de variograma. O variograma model este o funcţie matematică simplă, care modelează tendinţa în variograma experimentala. Se va observa ca punctele apropiate au valori similare. După un anumit nivel de separare, varianţa valorilor devine oarecum aleatorie şi modelul de variograma se aplatizează la o valoare corespunzătoare unei medii a variatiilor inregistrate. Odată ce variograma model este construita, aceasta este folosita pentru a calcula ponderile utilizate în Kriging. Ecuatia utilizata in calcularea mediilor ponderate din Kriging este in esenta aceeasi cu cea utilizata in metoda IDW, exceptind faptul ca in acest caz se utilizeaza mai degraba modelul variogramei decat a mediilor calculate pe baza distantelor arbitrare dintre puncte. Prin utilizarea variogramei în acest mod pentru a calcula greutatea (media ponderata), eroarea de estimare de aşteptat este redusă la minimum pe unitatea de masura. De aceea se spune ca Kriging-ul produce cea mai bună estimare liniară imparţiala. Minimizarea erorilor pe unitate nu este insa intotdeauna cel mai important criteriu in alegerea metodei de interpolare si altele pot da rezultate mai bune.

Atunci când se face interpolarea la un obiect folosind metoda Kriging, un set de date cu estimarea varianţei este întotdeauna produsă împreună cu setul de date interpolate. Ca rezultat va fii generat un teren cu contur de tip grid.

▪ Simple kriging – este similara metodei de kriging obisnuit, cu exceptia faptului ca foloseste media ponderata a intregului set de date, ceea ce face ca acuratetea sa fie mult scazuta; rezultatul obtinut este insa mai estetic, cu valori mai line.

▪ Universal kriging - în care se presupune că variaţia spaţială a valorii z este dependentă de trei componente: o structură/set de date, un component aleator corelat şi o eroare reziduală.

3

CO-KRIGING

Metoda ţine cont de mai multe variabile în procesul de estimare a valorilor necunoscute. Ia în considerare auto-corelaţia şi cross-corelaţia dintre fiecare variabilă. Estimările sunt mult mai exacte atunci când volumul de date aparţinând primei variabile este mult mai redus faţă de cel ce aparţine celei de-a doua variabilă.

Tipuri de co-kriging: - Simple co-kriging - Ordinary co-kriging - Standardized ordinary co-kriging

NATURAL NEIGHBOUR

Aceasta metoda se bazeaza pe o reţea de poligoane Thiessen (dualul unei triangulaţii Delaunay); combină caracteristicile optime ale metodelor Nearest Neighbor şi TIN. Dacă mulţimii de puncte i se mai adaugă un nou punct, poligoanele Thiessen se modifică. De fapt, doar unele poligoane se vor micşora şi niciunul nu se va mări. Zona asociată cu poligonul Thiessen ţintă dintr-un poligon existent este denumită „zonă de imprumut". Algoritmul de interpolare a vecinului natural foloseşte o mediere ponderată a datelor Z vecine, unde ponderile sunt proporţionale cu „aria zonei de imprumut".

Aceasta metoda indentifica zona de influenta a fiecarui punct. Algoritmul interpolării Natural Neighbor foloseşte o medie a valorilor observaţiilor învecinate, unde valorile sunt proporţionale cu „suprafaţa împrumutată”. Zona asociată cu poligonul Thiessen obţintă dintr-un poligon existent este denumită „zonă de imprumut". Aceasta metoda poate fi una foarte rapida si exacta, nu extrapolează valoarea Z.

Se poate utilizata Convex Hull care reprezinta o suprafata obtinuta prin unirea in linie dreapta a punctelor exterioare pentru un set de date.

NEAREST NEIGHBOUR - Metoda celui mai apropiat vecin

Aceasta metoda de interpolare atribuie valoarea celui mai apropiat punct ne ţ inând cont de celelalte. Este utilă când datele sunt deja egal depărtate, dar este nevoie să fie convertite într-un fişier de tip grid. Alternativ, în cazul în care datele sunt deja într-o reţea cu doar câteva valori lipsă, aceasta metoda este efic ientă pentru umplerea lipsurilor . Aceasta metoda poate fi una foarte rapida si exacta, nu extrapolează valoarea Z.

Mai multe puncte primesc aceeaşi cotă, ceea ce duce la aproximarea reliefului cu o serie de poliedre cu un contur oarecare, baza unui poliedru fiind un poligon Thiessen. Este cel mai bine

4

cand valorile Z sunt măsuratori pe o scară nominală, de exemplu tipul de sol (exprimat prin cifre). Sunt făcute predicţii ale valorilor atributelor pentru poziţii neeşantionate, folosind un singur punct, cel mai apropiat. Metoda permite completarea cu date a zonelor unde datele lipsesc. Şi aici, ca la toate metodele, nu participă la interpolare toate punctele cu valori Z, ci numai cele care intră intr-o „elipsă de căutare (selecţie)” definită de utilizator, de cele mai multe cazuri un cerc de selecţie cu raza dată. Unele programe permit şi aici, ca şi la alte metode, definirea unor linii sau zone de ruptură, peste care nu se mai aleg puncte.

REGULAR SPLINE WITH TENSION

Simultan cu interpolarea, acest modul calculează şi o serie de parametri topografici (pantă, aspect, curbură) pe care îi salvează sub formă de rastere.

Spline – se foloseste cand punctele sunt la o distanta fixa si tranzitia intre valorile punctelor se face lin; minimizeaza curbura dintre doua puncte. (Geostatistical Wizard – Radial Basis Function – Spline).

Spline with tension – pastreaza particularitatea zonei.Aceasta metoda de interpolare este singura care permite estimarea valorilor sub minima

si peste maxima setului de date.

Metoda poate fi atât exactă cât şi aproximativă în funcţie de parametrii setaţi de utilizator (tension şi smoothing). Utilizatorul este avertizat atunci când rezultatul conţine anomalii şi trebuie modificaţi parametrii tension şi smoothing. Are la bază procedeul “quad-tree segmentation” ce permite procesarea unui număr mare de puncte.

METODA FUNCTIEI BAZEI RADIALE - Radial basis function method

Metoda de interpolare cu funcţia bazei radiale realizează o suprafaţă netedă. Dintre funcţiile posibile, cea optimă este considerată a fi funcţia multicuadrică. Metoda este una exactă. Puteţi introduce un factor de netezire şi aici. Există multe tipuri de funcţii. Funcţiile nucleu de bază sunt similare variogramelor de la metoda Kriging.

METODA SHEPARD (Modificata)

Metoda foloseşte interpolarea prin cele mai mici pătrate după inversul distanţei, fiind similară cu metoda mediei ponderate după inversul distanţei la o putere oarecare. Folosirea celor mai mici pătrate elimină efectul de rotunjire a liniilor in jurul unui nod. Poate fi o metodă exactă sau una aproximativă, in funcţie de parametrii introduşi de utilizator.

Valorile interpolate sunt generate folosind o medie ponderată cu distanţa. Ecuaţiile de erori sau de corecţii provin din funcţia cuadrică aleasă, scriind cate o ecuaţie de erori pentru fiecare punct vecin, ponderea ecuaţiei fiind inversul distanţei. Dimensiunea vecinătăţii locale se specifică prin

5

parametrul număr de vecini. Vecinătatea locală este un cerc de rază convenabilă, dar in anumite condiţii poate fi şi o elipsă.

INTERPOLARI PROBABILISTICE

VARIOGRAMA

ANALIZA VARIOGRAFICĂ

Analiza structurală a unui fenomen regionalizat are ca obiectiv găsirea unui model al structurii. Elaborarea modelului face apel la cunoaşterea fenomenului fizic studiat şi la experienţa în domeniul ajustării modelelor topo-probabiliste.

Instrumentul utilizat pentru identificarea modelului structural este variograma, motiv pentru care analiza structurală este cunoscută şi sub denumirea de analiză variografica. Variograma este utilizată deoarece elimină calculul mediei valorilor, parametru cu semnificaţie ambigua în cazul variabilelor nestaţionare.

Obiectivul analizei variografice fiind în esenţă descriptiv, nu există constrângeri teoretice şi în consecinţa orice tip de prelucrare este acceptată dacă reuşeşte să clarifice corelaţia între distanţă şi varianta erorii de estimare.

Fiecare punct trebuie sa faca pereche cu fiecare punct in parte si se retine astfel distanta dintre ele si diferenta de valoare. Lag-ul reprezinta distanta medie intre care exista autocorelare. Semivariograma – reprezinta diferenta dintre perechile de puncte.

Variograma creşte proporţional cu h. Când structura spaţială pentru care este calculată variograma are caracter staţionar valoarea maximă a acesteia rămâne constantă pentru valori ale lui h superioare unei anumite valori r, numită rază de influenţă . Se demonstrează că această valoare maxima numită palier nu este altceva decât varianta funcţiei aleatoare. Dacă acest palier există, rezultă că şi covarianţa complementara există. O variogramă cu palier şi raza de influenţa caracterizează un fenomen regionalizat ce poate fi generat de o funcţie aleatoare staţionară de ordinul al doilea.

Partile unei variograme:Range – distanta fata de care (nu) mai exista corelare.Sill – diferenta de valori pana la care exista corelatie intre distanta si valoarea punctelor. Ajuta

la identificarea corecta a lag-urilor (distanta medie dintre puncte). Partial sill (sill minus nugget).Nugget – oscilatii de valori la nivel de microscara si/sau erori de calcul.

Modificare lag (Geostatistical Wizard – Kriging – Semivariogram – modificare lag).

6

Sill

Range

Nugget

partial sill

7

Modele putere

8

Geostatistica - notiuni

Documents

Transcript of Geostatistica - notiuni