POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este...

18
1 PROIECT BIG DATA PENTRU EXPLORAREA POTENȚIALULUI DE UTILIZARE A UNOR SURSE DE DATE ALTERNATIVE ÎN DEZVOLTAREA DE STATISTICI EXPERIMENTALE ABSTRACT Explorarea și exploatarea potențialului unor noi surse de date este un obiectiv asumat în statistica oficială. Proiectul își propune să investigheze potențialul World Wide Web-ului ca sursă de date în estimarea unor statistici experimentale privind evoluția prețurilor online comparativ cu evoluția prețurilor colectate prin mijloace consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru tratarea tuturor etapelor componente unui astfel de proiect. Atenționăm cititorul că raportul prezent reprezintă o lucrare în desfășurare (working paper), rezultatele și modul în care au fost acestea obținute fiind expuse unui proces continuu de modificare, uneori fundamentală.

Transcript of POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este...

Page 1: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

1

PROIECT BIG DATA PENTRU EXPLORAREA

POTENȚIALULUI DE UTILIZARE

A UNOR SURSE DE DATE ALTERNATIVE

ÎN DEZVOLTAREA DE STATISTICI EXPERIMENTALE

ABSTRACT

Explorarea și exploatarea potențialului unor noi surse de date este un obiectiv asumat în statistica oficială.

Proiectul își propune să investigheze potențialul World Wide Web-ului ca sursă de date în estimarea unor statistici

experimentale privind evoluția prețurilor online comparativ cu evoluția prețurilor colectate prin mijloace

consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici

specifice pentru tratarea tuturor etapelor componente unui astfel de proiect. Atenționăm cititorul că raportul

prezent reprezintă o lucrare în desfășurare (working paper), rezultatele și modul în care au fost acestea obținute

fiind expuse unui proces continuu de modificare, uneori fundamentală.

Page 2: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

2

CUPRINS

I. CONTEXT. OBIECTIVE. ......................................................................................................................................3

II. DESCRIEREA DATELOR .....................................................................................................................................5

III. ORGANIZAREA CULEGERII DATELOR ...........................................................................................................6

IV. REZULTATE PRELIMINARII. ..........................................................................................................................9

V. LIMITĂRI .CONCLUZII PRELIMINARE. ........................................................................................................... 17

BIBLIOGRAFIE ........................................................................................................................................................ 18

Page 3: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

3

I. CONTEXT. OBIECTIVE.

Obiectivele generale ale proiectului sunt preluate din cadrul general de modernizare a statisticii

oficiale din România, alături de îmbunătățirea continuă a procesului de producție statistică în acord cu

direcțiile de modernizare la nivel european exprimate în documentul ”Viziunea Sistemului Statistic

European până la orizontul anului 2020.” În cadrul ecosistemului statistic național și european au loc

transformări majore ca urmare a provocărilor impuse de către noile trenduri de generare masivă de

date aproape în timp real, așa numita revoluție Big Data, fie că ne referim la date generate de către

indivizi, procese sau mașini. Încorporarea Big Data în procesul de producție statistică nu este

caracterizată de proprietățile unei acțiuni liniare care își propune să suplinească în totalitate metodele

tradiționale de generare și prelucrare a datelor în vederea obținerii unor produse statistice de calitate

neîndoielnică. Mai degrabă, utilizarea Big Data presupune o abordare de tip incremental, iterativ, în

care anumite componente ale unui proces tradițional de producție statistică sunt augmentate de

aportul Big Data și al algoritmilor de prelucrare aferenți, condiționate de conservarea și/sau

îmbunătățirea calității produsului statistic. Cu alte cuvinte, încorporarea Big Data în statistica oficială

înseamnă păstrarea unui avantaj competitiv net și a relevanței produselor statisticii oficiale prin

comparație cu cele furnizate de către o mulțime de jucători comerciali, cu referire în particular la marile

corporații din domeniul tehnologiei informației.

Sub aceste auspicii, obiectivele generale sunt reprezentate de eficientizarea procesului de

producție statistică prin scăderea costurilor de producție și reducerea sarcinii de răspuns și a

termenului de diseminare. Proiectele pilot interne, prin încorporarea tehnologiilor de calcul moderne,

pot crea premisele dezvoltării unui cadru de testare/măsurare și pilotare de noi metodologii și

tehnologii într-un mod sistematic și riguros, contribuind semnificativ la atingerea obiectivelor generale.

Invariant, în discuție intră identificarea resurselor necesare derulării proiectelor. Conform

Memorandului Schevingen, caracteristicile noilor surse de date implică din punct de vedere tehnic o

abordare multi-disciplinară, cu precădere din sfera teoretică a statisticii matematice și a programării

calculatoarelor. Generarea de soluții robuste solicită din partea echipelor însărcinate cu derularea

proiectelor membrii specializați în cadrul celor două discipline amintite și excelente abilități de

comunicare.

În consecință, au fost formulate următoarele obiective specifice:

Obiectivul 1. Identificarea și selecția canalelor online cu ponderi semnificative în totalul volumului de

tranzacționare a mărfurilor și serviciilor destinate consumului gospodăriilor, astfel încât să fie acoperit

întregul nomenclator de bunuri și servicii destinate consumului final al gospodăriilor.

Obiectivul 2. Identificarea mijloacelor adecvate de implementare a procesului de colectare automată a

prețurilor afișate în cadrul canalelor online de tranzacționare a mărfurilor și serviciilor.

Page 4: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

4

Obiectivul 3. Derularea procesului de colectare automată a prețurilor pe parcursul unei perioade

relevante: 2 ani.

Obiectivul 4. Dezvoltarea unui estimator în vederea obținerii unui indice experimental al prețurilor de consum

în baza datelor colectate din mediul online.

Obiectivul 5. Identificarea aspectelor sensibile din punct de vedere legal ale proiectului, având în

vedere reconcilierea dintre Legea 226/2009 din România, Codul de Practici al Statisticilor Europene,

alte reglementări privind statistica oficială și legislația privind accesul la date disponibile online.

Obiectivul 6. Diseminarea rezultatelor către diferite categorii de utilizatori interni și externi statisticii

oficiale prin intermediul rapoartelor intermediare de activitate și prezentării rezultatelor, limitărilor și

propunerilor aferente proiectului.

Concepte și definiții utilizate.

INTERNET - Rețea internațională de calculatoare, formată prin interconectarea rețelelor locale și

globale, destinată să faciliteze schimbul de date și informații în diverse domenii. Abreviat din

International Network.

WorldWideWeb sau WWW sau Web – Colecție de documente interconectate pe baza protocolului

HTTP (HyperText Transfer Protocol) sau HTTPS (HyperText Transfer Protocol Secure).

Site – Colecție de documente WWW structurate sub o adresă WWW comună.

Browser Web – aplicație software ce permite navigarea și accesarea conținutului Web.

Web scraping – set de tehnici ce permit colectarea automatizată a adreselor WWW ale site-urilor

precum și a documentelor regăsite la aceste adrese.

Robot/Crawler/Spider - tehnică implementată prin procesul de web scraping de indexare

automatizată a adreselor WWW.

Parser – aplicație software de parcugere și identificare automată a conținutului unui document.

Javascript – limbaj de programare destinat aplicațiilor Web.

node.js – mediu de execuție a codului Javascript în afara unui browser..

HTML sau HyperText Markup Language – limbaj standard de meta-marcare utilizat la crearea și

formatarea documentelor Web.

CSS sau Cascade Style Sheets – limbaj standard de stilizare a documentelor HTML.

Page 5: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

5

XML sau eXtensible Markup Language – limbaj de meta-marcare utilizat la crearea altor limbaje de

marcare Web și pentru creare documentelor care pot fi interpretate atât de om, cât și de mașină. A fost

adoptat din necesitatea modificării dinamice a documentelor Web, prin adăugarea sau eliminarea unor

noi structuri sau conținut în document fără a fi necesară o re-evaluare totală a structurii acestuia.

CSV sau Comma Separated Values – fișier cu valori separate prin virgulă.

R – limbaj și mediu de programare destinat prelucrării statistice și grafice a datelor.

II. DESCRIEREA DATELOR

Sfera de cuprindere

Ipoteza abordării ”democratice” a indicelui prețurilor de consum, conform căreia nu există diferențe

statistic semnificative între volumul și structura cheltuielilor realizate de gospodării pentru

achiziționarea de mărfuri sau servicii, este extinsă asupra prețurilor observate pe site-urile Web.

Populația de referință, mediul de rezidență, perioada de observare acoperită în cadrul unei luni, alături

de mărfurile și serviciile incluse în nomenclatorul pe baza căruia se determină IPC sunt păstrate, cu

următoarele mențiuni:

• În cazul în care conținutul Web este indisponibil în intervalul menționat se va decala cu o zi

colectarea.

• Dintre mărfurile și serviciile incluse în nomenclatorul IPC, au fost țintite inițial grupa mărfurilor

alimentare și posturile care acoperă articolele de îmbrăcăminte și încălțăminte din grupa mărfurilor ne-

alimentare. Urmând ulterior, pe măsură ce înregistrăm rezultate preliminarii, să extindem asupra

întregului nomenclator de mărfuri și servicii.

Unitatea de observare este site-ul Web aparținând firmelor. În acest caz, ipoteza de la care pornim este

că prin intermediul site-ului firmele acoperă întreg teritoriul național. Alegerea site-urilor se bazează

pe stabilirea unei relații volum vânzări-cifra de afaceri, prin ordonarea descrescătoare a cifrelor de

afaceri raportate de către firmele care dețin site-urile respective. Momentan, există anumite bariere,

spre exemplu cel mai important jucător, din punctul de vedere al cifrei de afaceri, pe segmentul

hypermarketurilor prezente în România, nu are o secțiune dedicată tranzacțiilor online. Însă mutările

preconizate spre realizare la nivel European, de către firmele care dețin puncte de vânzare fizice pe

acest segment, sugerează că forțele de piață vor impune migrarea către online a celor mai importanți

actori din domeniu, cel puțin la nivel declarativ.

Variabile înregistrate

Variabilă înregistrată este prețul cu TVA. Metoda de colectare automată permite înregistrarea dublă a

prețurilor pentru mărfurile și serviciile afectate de reduceri, promoții, rabaturi sau alte forme de

Page 6: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

6

atragere clienți prin intermediul prețurilor, astfel alături de prețul afișat putem înregistra prețul vechi

sau reducerea afișată sub formă de procent. Acest aspect înlesnește, spre exemplu, identificarea cu

ușurință a factorilor de sezonalitate ce afecteză variația prețurilor pentru anumite categorii de mărfuri

și servicii. Prețurile sunt înregistrate în fișiere de tip .csv care conțin în principiu următoarele variabile:

1. Denumire varietate – numele sub care varietatea este comercializată

2. Prețul curent cu amănuntul

3. Prețul vechi și/sau reducerea cu amănuntul în cazul în care este afișat

4. Compoziție în cazul posturilor îmbrăcăminte/încălțăminte din grupa mărfurilor ne-alimentare

5. Descrierea varietății: producător și specificații tehnice

6. Data colectării

7. Adresa website-ului

Selecția sortimentelor ale căror prețuri sunt ținute sub observație se face pe baza nomenclatorului de

mărfuri și servicii din Ancheta Indicelui Prețurilor de Consum. Probabil va fi necesară, pe măsură ce sunt

acumulate rezultate satisfăcătoare, alcătuirea unui nomenclator al unităților de observare online.

III. ORGANIZAREA CULEGERII DATELOR Metoda de înregistrare

Colectarea datelor are loc prin intermediul soluției software dezvoltate de către CBS Netherlands,

Robot Framework. Soluția este implementată în limbajul de programare Javascript, cu ajutorul mediului

de execuție node.js. Avantajul major al acestei implementări este dat de faptul că poate fi accesat în

mod automat conținut Web generat în mod asincron și dinamic, prin interacțiunea dintre un

utilizator/browser Web și un server Web. Automatizarea colectării de informații de pe site-urile cu

conținut generat dinamic presupune simularea interacțiunii dintre utilizator/browser Web și server prin

intermediul unei aplicații de tip headless browser, în acest caz phantom.js. Soluția permite configurarea

unor fișiere care conțin un script ce trimite cereri de tip asincron către serverul Web prin intermediul

browserului. Conținutul răspunsurilor trimise asincron de către server sunt stocate, parsate și copiate

în fișiere de tip .csv. În funcție de natura și cantitatea de elemente dinamice dintr-un site Web, o sesiune

de web scraping poate dura între câteva minute și o oră, un factor vital aici fiind prezența unei conexiuni

la rețeaua INTERNET de ordinul zecilor de Mbps.

Pe lângă soluția Robot Framework au fost explorate și alte tehnologii, expuse în Tabelul 1, unde au fost

sintetizate principalele avantaje și dezavantaje.

Page 7: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

7

Tabelul 1. Soluții pentru colectarea automată a datelor de pe site-urile Web

Nr.

Crt.

Nume Avantaje Dezavantaje

1 Robot Framework FOSS – gratuitate/modificabilă.

Utilizată și dezvoltată de CBS

Netherlands.

Relativ ușor de utilizat.

Extensibilitate.

Nu este utilizabil în sensul ”out-of-the-

box” sau ”la cheie”.

FOSS - eventualele erori generate de

utilizarea produsului software nu atrag

răspunderea dezvoltatorilor pentru

rezultatele obținute.

Nu este o aplicație ”matură”, testată de

un număr mare de utilizatori.

2 Scrapy Framework FOSS – gratuitate/modificabilă.

Extensibilitate ridicată. Este un

framework matur cu o

multitudine de biblioteci

software pe post de plug-inuri.

Scalabilitate.

Necesită cunoștințe medii spre avansate

de programare în limbajul Python.

Scalabilitatea impune resurse hardware

adecvate.

Curbă de învățare abruptă.

3 Apache Nutch Framework matur.

Orientat Big Data.

Curbă de învățare abruptă.

Necesită încorporarea mai multor

tehnologii de prelucrare a Big Data

(Hadoop, MapReduce, Solr, Spark).

4 Rvest Bibliotecă R.

Ușor de utilizat.

Integrarea rezultatelor in R.

Scalabilitate redusă.

Destinat aplicatiilor de mici dimensiuni

și familiarizării cu tehnicile de

webscraping.

Page 8: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

8

Lansarea unei sesiuni de Web scraping presupune, în general, următoarele etape:

1. Instalarea Robot Framework.

2. Instalarea node.js și a pachetelor dependente.

3. Crearea din linia de comandă a sistemului de operare a unui template pentru script, prin intermediul

unui fișier de tip batch disponibil în RobotFramework.

3. Utilizarea unui editor de text pentru editarea scriptului.

4. Rularea fișierului script din linia de comandă cu ajutorul unui fișier de tip batch.

5. Verificarea rezultatelor din directorul în care sunt stocate fișierele .csv.

Editarea unui fișier script presupune utilizarea informațiilor disponibile prin intermediul unei aplicații

de tip developer tools, comune distribuțiilor majore de browsere Web (Chrome, Firefox, Edge), pentru

identificarea adreselor elementelor de interes din structura unui document Web, precum și a

eventualelor scripturi care pot interacționa cu respectivul element. Adresa unui element din cadrul unui

document poate fi reprodusă în două moduri în cadrul fișierului script, primul fiind cu ajutorul

selectorilor CSS și celălalt cu ajutorul selectorilor Xpath, diferența dintre cele două moduri este dată de

faptul că al doilea poate introduce în adresă componente de conținut din cadrul elementului, astfel

fiind mult mai precis. Adresele sunt furnizate unui set de proceduri care serializează procesul de

navigare și parsare în cadrul site-urilor Web.

Este demn de menționat că soluția RobotFramework are un grad înalt de configurare prin intermediul

posibilității de introducere de proceduri specifice tehnologiei din spatele site-urilor, dovedindu-se în

mâinile unui programator cu experiență o soluție de Web scraping scalabilă cerințelor unei organizații

de mari dimensiuni.

Rularea automată în paralel/serial a scripturilor se face cu ajutorul unui script batch. Momentan este

necesară supravegherea procesului de colectare automată a prețurilor, ulterior în funcție de rezultatele

obținute și de feed-back-ul părților interesate, vom încerca dezvoltarea unei soluții pentru verificarea

integrității procesului de colectare și restartarea acestuia pentru scripturile care au generat un mesaj

de eroare.

Perioada de referință și înregistrare

Colectarea automată a prețurilor observate pe site-urile din eșantion se efectuează într-una din zilele

aferente decadelor 01-07, 10-17 și 20-27 ale fiecărei luni pentru mărfurile alimentare, respectiv 10-17

pentru posturile aferente articolelor de îmbrăcăminte și încălțăminte.

Page 9: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

9

IV. REZULTATE PRELIMINARII. Datorită complexității datelor extrase prin procesul de web scraping, i.e. date semi-structurate,

descompunerea la nivel de componente de bază specifice nomenclatorului IPC este necesară pentru a

ataca problema estimării unui indice experimental al prețurilor de consum din date online.

Date semi-structurate

Structura fișierelor descărcate urmează următorul tipar pentru grupa mărfurilor alimentare:

”nume” – variabila conține numele produsului, producătorul, cantitatea varietății si anumite detalii

tehnico-calitatative. Exemplu: ” Drojdie uscata instant Coseli 7g” .

”preț” – variabila conține observații legate de prețul per unitatea de măsură sau prețul per bucată afișat

pe pagina web corespunzător varietății. Exemplu: ” 083 Lei/bucata” sau ” 1990 Lei/kg”.

”sortiment”, ”tip”, ”categorie” – variabila conține detalii privind clasificarea varietății observate în

diferite categorii, conform structurii site-ului.

O captură a outputului fișierului care conține datele este realizată în figura 1.

Figura 1. Fișier output date.

Din alcătuirea outputului, se poate observa că datele sunt organizate conform structurii site-ului

respectiv, în acest caz supermarketul generic, unde produsele alimentare considerate de bază ocupă

primele poziții în structura ierarhică a site-ului. Varietățile sunt organizate pe categorii de produse în

Page 10: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

10

funcție de denumirea acestora și a categoriei de nevoi pe care o deservesc. Corelarea poziției ierarhice

a produsului pe site cu rata de modificare a prețului este o posibilă ipoteză de cercetare . Această

ipoteză decurge în urma unor observații legate de funcțiile de sortare a varietăților pe site, spre

exemplu: “cele mai populare”, ”cele mai vândute”, ”preț crescător”, ”preț descrescător”, care expun

pentru varietățile ”cele mai populare”, produse a căror prețuri suferă variații de preț majore.

Modalitatea, cea mai simplă, de a testa această ipoteză constă în colectarea a 20-30 de produse din

categoria ”celor mai populare”, pe categoriile de produse de larg consum, cu o frecvență zilnică și

modelarea statistico-econometrică a observațiilor.

Variabila ”nume” conține, pe lângă denumirea varietății, informații despre cantitate și despre

calitate. În acest caz observăm o structură similară în descrierea produselor plecând de la denumirea

sortimentului, apoi către aspecte de ordin calitativ de genul materiilor prime utilizate în procesul de

produție sau tehnici de producție, urmat de denumirea mărcii și cantitatea pusă la vânzare pentru acest

tip de sortiment.

O observație trivială legată de forma datelor este că acestea nu pot fi folosite direct sub această

formă în procesul de clasificare și de estimare al indicilor preț. Pentru tratarea acestei probleme am

dezvoltat o serie de proceduri R care permit aducerea la formă comună a datelor astfel încât să permită

o manipulare flexibilă.

Etape de obținere a indicelului experimental al prețurilor de consum

Etapele se desfășoară secvențial, inputul de date pentru fiecare etapă depinzând de outputul

etapei precedente, cu excepția primei etape al cărei input depinde de rezultatul colectării automate a

datelor.

În continuare, vor fi prezentate în detaliu activitățile desfășurate în cadrul fiecărei etape,

întregul process fiind sintetizat în Figura.2.

Page 11: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

11

Figura 2. Sesiune de scraping și prelucrare a datelor

Robot Framework

Mediul R

Proceduri de calcul și

clasficare

Fișiere cu rezultate

Page 12: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

12

Etapa 1. Introducere și curățare a datelor

Această etapă presupune următoarele activități.

Inputul activității: fișiere date prețuri.

Activitatea de verificare a existenței fișierelor și a conținutului acestora prin intermediul căreia

înregistrăm dacă există o corespondență de 1 la 1 între numărul de perioade decadale și numărul

fișierelor prezente. De asemenea se inspectează conținutul acestora pentru a verifica integritatea

tabelelor obținute prin procesul de webscraping. Verificăm prezența câmpurilor care să conțină numele

varietăților, al prețurilor și al punctelor de observare. Această activitate are loc de obicei după

încheierea procesului de webscraping și este realizată momentan manual. În cazul în care există

elemente lipsă dintre cele enumerate procesul de webscraping se reia, cu mențiunea verificării

accesibilități online a site-ului și a fișierelor de log ale aplicației de webscraping.

Surse de erori identificate: site-ul este indisponibil, structura site-ului a suferit modificări, pipe-line-ul

utilizat la web scraping este afectat de erori care nu sunt trate corespunzător.

Outputul activității: fișiere cu date – prețuri online.

Inputul activității: fișiere cu date - prețuri online.

Activitatea de copiere a fișierelor obținute de la toate punctele de observare online la nivelul unei luni

calendaristice într-un director separat care poate avea numele lunii calendaristice respective, sau ceva

asemănător. Activitatea este realizată manual. Se poate automatiza printr-un script batch. În această

etapă se verifică și consistența numelor fișierelor, astfel încât această să aibă o denumire implicită

furnizată de către aplicația de webscraping, anume ”DATA_Nume_spider.csv”. ”DATA” este preluată de

către webscraper din cadrul sistemului de operare, iar ”Nume_spider” din fișierul JSON de configurare

al spider-ului.

Surse de erori identificate: fișierul poate fi blocat la copiere deoarece respectivul bloc de memorie este

accesat de către o altă aplicație.

Outputul activății: Director de lucru R.

Inputul activității: Director de lucru R.

Activitatea de citire a datelor în mediul R presupune citirea secvențială a datelor din fișierele aflate în

directorul din etapa precedentă prin intermediul metodelor puse la dispoziție de către mediul de

programare R și transformarea acestora în structuri de date valide din punctul de vedere computational

al R-ului. Activitatea se realizează prin intermediul unui script ad-hoc care citește fișierele dintr-un

director de lucru în structuri de tip dataframe alocându-le un nume de tipul

Page 13: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

13

”Data(numeric)_Nume_punct_de_observare(caracter)” în funcție de punctul de observare. ”Data” este

preluată din numele fișierului, iar ”Nume_punct_de_observare” este furnizat de către utilizator prin

intermediul specifia unui vector de caractere unui parametru către funcția de citire, precizând că

vectorul trebuie să conțină șiruri de caractere apropiate de ”Nume_spider” pentru identificarea și

alocarea validă a numelor. Pentru o manipulare eficientă a structurilor de date, este recomandabilă

alocarea unei structuri de tip listă care să conțină toate dataframe-urile.

Surse de erori identificate: specificarea incorectă a elementelor din vectorul de caractere, utilizat

pentru alocarea numelor, poate genera erori de citire, suprascrierea structurilor de date din cauza

numelor de fișiere care pot conține aceeași dată calendaristică, incorect identificate drept valide la

activitatea numărul 3, posibile erori generate de sistemul de fișiere al sistemului de operare (drepturi

de citire, acces interzis la respectiva zonă de memorie utilizată de către alte aplicații).

Outputul activității: Structuri de date R.

Inputul activtității: Structuri de date R

Activitatea de curățare a datelor presupune eliminarea elementelor care nu prezintă interes pentru

etapele ulterioare, cum ar fi variabilele care conțin date de identificare a aplicației de webscraping, și

transformarea corespunzătoare a celorlalte elemente în vederea calculului. Aici au fost dezvoltate o

serie de scripturi R particularizate pentru fiecare punct de observare în parte ca urmare structurii

specifice a informațiilor disponibile pe site-urile punctelor respective. Spre exemplu variabila preț poate

fi înregistrată în două variabile denumite generic ”preț promoțional” și ”preț întreg” sau ”preț bucată”

și ”preț cantitate standard”, fapt ce necesită identificarea și înlocuirea datelor aferente variabilelor din

prima categorie cu date din variabila din cea de-a doua categorie prin intermediul unor comparații

succesive. O altă posibilă tranformare este realizată pentru reprezentarea corectă a prețurilor din punct

de vedere numeric, spre exemplu prin împărțirea la 100 a datelor culese de pe site-uri care conțin

partea întreagă și partea fracțională a prețului în două elemente html diferite. Este posibilă realizarea

acestei tranformări la nivelul aplicației de webscraping, dar am decis să păstrăm prelucrarea numerică

a datelor integral în mediul R. Tot în cadrul acestei activități se realizează eliminarea observațiilor

duplicate. Duplicarea observațiilor este un fenomen destul de des întâlnit în utilizarea actualei aplicații

de webscraping si are loc datorită restartării periodice a clientului web (phantomjs) din motive de

asigurare a stabilității. În momentul în care survine restartul aplicația trimite către client ultima cerere

realizată înainte de restart indiferent dacă aceasta a primit sau nu un răspuns din partea serverului web.

Surse de erori identificate: Erori logice de parsare a șirurilor de caractere din cauza unor reguli mult

prea restrictive, spre exemplu eliminarea unor observații care au aceeași valoare la nume, dar au prețuri

diferite.

Outputul activității: Structuri de date R pregătite pentru calculul indicelului experimental al prețurilor

de consum observate online.

Page 14: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

14

Inputul activității: Structuri de date R pregătite pentru dezvoltarea de statistici experimentale

Activitatea de codificare manuală/automată a produselor conform nomenclatorului IPC presupune

identificarea observațiilor care, în baza variabilei ”nume”, se apropie de descrierea furnizată în cadrul

nomenclatorului. Aceasta activitate poate genera erori a căror propagare se poate resimți semnificativ

în calitatea rezultatelor finale. Principul de la care s-a pornit, în lipsa unei experiențe anterioare în lucrul

cu aspecte metodologice de selecție a varietăților unui sortiment, a fost utilizarea unui mod de gândire

bazat pe ipoteza conform căreia consumatorul va alege un produs sau mai multe produse substituibile

celui prezent în nomenclator într-o limită de preț rezonabilă (<= 150% din prețul unei varietăți din

nomenclator.) Astfel au fost alese spre selecție pentru un singur sortiment mai multe varietăți din

cadrul aceluiași punct de observare. Au fost adăugate două coloane suplimentare pentru toate

structurile de date care conțin codul sortimentului și al postului de cheltuieli pentru fiecare perioadă

decadală din luna de bază aleasă, pentru varitățile identificate ca făcând parte din cadrul aceluiași

sortiment. Pentru a întări regula de urmărire strictă a acelorași varietăți, regăsită în metodologia de

calcul a IPC, s-au realizat operațiuni de matching între structurile de date pentru toate perioadele

decadale și lunile observate. Operațiunea de matching între două sau mai multe tabele s-a realizat pe

baza variabilei ”nume” care conține observații privind descrierea varietății prin intermediul potrivirii

șirurilor de caractere în raport de 1 la 1. După realizarea acestei activități dintr-un număr inițial de

aproximativ 10.000 de varietăți pentru care s-a realizat colectarea prețurilor din online, acestea au fost

restrânse la 545 de varietăți, 216 sortimente, și 52 de posturi de cheltuieli, identificate ca și constante

pe parcursul lunilor de observație, în ipoteza că descrierea oferită în observațiile realizate pentru

variabila ”nume” reprezintă un garant al invarianței caracteristicilor tehnico-calitative ale varietăților.

Această tehnică a fost utilizată pentru codificarea întregului eșantion, utilizat apoi în procesul de

codificare automată datelor.

În Tabelul 2, se regăsesc principalele rezultate experimentale obținute până în prezent pentru

codificarea automată a varietăților. Clasificarea datelor colectate în funcție de produsele din

nomenclator s-a realizat folosind algoritmi din pachetul RtextTools ce au la baza arbori de decizie.

Validarea opțiunii pentru unul dintre algoritmii BOOSTING, SVM, RF, SLDA si BAGGING s-a realizat pe

setul de date clasificat manual aplicând tehnica Cross-Validation cu 10 subseturi.

Tabel 2.Rezultate 10-fold Cross-Validation

ALGORITM BOOSTING SVM RF SLDA BAGGING

ACURATEȚE 0.56 0.34 0.41 0.17 0.28

Page 15: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

15

Surse de erori: activitatea manuală de codificare a prețurilor este repetitivă, datele fiind expuse unor

prelucrări eronate din cauze subiective.

Outputul activității: Structură de date care conține toate perioadele observate, cu observațiile

codificate conform nomenclatorului IPC.

Inputul activității: Structură de date care conține observații codificate conform nomenclatorului IPC.

Abordarea metodologică pentru estimarea unor statistici experimentale, propusă spre explorare,

presupune o etapă de calcul a indicilor elementari de preț la nivel de varietate, sortiment, post și grupă

de cheltuieli agregate, finalmente, într-un indice statistic experimental, dar care să permită retenția

anumitor proprietăți a indicilor statistici consacrați în acest domeniu statistic, asigurând astfel un punct

de referință relativ la criteriul comparabilității dintre cei doi tipi de indici (Figura.3.). O posibilă rută

exploratorie, presupune ca inițial să se calculeaze medii aritmetice la nivel de varietate pentru fiecare

lună și punct de observare. Rezultatul obținut se împarte la mediile obținute pentru fiecare varietate în

parte. Se obțin astfel indicii elementari de preț la nivel de varietate. Pentru calcularea indicilor la nivel

de sortiment poate fi necesară restrângerea numărului de varietăți din cadrul aceluiași punct de

observare. O posibilă soluție poate fi utilizarea unei medii geometrice pentru agregarea rezultatului sub

forma unei varietăți generice specifică punctului respectiv de observare

Page 16: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

16

Figura.3. Etapele1 proiectului de dezvoltare a unor statistici experimentale în baza surselor de date alternative.

1 Pentru descrierea și reprezentarea grafică a etapelor a fost utilizat drept reper standardul GSBPM 5.0 referitor la descriere al fazelor și sub-proceselor aferente procesului de producție statistică.

Specificarea cerințelor

proiectuluiProiectare Execuție Culegerea datelor Procesarea datelor

Prezentarea rezultatelor

Reducerea costurilor de

producție statistică.

Elaborarea metodologiei de

calcul a statisticilor

experimentale.

Dezvoltarea unor abordări tehnice

pretabile statisticilor

experimentale.

Selecția magazinelor online.

Calcularea statisticii experimentale.

Redactarea rapoartelor de

activitate.

Creșterea promptitudinii

Creșterea disponibilității

datelor prin utilizarea unor

tehnici și procese de colectare automată a datelor din

online.

Adaptarea și încorporarea soluțiilor și

bunelor practici internaționale în specificul activ

ităților proiectului.

Implementarea procedurii de

colectare a datelor în cadrul unei

arhitecturi software de tip open source.

Îmbunătățirea timpilor de estimare

a statisticilor consacrate prin

utilizarea statisticilor experimentale.

Punerea la dispoziție către

direcțiile interesate a

întregii arhitecturi a proiectului și suport tehnic.

Page 17: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

17

V. LIMITĂRI .CONCLUZII PRELIMINARE. Au fost identificate următoarele limitări, care pot deveni ipoteze de cercetare exploratorie în aria de

cunoaștere a noilor surse de date raportată, momentan, la indici și indicatori statistici consacrați:

•Ipoteza de generalizare a achiziționării de bunuri și servicii destinate consumului de către gospodării

prin intermediul tranzacțiilor online. Numărul gospodăriilor care achiziționează un produs prin

intermediul canalelor online este relativ mic, și depinde în general de o serie de factori precum poziția

geografică, nivelul veniturilor, nivelul educației, etc.

•Nu toate firmele, cu un volum al tranzacțiilor semnificativ pentru includerea în cadrul unităților de

observare, dețin un site Web.

•Tehnologia IT poate avea un impact semnificativ asupra variației prețurilor. Un exemplu în acest sens

poate fi discriminarea bazată pe poziția geografică a unui utilizator în momentul în care sunt afișate

prețurile pe un anumit site.

În baza rezultatelor obținute și a potențialului metodei de colectare de a fi extinsă și asupra altor

cercetări de interes pentru statistica oficială sunt formulate următoarele concluzii preliminare:

Concluzia 1: Continuarea derulării proiectului Big Data de explorare a potențialului de utilizare a unor

surse de date alternative în vederea dezvoltării unor statistici experimentale. În cadrul proiectului un

obiectiv esențial este dezvoltarea unei metodologii noi. Secundar se poate dezvolta un nomenclator

separat de produse și servicii specific observațiilor din online, pe baza unor măsurători, precum

longevitatea anumitor produse și servicii în oferta online și o serie de meta-date aferente produselor și

serviciilor respective (spre exemplu, analiza interacțiunii online pe bază de comentarii/recenzii a

cumpărătorilor cu mărcile respective și magazinul online).

Concluzia 2: Este necesară dezvoltarea unei politici și a unor proceduri operaționale pentru colectarea

și utilizarea datelor colectate automat din pagini Web ca surse de date alternative.

Concluzia 3: Este necesară constituirea unui grup/comitet de coordonare, supraveghere și evaluare a

utilizării datelor colectate prin intermediul metodelor noi pentru asigurarea respectării principiilor

statisticii oficiale și a legislației în vigoare. Aspectele ce țin de coordonarea utilizării datelor pot fi

exprimate în termeni de dezvoltare de noi metodologii și tipuri de indicatori statistici relevanți și

eficienți din punct de vedere al costurilor pentru diferite categorii de utilizatori interni și externi.

Page 18: POTENȚIALULUI DE UTILIZARE - insse.ro · consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru

18

BIBLIOGRAFIE 1. Institutul Național de Statistică. 2018. Metodologia anchetei Indicelui prețurilor de consum. Disponibil

la: http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807

2. Institutul Național de Statistică. 2018.Nomenclatorul mărfurilor și serviciilor utilizate în indicelui

prețurilor de consum. Disponibil la:

http://colectaredate.insse.ro/metadata/viewStatisticalResearch.htm?locale=ro&researchId=4807

3. Biroul Internațional al Muncii. 2004. Consumer price index manual.Disponibil la:

https://www.ilo.org/wcmsp5/groups/public/---dgreports/---

stat/documents/presentation/wcms_331153.pdf

4. Organizația Națiunilor Unite 2009. Practical Guide to Producing Consumer Price Indices. Disponibil la:

https://www.unece.org/fileadmin/DAM/stats/publications/Practical_Guide_to_Producing_CPI.pdf

5. CBS Netherlands. 2016. RobotFramework. Disponibil la:

http://research.cbs.nl/Projects/RobotFramework/index.html

6. The R Foundation. 2018.R Disponibil la: https://cloud.r-project.org/

7. Organizația Națiunilor Unite, 2018. GSBPM. Disponibil la:

https://statswiki.unece.org/display/GSBPM/GSBPM+v5.0