Introducere

Din ce în ce mai mulți oameni au cel puțin un telefon mobil, adesea constant conectat la internet. Cu ajutorul modulului GPS, disponibil în majoritatea telefoanelor moderne, se poate determina cu usurință poziția unei persoane și viteza ei de deplasare. Dacă cineva ar colecta aceste informații de la un număr destul de mare de oameni care călătoresc cu mașina, ar putea analiza dificultatea traficului și estima durata unei călătorii mult mai precis, luând în considerare nu doar lungimea ei, ci și întarzierile cauzate de trafic. De fapt, acesta este principiul din spatele multor aplicații care oferă informații despre trafic, precum Google Maps.

Data Science este disciplina care se ocupă cu colectarea și procesarea datelor, în scopul obținerii de informații. În exemplul introductiv, datele sunt reprezentate de poziția utilizatorilor în fiecare moment, iar informațiile sunt reprezentate de o măsură a dificultății traficului.

Trebuie menționat că diferența dintre date și informații este adesea una subiectivă. Dacă în cazul unei călătorii, dificultatea traficului reprezintă informație pentru utilizator, în cazul unei statistici europene despre fluiditatea medie a traficului pe șoselele fiecărei țări, ea poate reprezenta simple date. Așadar, ca o definiție informală, informația reprezintă răspunsul unei întrebări, iar datele reprezintă materia primă ce va fi prelucrată în căutarea acestuia. Ceea ce pentru cineva reprezintă informație, pentru altcineva, sau în alt context poate reprezenta doar date.

Căutarea unor informații începe cu colectarea datelor. Există mai multe metode de a colecta date, precum folosirea unor senzori automați (ca în cazul datelor GPS), sondaje de opinie sau prin observații.

După colectare, datele trebuie stocate. Deși pare o sarcină relativ ușoară, sistemele de stocare a datelor pot deveni unelte software extrem de complexe, ce pot primi date din mai multe surse simultan, garantând siguranța acestora în fața oricărei probleme precum defectarea unui dispozitiv de stocare, și permițând în același timp accesul facil și rapid.

Pentru obținerea informațiilor, datele trebuie analizate. De obicei, se începe cu o analiza manuală, în care se explorează datele și de identifică ce tip de informații poate fi obținut. Dacă este necesar, această analiză poate fi automatizată pentru a prelucra constant date, cum se întamplă în cazul datelor GPS pentru informații despre trafic. În unele cazuri, procesarea de date nu este facută pentru a raspunde la o întrebare clară, ci pentru a întelege mai bine un fenomen. În acest caz, vorbim despre o explorare a datelor, ce pot fi mai apoi vizualizate în imagini corespunzătoare.

Structură

În această serie de lecții vom prezenta bazele disciplinei data science într-un mod cât mai practic - vom efectua împreună analize a unor date și vom încerca să extragem informații. Vom prezenta concepte matematice, în special din cadrul statisticii matematice, precum și modele de machine learning folosite pentru a studia datele. Vom discuta diverse tipuri de grafice și ce tip de informații pot prezenta ele, ca la sfârșit să putem prezenta povestea spusă de date. Pe lângă efectuarea analizelor propriu-zise, vom discuta cum interpretăm analizele altor autori.

Fiecare lecție va analiza un set de date, și va urma întreg firul gândirii din spatele unei analize. În unele cazuri, lecțiile pot fi însoțite de materiale adiționale ce prezintă anumite concepte. Ele trebuie parcurse alături de lecție atunci când se va face referire la ele.

Cerințe

Pentru a parcurge aceste lecții, este importantă cunoașterea limbajului de programare Python - unul din cele mai folosite limbaje pentru acest tip de probleme, împreună cu limbajul R. Toate bibliotecile folosite, precum și noțiunile teoretice, vor fi introduse practic, în timpul efectuării analizelor propriu-zise.

Pentru conceptele matematice prezentate va fi o discutie formală, ce poate necesita înțelegerea matematicii din clasele superioare de liceu, dar va exista și o discuție informală, menită să dea cititorului o înțelegere de ansamblu asupra conceptului introdus, precum și a folosiri acestuia în cadrul analizelor.

Este recomadat să scrieți codul în timp ce parcurgeți tutorialul, pentru o mai bună înțelegere. Analiza datelor este o artă - nu vă sfiiți să deviați de la lecție și să încercați lucruri noi. De asemenea, este recomandat să exersați noțiunile prezentate, fie în exercițiile sugerate, fie în analiza altor date de pe internet. Vă puteți colecta chiar propriile date!

Precauții

Așa cum veți vedea pe parcursul acestor lecții, datele sunt cheia obținerii informațiilor. Cu cât mai multe date, cu atât informațiile extrase sunt mai relevante. Datorită acestui lucru, datele au devenit una dintre cele mai scumpe și apreciate resurse. Când colectați, prelucrați sau analizați date, sunteți responsabili să le respectați licența de folosire. Mai mult, datele au adesea caracter personal, ale căror prelucrare este strict reglementată prin lege.

Toate datele folosite în aceste lecții sunt date publice, din surse precum Guvernul României.

Nu uitați că o analiză depinde de calitatea datelor folosite. De asemenea, în lucrul cu datele este foarte ușor ca, din greșeală sau cu intenție, să descoperim doar o parte din poveste. Acest truc este folosit adesea pentru a induce în eroare publicul prin rapoarte și statistici care, deși adevărate, sunt incomplete. Parte din aceste lecții sunt dedicate înțelegerii acestor probleme, atât pentru a le evita în timpul analizelor voastre, cât și pentru a întelege mai bine analizele (posibil greșite) ale altora.

In [ ]: