Data je jedna od najbrže rastućih disciplina u IT industriji u Srbiji

Data je jedna od najbrže rastućih disciplina u IT industriji – a ko su njeni glavni protagonisti?

Prema Statista platformi, prognozirani rast globalnog tržišta i analitike podataka (BDA) procenjen je na 274,5 milijardi dolara do 2022. godine, što je više od 60 odsto u odnosu na period od pre četiri godine.

Pomenuti rast utiče na to da sve više kompanija svoje poslovanje zasniva na podacima i ulaže značajna sredstava u taj segment. Sa druge strane, ovo je i jedan od glavnih razloga zbog koga su odeljenja koja se u IT kompanijama bave podacima i njihovom analizom postala jedna od najbrže rastućih.

Za samo godinu dana, Data disciplina u Endavi zabeležila je vrtoglavi napredak, kako u Srbiji, tako i u svim njenim predstavništvima širom Adriatik regiona. To je bio jedan od razloga da se u kompaniji po prvi put organizuje Data Days, događaj posvećen ovoj disciplini tokom kojeg su svoja znanja na različite teme iz domena podataka razmenili Endavini stručnjaci iz Srbije, Severne Makedonije i Slovenije.

Mi smo želeli da saznamo zbog čega je analitika podataka tako važna i kako možemo postati više svesni njihovog značaja. Koje su razlike između Data Engineer, Data Scientist i Data Analyst role i šta one imaju zajedničko? Odgovore smo potražili od predstavnika tri različite role iz tri različite zemlje: Olivere Hadžić Borisavljević, Senior Data Analyst-a iz Endave Beograd, Bojana Sapunova, Senior Data Consultant-a iz kancelarije u Skoplju i Jurea Bevca, Senior Data Scientist-a iz Ljubljane, koji su nas uveli u svet podataka i objasnili kako on izgleda iz njihove perspektive.

Klijenti postaju sve svesniji važnosti podataka

Prema rečima Jurea, Data Scientist-a, klijenti često imaju problema sa prikupljanjem i upravljanjem podacima, posebno ako se podaci prikupljaju ručno. Često imaju svoje Data learning modele razvijene in house i nisu svesni principa koji određuju njihovu uspešnost, što često dovodi do lažnih rezultata. Zbog toga je veoma važno ukazati klijentima na moć dobrog modela, ocenjuje on i dodaje:

Prilikom prikupljanja podataka često se ispostavi da je pristup koji je klijent odabrao pogrešan od samog početka. Recimo, prikupljanje irelevantnih, a izostavljanje važnih podataka može dovesti do toga da stvari krenu po zlu. Zbog toga je upućivanje klijenata na adekvatno prikupljanje podataka jedan od načina kako im možemo pomoći.

Ovo je primer koji pokazuje da su u Data Science-u razumevanje domena iz kojeg klijent dolazi i čišćenje podataka prvi i najvažniji delovi projekta. Jure dodaje i sledeće:

Ako imate loše podatke, možete koristiti i najbolji model na svetu ali nećete dobiti nikakav rezultat. Dakle, ako ne želite da se bavite pripremom podataka, možete jednostavno da zatvorite projekat i završite sa poslom.

Iako se uglavnom bavim tabelarnim podacima, gde možete očekivati da dobijete dobro pripremljen materijal, u praksi se to nikada ne dešava. Svaki projekat obično uključuje čišćenje podataka na početku. Izuzetak su nestrukturirani podaci kojima je potrebna transformacija kao što je augmentacija, kropovanje, filteri koje treba primeniti na slike i slično.

A šta je ključno da se napravi dobar model?

Prema rečima Bojana Sapunova koji je Data Engineer po struci, postoji više načina za postizanje sličnih rezultata, ali često je iskustvo to koje vam pomogne pri odluci koju praksu je najbolje primeniti. Osim toga, sve tri role, Data Engineer, Data Scientist i Data Analyst, moraju poznavati biznis kontekst – zbog čega se određeni model koristi, koliko često mu treba pristupati, da li je kreiran u transakcione ili analitičke svrhe itd.

Klijenti su počeli da shvataju važnost podataka i žele da njihovo poslovanje bude bazirano na njima, zbog čega je ova disciplina postala znatno brojnija i stalno raste.

Razlika između Data inženjera, Data Scientist-a i Data Analyst-a

Iako su sve tri role u prošlosti imale istu roditeljsku rolu, one se razvijaju odvojeno i stručnjaci u svakoj oblasti mogu mnogo naučiti radeći zajedno. Jure objašnjava:

Projekti kojima se bavi Data Scientist obično imaju neku od komponenti veštačke inteligencije (AI). Na većim projektima dobijamo podatke u obliku koji je dovoljno dobar za početak modeliranja i obično radimo prediktivno modeliranje i validiramo sam model. Ako se desi da su podaci nestrukturirani, bilo da je reč o slikama ili video snimcima, obično primenjujemo augmentaciju i transformaciju podataka. I dok na malim projektima ponekad radimo i Data Engineering, na većim sarađujemo sa stručnjacima iz ove oblasti.

Sa druge strane, Bojan kaže da se, za razliku od prediktivnih modela koje gradi Data Scientist, inženjeri bave data modelima koji predstavljaju prikaz sistema i procesa nekog DWA, baze ili mesta gde se podaci skladište. Mi smo odgovorni za transformaciju podataka, pisanje stored procedura, migraciju podataka na cloud ili u neke druge  sisteme“, kaže Bojan.

Vrlo često je njihov posao da razumeju poslovanje i da blisko sarađuju sa klijentima kako bi imali dovoljno informacija za dizajniranje ispravnih transformacija podataka i modela, i zato se odgovornosti Data Engeneer-a ponekad preklapaju sa odgovornostima Data Analyst-a.

“Prva stvar na koju pomislite kada kažete da radite kao Data Analist je izveštavanje i vizualizacija, ali zapravo je mnogo više od toga. Najvažnije je da podatke razumete na pravi način“, objašnjava Olivera, Data Analyst iz Beograda. Ona navodi i sledeće:

U radu koristimo transformaciju podataka i razvoj modela sa strukturiranim podacima, a kada je reč o programskim jezicima, neophodno je poznavanje SQL-a i Python-a koje ćete moći da koristite i u drugim rolama. Pored toga, kada radite kao analitičar podataka, morate imati dobre komunikacione veštine, jer je zajednički jezik sa klijentom od najveće važnosti.

Koje alate koriste ovi stručnjaci?

Najčešći alati koje Data Engineer-i koriste su SQL i klijentski alati bazirani na podacima kao što su MS SQL Management studio, Oracle, MiSKL Vorkbench, PG admin i tako dalje. Bojan objašnjava:

Sve više se oslanjamo na specifične transformacije u Python-u zbog jednostavnosti samog programskog jezika, čitljivosti koda i višestrukih open-sourse biblioteka koje pruža za različite svrhe čišćenja, transformacije ili manipulacije podacima. Usluge u cloud-u su u sve većoj upotrebi – neke od njih se oslanjaju na Spark kao što su Databricks Snowflake, AWS Redshift, ili na neke od ETL alata u cloud-u. Poslednji, ali ne i najmanje važan, je Excel koji najviše koristimo kada operišemo sa manjom količinom podataka koji su u nestandardnom formatu ili želimo da brže manipulišemo njima.

I dok analitičari podataka uglavnom koriste alate kao što su Power BI i Tableau, Data Scientist-i se u velikoj meri oslanjaju na Python sa uobičajenom infrastrukturom, NumPi, Pandas, Scikit-Learn, Matplotlib za grafikone i okvire kao što su TensorFlov i PiTorch.

Kako će ove role izgledati u budućnosti?

Prema rečima Olivere, Bobana i Jurea, uloga Data Analyst-a se razvija i širi ka ulozi Data Scientist-a zbog obima podataka, alata i tehnika koje se koriste za ubrzavanje procesa analize. Data Scientist-i će u budućnosti biti nešto između Machine Learning inženjera i klasičnih Data Scientist-a. Osnovna razlika je u tome što se Machine Learning bavi pretežno nestrukturiranim podacima a Data Science radi više sa tabelarnim podacima. Ono što sa sigurnošću možemo reći je da budućnost leži u automatizaciji, koja će neke od koraka u dolasku do pravog modela učiniti mnogo bržim.

Kada govorimo o ulozi Data Engineer-a, u godinama koje slede sve više će rasti značaj upotrebe cloud-a. Mogućnosti i izazovi koje on nudi stvaraju nove mogućnosti – bržu analizu velike količine podataka ili analizu streaming podataka.

Šta je najvažnije naučiti ukoliko želite karijeru u Data disciplini?

Pored alata koje smo prethodno spomenuli, ukoliko želite da započnete svoju karijeru u Data disciplini morate biti spremni na stalnu komunikaciju i saradnju sa klijentima, kako bi mogli na pravi način da razumete biznis kojim se bave.

“Ono što razlikuje role u Data disciplini od rola u developmentu jeste činjenica da klasični programer možda nije u kontaktu sa klijentom sve vreme, dok smo mi u kontaktu sa klijentima svakodnevno. To je slučaj i sa Data inženjerima, iako oni nisu toliko uključeni u ovaj deo kao Data Analyst-i”, zaključuje Bojan.

Pred nama je izazovno vreme, proizvodi se i analizira mnogo podataka, dok istovremeno imamo razvoj cloud-a i mašinskog učenja, otvaraju se nove mogućnosti koje će Data disciplinu učiniti još zanimljivijom u budućnosti.

Ukoliko ste zainteresovani za posao u ovoj disciplini, u nekoj od rola o kojima smo govorili, možete aplicirati putem zvaničnog sajta kompanije Endava.


Odgovori

Tvoja e-mail adresa neće biti objavljena.

Popularno

Startapi i poslovanje

Da li ženski pristup pravi uspešne biznise?

Filozof Soren Kierkegaard kaže da se život može razumeti samo iz retrospektive, ali da se mora živeti unapred. Kažu i da preduzetnici imaju odlične instinkte za snalaženje, ali da ih pitate da objasne kako su nešto znali, možete da očekujete odgovor koji je u suštini glasi - nemoj da me pitaš gluposti, ne znam.

Office Talks Podcast

Šta je ‘destination’ marketing i kako kreirati strategiju koja privlači turiste?

Turizam jedne države danas i te kako zavisi od digitalnog oglašavanja. O tome šta predstavlja termin 'destinacionog marketinga' i kako Srbija i Crna Gora mogu da sebe bolje brendiraju kao turističke destinacije, govorimo u 93. epizodi Office Talks Podcasta.

Startapi i poslovanje

Srpski Eat Me App rešava problem viška hrane koja se baca – čuvajući našu okolinu

Otpad od hrane je treći najveći emiter gasova staklene bašte na svetu. Globalno, 30% ili 1,8 milijardi tona sve proizvedene hrane na globalnom nivou se pokvari zbog loše planiranje resursa duž linije lanca snabdevanja. Srpski startap Eat Me App sa svojom aplikacijom nastoji da stane na put ovom problemu i globalnom društvu ponudi jedno od rešenja za ovaj veliki problem.

Propustili ste

Startapi i poslovanje

Srpsko-švajcarski Strong Network podigao €5,1 investicije – širi se na Evropu i SAD

Strong Network, srpsko-švajcarski startap dobio je investiciju vrednu 5,1 miliona evra kako bi ubrzao svoje širenje na teritorije Evrope i SAD-a. Rundu investiranja predvodio je OpenOcean zajedno sa Wingman Ventures fondom.

Startapi i poslovanje

Decentralizovane autonomne organizacije (DAO) – izazovi i perspektive

Džon Lenon je u pesmi 'Power to the people' sumirao koncept slobode i omogućavanja građanima da odlučuju o političkim i društvenim prilikama. Ove ideje stare su koliko i prve teorije o uređenju društva.

Startapi i poslovanje

B-Fresh: Nakon pobede na Generator ZERO konkursu, krećemo sa aktivnom prodajom!

Domaći startap ekosistem možda ne obiluje sa previše uspešnih agrotech rešenja. Ipak, Generator Zero konkurs OTP banke predstavio nam je talentovane timove iz oblasti ekologije i poljoprivrede. Pobedu na ovom takmičenju odneo je tim B-Fresh sa proizvodom za produženje roka trajanja voća i povrća.

Gaming

Novo poglavlje Tetrisa piše se u Beogradu i Tel Avivu – razvijaće ga Playstudios

Kompanija Playstudios kupila je krajem prošle godine prava za razvoj Tetris franšize na mobilnim platformama. Dalji razvoj ovog legendarnog naslova poveren je timu Playstudios Europe iz Beograda na kome će zajedno raditi sa kolegama iz Playstudios Israel u Tel Avivu.

Office Talks Podcast

Zašto Elon Musk kupuje Twitter?

Twitter - hoće li ostati kakvog ga znamo ili sa akvizicijom Elona Muska dolazi neka nova era? O kupovini ove društvene mreže razgovaramo u 95. epizodi Office Talks podcasta.

Startapi i poslovanje

Londonski Qudo sa osnivačem iz Srbije uzeo investiciju od $3,5 miliona – razmišlja se o razvojnom centru u Beogradu

Questionardo, firma koja razvija platformu Qudo za agilno ispitivanje potrošača i preciznu digitalnu aktivaciju vođenu podacima, nedavno je dobila i investiciju od 3,5 miliona dolara. Jedan od osnivača ovog startapa dolazi iz Srbije i sa njim razgovaramo o daljem poslovanju i razvoju proizvoda.