Data Science i programski jezik R iz ugla Tatjane Kecojević - ENTER Conference
1476
post-template-default,single,single-post,postid-1476,single-format-standard,ajax_fade,page_not_loaded,,qode_grid_1300,qode-theme-ver-10.1.1,wpb-js-composer js-comp-ver-5.1,vc_responsive

Data Science i programski jezik R iz ugla Tatjane Kecojević

Dr. Tatjana Kecojević je dugogodišnji korisnik R-a sa doktoratom iz statistike sa Univerziteta u Manchesteru. Provela je niz godina kao istrazivač i viši predavač na univerzitetu u Ujedinjenom Kraljevstvu s brojem objavljenih radova u oblasti kvantilne regresije. Suosnivač je kompanije DataTeka koja je posvećena pružanju pomći ljudima da razviju razumevanje o podacima kroz temeljne strategije treniranja i obuka. Osnivač je RLadies-Manchester grupe i učestvuje u organizaciji RLadies grupa u Beogradu i Crnoj Gori. Njena interesovanja su iz oblasti statističkog modeliranja, statističkog računarstva i obrazovanja, kao i svega što se odnosi na #rstats. Više o Tatjani i o tome čime se bavi možete naći na njenoj web stranici: tanjakec.github.io

 

Koliko dugo koristiš R programski jezik i kakva evolucija se dogodila za to vreme u pogledu njegove primene?

 

R je dijalekt S jezika koji se pojavio 1996. godine, kada su Ross Ihaka i Robert Gentleman, profesori statistike na Auckland univerzitetu na Novom Zelandu, objavili kod kao open source projekat. Prvi put sam se susrela sa R-om 2003. godine kada sam započela doktorske studije na Unvirzitetu u Mančesteru. Na prvoj godini je trebalo da prođem kroz nekoliko modula sa master programa i z Statistike i od nas je traženo da koristimo R za neke od projekta. Škola Matematike je htela da sprovede eksperiment, jer do tada nisu koristili niti tražili od sutudenata da koriste R, pa s u hteli da vide kako ćemo se snaći. Morali smo da se oslanjamo na S-PLUS ‘Help’ kako bismo naučili da koristimo R. Jedno od prvih R skripti koje sam koristila bila je Linear Mixed Models: Appendix to An R and S-PLUS Companion to Applied Regression by Joh Fox.

„Pojava RStudia (integrisano razvojno okruženje za R) je pomogao da se R učini pristupačnijim ne samo za statističare, već i za ljude koji su zainteresovani i za neke druge segmente primene Data Science-a.“

 

Odmah mi se svidela ideja da pišem kod kako bih postavila statistički model i napravila fantastične grafikone. Oduševilo me je kako R omogućava pristupačnije eksperimentiranje i istraživanje podataka, reflektujući način na k oji razmišljamo o specifičnom statističkom problemu. Mnogo se promenilo od tih ranih dana i danas se R razvio u najsofisticiraniji program za analizu podataka. Postao je jedna od najmoćnijih a latki za Data Science. Google, Facebook i Amazon su samo neke od kompanija koje ga koriste. Pojava RStudia (integrisano razvojno okruženje za R) je pomogao da se R učini pristupačnijim ne samo za statističare za koje je prvobitno dizajniran i namenjen, već i za ljude koji su zainteresovani i za neke druge segmente primene Data Science-a.

 

Zašto se odlučiti baš za R, a ne za SAS ili SPSS kada je reč o tehnologiji obrade podataka?

 

R omogućava da se pobegne od restriktivnih okruženja i sterilnih analiza, koje nude ostali često korišeni softverski paketi za analize podataka. On je jedinstven među programskim jezicima po tome što su mu statistika i podaci ugrađeni u DNK. R sistem ima veliku biblioteku paketa koji nude najsavremenije mogućnosti za obradu podataka. Mnoge od analiza koje R omogućava nisu dostupne u standardnim paketa. To nije sve – u R-u možete kreirati sopstveni paket/biblioteku kao nadogradnju na R-ov osnovni sistem. Funkcionalnosti koje su implementirane u R kao što su upravljanje p odacima, analiza podataka i njihova vizualizacija su neopuredive sa bilo kojim drugim jezikom i softverskim paketom za analizu podataka. Omogućava vam jednostavno eksperimentisanje i istraživ anje, koje zapravo unapređuje analizu podataka. R je alatka koja omogućava analizu podataka na jedan reproduktivan način, tako što analizu čini korisnijom drugima jer podaci i kod kojima je na činjena analiza mogu biti javno dostupni. Poslednje, ali ne i najmanje važno je R zajednica, jedna od najvećih prednosti R programskog jezika. Podržana je od strane R Fondacije za Statističko Računarstvo, kao i snažnim i otvorenim angažmanom developera i korisnika iz raznih sfera, od nauke do trgovine. Teško je zamisliti da bi i jedna komercijalno orijentisana kompanija uspela da razvije tako održiv biznis model sa istim stepenom inovacija i snage koji karakteriše R zajednicu. Saradnja između statističara i drugih naučnika koji se bave statističkim računarstvom, kao i sve veći rast interesovanja kompanija, stvara jednu altruističnu R zajednicu. Ovo je osnovna sila koja omogućava R-u da ima vodeću ulogu u polju data analytics-a i data science-a generalno. Kao rezultat, ovako jaka zajednica kreira još moćnije R resurse kojima privlači nove data naučnike i analitičare.

 

Da li je za nekoga ko želi da uči R presudno predznanje iz statistike ili se taj eventualni nedostatak može nadoknaditi uz rad?

 

Ono što ćete naučiti kada koristeći R je kako da razmišljate o podacima i kako da rešite probleme koristeći data science alate. RStudio čini R lakšim za upotrebu, ali takođe omogućava kreiranj e i renderovanje tekst dokumenata koji sadrže R kod, čime podstiče i neguje transparentnost pri istraživanju i replikabilnost rezultata. S druge strane, možda nećete biti zainteresovani u anal izu podataka, već ćete radije koristiti R kako biste izradili svoj veb sajt ili napisali knjigu. Mogućnosti su neograničene. Sve u svemu, ne morate biti statističar, niti čak zainteresovani da učite statistiku da biste koristili R. R je alatka koja može da se koristi u mnogim segmentima data science kruga, koji ne moraju da se oslanjaju na statistiku.

„Unapređenje ljudskih života leži u iskorištavanju postojećeg potencijala podataka, što je osnovni razlog zašto se bavim istraživanjem i obrazovanjem u oblasti data science.“

 

Kako vidiš budućnost Data Science-a i njenog uticaja na biznis i društvo?

 

Sve veća količina podataka koje bivamo svesniji, izrodila je jednu sasvim novu disciplinu – data science. Narastajuća potreba za podacima i laka razumljivost izvađenog znanja i uvida iz podata ka je motivaciona sila data science-a. Eksplozijom “Big Data” problema, data science je postala veoma popularno polje u mnogim naučnim oblastima kao što su marketing, finansije i drugim poslov nim i društvenim disciplinama. S obzirom na to, sve je veća potražnja za poslovnim i društvenim naučnicima i istaživačima sa veštinama iz statistike, modelovanja i računarstva. Danas je moguće da uočimo pravilnosti i regularnosti u podacima svih vrsta, i to nam omogućava da unapredimo školstvo, poboljšamo životne uslove i stvorimo komercijalnu i društvenu vrednost. Zahvaljujući Dat a Science-u danas možemo da ustanovimo koji medicinski tretmani odgovaraju kojim ljudima i na taj način kreiramo preventivne strategije za određene bolesti. Unapređenje ljudskih života leži u iskorištavanju postojećeg potencijala podataka, što je osnovni razlog zašto se bavim istraživanjem i obrazovanjem u oblasti data science.

 

Dugo si živela u Mančesteru, bavila si se istraživačkim radom, osnovala si kompaniju DataTeka… U Mančesteru si čak pokrenula i R Ladies zajednicu. Kakvi su tvoji profesionalni planovi sada kada si se vratila u Srbiju?

 

Nakon skoro 20 godina rada u akademiji, donela sam jednu od najboljih odluka u mom životu: da je napustim. Izazovi koji nastaju kada vodim svoju kompaniju mi pružaju mnogo podsticajnije okruže nje. Imam više mogućnosti da komuniciram sa velikim brojem različitih klijenata i kolega naročito onih koji su data science entuzijasti. Veoma sam uživala u predavanju studentima, ali sam oset ila potrebu da postavim sebi novi izazov u drugom smeru. R Ladies u Srbiji i Crni Gori su za mene idealna platforma da se povežem sa svim R korisnicima i da uposlim sve svoje veštine. Velikom merom sam motivisana potrebom da podpomognem razvoju R zajednice, i unapredim učešće i angažman žena unutar R radne grupe i data science zajednice.

„Nakon skoro 20 godina rada u akademiji, donela sam jednu od najboljih odluka u mom životu: da je napustim.“

 

Na kojim platformama i kanalima se najpre informišeš o novinama u svojoj profesiji?

 

Uvek je zadovoljstvo učestvovati i prezentovati na R konferencijama kao što je UseR! Ove godine predavaću na ERum koji će biti održan u Budimpešti od 14. Do 16. Maja. Prisustvo na konferencija ma je sjajan način da se nauči nešto novo o trendovima i inovacijama, kao i za razmenu isustva i ideja sa svim učesnicima u ovom polju. Kao što sam već rekla, R ima veoma snažnu zajednicu. Smatram da je najbolji način da ostanem informisana o novim trendovima jeste kroz angažman i interakciju sa R zajednicom. Navešću samo nekoliko načina na koje i vi možete da se povežete odmah:

  • #rstats haštag (#rstats hashtag): ljubazna i inkluzivna zajednica R korisnika sa kojima možete da komunicirate na Twitteru.
  • R-Ladies (R-Ladies): svetski rasprostranjena organizacija fokusirana na promovisanje rodnih različitosti u okviru R zajednice, sa više od 60 lokalnih organizacija;
  • Lokalne R meetup grupe (Local R meetup groups): meetupi su za korisnike svih nivoa veoma korisni;
  • RWeekly (Rweekly): neverovatni nedeljni pregled svih stvari u vezi sa R-om;
  • R-bloggers (R-bloggers): mesto gde možete naći korisne postove od različitih blogera koji pišu o R-u;
  • DataCarpentry (DataCarpentry) i SoftwareCarpentry (Software Carpentry): ovde možete naći resurse i lekcije koji promovišu model replikabilnog istraživanja.

 

 

 

 

R Ladies radionica u Startit centru Beograd

 

U okviru ovogodišnje ENTER konferencije našim učesnicima i učesnicama ćeš držati radionicu o osnovama R programskog jezika, da li možeš da nam kažeš šta mogu da očekuju da će naučiti na toj radionici?

 

Želim da ljudi bolje razumeju moć koju nam podaci omogućuju i da uklonim tabu da je statistika jedna kompleksna disciplina koju mogu da razumeju samo neki. Ovo je staromodan pogled koji ne pripada eri u kojoj živimo. Sa ovim stavom ću sve učesnike upoznati sa dostupnim R alatkama koje su potrebne u tipičnom data science projektu, i to ćemo učiniti kroz malu studiju slučaja. Razmenićemo ideje o načinu na koji razmišljamo o data science-u i o najboljima načinima da komuniciramo rezultate istraživanja sa ciljnom grupom. Nadam se da će se učesnicima biti korisno i zabavno.