GM Business #123 - Special issue "DATA" GM 123 DATA SPECIJAL | Page 47

Upload podataka u Watson Studio i preliminarna analiza Watson Studio zna da radi sa naj- različitijim vrstama izvora podataka, od relacionih on premise ili cloud baza (open source i svih relevantnih vendor- skih), noSQL baza, BigData (hadoop) instanci, cloud storage instanci, cloud repozitorijuma (tipa Dropbox i sl.), pa je lako kreirati konekciju direktno sa vaše baze podataka. U našem slučaju možemo jednostavnim drag&dropom uploadovati naš CSV fajl, čime se od njega automatski kreira tzv. Data Asset. Treba napomenuti da Watson Studio nudi mogućnost korišćenja posebnog IBM Aspera upload protokola putem jednostavne instalacije browser plugi- na. Uz ovaj dodatak upload podataka će biti ubrzan nekoliko puta, što je jako bitno za velike data fajlove. (Slika 2) Klikom na novi Data Asset otvara se preview podataka, u kome nam je dat pristup ka dve veoma moćne opcije: Data Profile i Data Refine. Profajler podataka nam odmah uka- zuje na atribute (kolone) u našem CSV fajlu u kojima kvalitet podataka nije zadovoljavajući (npr. pretežno prazne kolone ili kolone u kojima je svuda jedna te ista vrednost), koje statistički ne doprinose kvalitetu modela, a sa druge strane usporavaju i komplikuju kreiranje kvalitetnog modela. Takođe, možemo na lak način videti koji se skupovi diskretnih vrednosti mogu naći u pojedinim kolonama, npr. nama posebno zanimljiva kolona loan_status može sadržati samo vrednost „Fully Paid” ili „Charged Off”. Treba napome- nuti da u ovoj fazi profajler može da otkrije i taguje karakteristične tipove podataka (npr. brojeve kreditnih kar- Slika 1 Slika 2 Slika 3 tica), što vam omogućava da Data Governance polisom ograničite pri- stup takvim podacima, ili da ih u real- nom vremenu platforma zameni „bez- bednim” vrednostima (npr. xxxx xxxx xxxx xxxx). (Slika 3) Internet ogledalo - specijalno izdanje - DATA