Анализа података и наука о подацима¶

Да ли знаш шта се подразумева под анализом података? Како се назива занимање оних који се баве анализом података? Шта мислиш, да ли постоји ограничење у количини података која се може анализирати уобичајеним методама анализе података?
Анализа података је процес чишћења, испитивања и визуелизације података, са циљем откривања вредних увида и доношења паметнијих пословних одлука. Посао аналитичара података је интерактиван - он или она покушава на различите начине да извуче корисне информације из масе података. Овде можемо да разликујемо истраживачку анализу података (идентификовање образаца и односа у подацима) и потврђујућу (енгл. confirmatory) анализу података, која примењује статистичке технике како би се утврдило да ли је претпоставка о одређеном скупу података тачна. Методе којима се служи аналитичар података обухватају груписање података у одређене категорије и праћење вредности одређених статистичких параметара по категоријама, пивотирање података, креирање различитих погледа на податке и слично. Овакво схватање посла данас можемо да назовемо традиционалним, јер је формирано пре појаве великих података.
Јасно је да овај, традиционалан приступ, није примерен анализи велике количине података, јер човек није у стању да на исти начин стиче увиде из веома великих количина података, као што то чини са умереним количинама података. Анализа података може да буде временски захтевна и зато традиционални аналитичари критикују настали талас интересовања за обраду великих количина података. Они сматрају да су очекивања од великих података нереална, јер велике количине података није могуће квалитетно обрадити у разумном времену, нарочито када су подаци разнолики по структури.
Као одговор на растуће потребе за обрадом и анализом великих количина података, појавила се нова научна дисциплина, коју зовемо наука о подацима (енгл. data science). Енглески термин за професионалца у овој области (data scientist) можемо да преведемо као „научник за податке“.
Наука о подацима укључује све од раније познате методе анализе података, али и неке нове, које су пре свега усмерене на савладавање проблема проистеклих из величине и разноврсности скупова података које треба анализирати. Због величине података, потребно је укључити и неке облике аутоматске анализе података. Са друге стране, извлачење корисних информација из података који су често неструктурирани и врло разноврсни било би прилично тежак задатак за класичан рачунарски програм. Међутим, пошто се ради о веома великим количинама података, могуће је применити машинско учење и на тај начин обезбедити аутоматску обраду.

Посао научника за податке је такође истраживачки, као и посао аналитичара података. Међутим, док се време за један корак у истраживању код аналитичара података изражава у десетинама минута, једна итерација научника за податке може да траје и неколико дана, зависно од величине скупа података. Научник за податке је врло често у ситуацији да за сваки експеримент над подацима пише одговарајући програмски кôд, који на неки начин трансформише оригиналне податке. На пример, сваки ентитет из оригиналних података може да се представи неким низом бројева фиксне дужине. Ови бројеви могу да се организују у табелу, тако да редови представљају ентитете, а колоне могу да се схвате као одређене особине ентитета (енгл. features), изражене нумерички. Проучавањем статистичке расподеле бројева у колонама, може да се уочи које колоне (тј. особине) су погодне за машинско учење. Сâм процес машинског учења се такође састоји од многобројних експеримената, почевши од избора приступа, до подешавања параметара учења.
Да бисмо што боље разумели специфичности послова од којих се састоје анализа података и наука о подацима, тј. разлике међу њима, згодно је да их прикажемо помоћу табеле.
Особина |
Анализа података |
Наука о подацима |
---|---|---|
Употреба дистрибуираних система |
нема потребе |
да, Hadoop, Spark, или неки комерцијалан систем (Microsoft Azure, Oracle и други) |
Типично складиштење података |
SQL базе података |
SQL и NoSQL базе, фајлови у одговарајућем формату за дати тип података |
Укључује програмирање? |
углавном не, могуће ради визуализације података (Python, R) |
да, често (Python, могуће MATLAB, C++ и разни други програмски језици) |
Типични алати |
Excel, SAS, Tableau, Power BI, SPSS |
Развојна окружења за програмирање, специфични програми за манипулацију одговарајућим типом неструктурираних података, по потреби и Excel |
Потребна знања |
Добро познавање статистике, спретност у класичном руковању подацима, разумевање области пословања из које долазе подаци |
Машинско учење (са свим што то укључује, нпр. статистика, линеарна алгебра), програмирање, рад у дистрибуираним системима, а затим у извесној мери и знања потребна за анализу података |
Намена |
Пре свега снимање тренутног начина пословања и тражење могућности да се пословање унапреди у кратком року; дефинисање најважнијих нумеричких показатеља доброг пословања (KPI’s - key performance indicators) и њихова визуелизација |
Дугорочна инвестиција ради откривања нових трендова у великим подацима, са циљем да се предвиди будућност и препозна потреба за крупнијим променама или нове пословне прилике |