Велике количине података¶
Ни данашње време није лишено изазова у процесу прикупљања, обраде и анализе података. Наиме, прикупљање података је постало тако ефикасно, да је поново већ само складиштење тих количина података постало проблем. Примера ради, један Ербасов авион на само једном лету генерише, помоћу разних сензора, око један терабајт података. Ти подаци се користе да би се потврдила исправност рада свих механизама у авиону, односно да би се после лета обавиле потребне интервенције и спречио настанак квара. Можда терабајт и не звучи као велика количина, али када узмемо у обзир да велике авио-компаније имају по неколико стотина авиона који просечно лете по 7 сати дневно, постаје јасно да није једноставно чак ни сачувати све те податке. При томе је чување података само један од проблема које треба решити приликом бављења тако великим количинама података.
Израз Big Data из енглеског језика (велике количине података) за кратко време је постао веома распрострањен и популаран. Мада се овај израз често чује у разговорима, представа о томе шта он тачно подразумева још увек је прилично магловита. Разјаснимо зато шта велике количине података чини великим.

Које су најважније карактеристике великих количина података, тј. под којим условима за неке податке можемо да кажемо да су „велики“?
Кратак одговор би био: ако чување и обраду података не можемо да обавимо на уобичајени начин, говоримо о великим количинама података. Овде се под уобичајеном мисли на употребу једног или неколицине рачунара и стандардних апликација за обраду, као што су програми за табеларна израчунавања, програми који користе релационе базе података, програми за математичке (статистичке) прорачуне и слично. Стандардни рачунари и апликације се, наравно, користе и у раду са великим подацима, али они нису довољни за све потребне активности.
Дужи одговор описује специфичности података, због којих није могуће да са њима поступамо на уобичајени начин. Три кључне карактеристике великих количина података, које их разликују од података на какве смо навикли су обим, брзина генерисања и разноликост (енгл. volume, velocity, variety, особине великих података познате као „три-ве“).
Обим података: Капацитет дискова на стандардним рачунарима данашњице је реда неколико терабајта. Међутим, данас многе компаније обрађују податке реда петабајта и више. Тако велики подаци често долазе са „интернета ствари“, али и из обраде слика, аудио и видео-фајлова, са друштвених мрежа, као и са обичних веб-страна. Чак и ако не складиштимо одједном све податке којима се бавимо (него само део који тренутно обрађујемо), за складиштење таквих количина података уобичајени приступ од неколико дискова није довољан.
брзина пристизања података: нови подаци се често генеришу великом брзином, па је потребно обезбедити огроман проток и довољно брзу обраду. Чак и ако је капацитет везе довољан да подржи толики проток, обрада свих података на једном процесору може да постане уско грло. Данашњи рачунари типично извршавају неколико стотина милиона операција у секунди, што у условима велике брзине пристизања података може да не буде довољно.
разноликост података: Подаци који се прикупљају из различитих извора могу да буду веома разнолики по својој структури и формату. По нивоу структурираности разликујемо структуриране, полуструктуриране и неструктуриране податке.
Структурирани подаци су типично велике табеле које се састоје од редова и колона података тачно одређеног типа. Такви подаци се најчешће налазе у релационим базама података, мада могу да се нађу и у другим облицима и форматима (разни формати специјализованих програма за табеларна израчунавања, текстуални CSV фајлови и слично).
Полуструктурирани подаци се обично налазе у форматима попут Json или XML. Ови подаци су хијерархијски уређени, али формат допушта одређену слободу (структура не мора да буде иста у свакој грани хијерархије).
Неструктурирани подаци могу нпр. да буду аудио и видео-фајлови, слике, па и текстуални фајлови у слободној форми (од књижевних дела до коментара купаца одређене компаније). Наравно, овде спадају и сви други типови података који немају никакво унутрашње уређење, тј. структуру.
Различитост структура и формата значи да није могуће све те податке обрађивати на исти начин, једним приступом и једном апликацијом, већ су за разне врсте података потребни разни приступи.
Поред ових најважнијих специфичности великих података, постоје и друге, које нису суштинске, али се често срећу у пракси.
Ваљаност података (veracity): Приликом прикупљања веома великих количина података неминовно ће неки од података бити изгубљени или оштећени. Разлог томе могу да буду разне техничке несавршености у поступку прикупљања података, као што су грешке у хардверу и софтверу, грешке при руковању, непредвиђене околности итд. Због тога је код великих података потребна посебна фаза рада, која подразумева проверу ваљаности, односно техничке исправности података. На пример, у великој табели један део неке колоне може да буде празан (изгубљене вредности услед неке грешке). Пошто су количине података огромне, ручно проналажење оваквих грешака није реално изводљиво. Обично је потребан интерактиван рад, који укључује неке аутоматизоване кораке (нумеричке, статистичке и друге анализе података ради налажења грешака). Подаци се чисте од грешака и недоследности на различите начине, зависно од врсте уоченог проблема и области примене. На пример, ако у једном делу података нису присутни сви параметри, може да се одбаци део који није комплетан (ако није велики), или да се недостајући подаци надокнаде интерполацијом постојећих (ако је изводљиво и примерено). Неке недоследности могу да се отклоне једноставним реформатирањем, нпр. ако подаци нису добро раздвојени у колоне.
Вредност података (value): За конкретну анализу, с обзиром на постављени циљ, одређени подаци могу да буду небитни. Уклањање небитних података доприноси квалитету коначних резултата обраде, али ни тај део посла није једноставно обавити када података има много. Провера вредности података се такође често обавља интерактивно, тј. комбиновањем мануелних и аутоматских корака.
Из ове карактеризације великих података видимо да су главни проблеми које треба решити при раду са њима чување великих количина података, довољно брза обрада података који пристижу великом брзином и обрада података разноликих по структури и нивоу структурираности. Било који од ова три типа проблема је довољан да податке сматрамо великим. При томе, када карактеришемо неке податке као велике, не треба да се везујемо за конкретне бројчане границе, јер се оне померају са временом. Нешто што је пре пар деценија сматрано за огромне количине података и захтевало посебна технолошка решења, данас може да се обради на једном стандардном рачунару и више не спада у велике податке. Дакле, велике податке не одређује нека прецизна бројчана граница капацитета за чување, пренос или обраду, већ могућности актуелних рачунара у датом тренутку, односно технологија потребна за рад са тим подацима. У том смислу, сâм појам Big Data се не користи само за податке, него тако називамо и пратећу научно-технолошку област која се бави омогућавањем чувања, обраде и анализе великих количина података.
Велики подаци су област која се бави начинима за систематско издвајање информација из скупова података, за анализу и друге обраде података, који су сувише велики или комплексни да би се њима бавио само традиционални софтвер за обраду података.