Улога података¶
У заједници која се бави вештачком интелигенцијом често можеш да чујеш две изреке: ”подаци су ново злато” и ”ђубре на улазу, ђубре на излазу”. Оне нас заједно подсећају на то колико су подаци вредни за разумевање и моделовање феномена и колико пажње треба посветити креирању квалитетних скупова података. Зато ћемо у овој секцији отворити ове теме.
Данас готово сви домени активности генеришу велике количине података: остају забележене информације о видеима које смо прегледали на вебу, производима које смо купили, пријатељима са којима смо се повезали на некој друштвеној мрежи, али и информације о посетама лекару, метеоролошким приликама града у којем живимо или стању у саобраћају које за нас евидентирају надлежне институције. Сви ови подаци се могу употребити да боље разумемо окружење у којем настају.
Баш као и у причи о базама података са којом си се сусрео претходне године, и у машинском учењу важне ентитете и догађаје чија понашања желимо да моделујемо описујемо атрибутима (кажемо и карактеристикама). Тако се, рецимо, један филм може описати насловом, жанром, годином када је снимљен, називом продукцијске куће, издвојеним буџетом, профитом, синопсисом, именом режисера и именима главних глумаца. Избор адекватних атрибута које треба да пратимо и бележимо приликом прикупљања података није једноставан задатак зато што не знамо унапред који атрибути ће се најбоље показати за задатак који желимо да решимо у будућности. На пример, уколико желимо да искористимо податке за предвиђање профита филма (што би био један регресиони задатак), можда ће нам бити корисније информације о глумцима и продукцијској кући, док се, рецимо, за задатак одређивања жанра филма (што би био један класификациони задатак) може показати кориснијим синопсис филма. У комплекснијим доменима ови избори су праћени са још више дилема и изазова.
Због потребе да податке искористимо за што шири скуп примена, можемо доћи на идеју да прикупљамо вредности што је могуће већег броја атрибута. Иако је идеја валидна за неке ситуације, у општем случају треба имати на уму да је за велику количину података потребно обезбедити одговарајуће складиштење, хардвер који може да подржи њихову обраду, као и тим стручњака који има одговарајуће вештине и знања да обавља ове задатке. Због тога избори овог типа могу бити скупи и захтевати посебна планирања. Треба узети у обзир и да је велике количине података изазовно анализирати и разумети и да су за обављање тог скупа задатака, такође, потребне одговарајуће техничке компетенције, на пример, технике визуелизације података. Важно је напоменути и да су многи домени у којима се појављују приватни и осетљиви подаци у обавези да доследно прате регулативе и етичке смернице о прикупљању података (о томе ћемо посебно говорити) па у том смислу постоје и додатна ограничења у вези са избором атрибута и могућностима њиховог чувања. Зато је задатак прикупљања података и креирања квалитетних скупова података изазован и захтеван посао који тражи пажљиву организацију.
У наредним лекцијама ћемо видети да је сваки атрибут одређен својим типом и скупом вредности и да та његова својства утичу на то како даље треба да припремамо податке - на крају дана алгоритме машинског учења можемо да применимо само над нумеричким вредностима. Број атрибута и њихова својства у пракси утичу и на избор алгоритма машинског учења.
Напреднији алгоритми машинског учења, попут неуронских мрежа, имају моћ да сами издвоје атрибуте који су важни за решавање задатка. У том смислу нас растерећују размишљања о избору атрибута и њихових комбинација. Ово нам је посебно корисно у раду са сложеним подацима као што су слике или текстуални садржаји у којима и није баш увек интуитивно дефинисати и издвојити атрибуте. За овакве алгоритме кажемо да могу да раде са сировим подацима (енг. raw data).

Шта сматраш изазовним у погледу прикупљања података у домену који те интересује? То може да буде спорт, нека научна дисциплина, друштвенa појава или било шта друго.
Да ли имаш неке задршке или бојазни у погледу прикупљања и обраде података?
Шта је за тебе лично најважније у делу прикупљања података?