Šta su otvoreni podaci?

26. jul 2022.

Pojam “otvoreni podaci” se pojavljuje tek prije nekoliko godina. Stoga postoji potreba da se on definiše i bliže objasni. Ovaj pojam je u srpski jezik ušao prevodom riječi sa engleskog jezika - Open Data. Samim prevodom nije puno izgubljeno jer i u engleskom se ovaj pojam definiše i objašnjava. Postoji više definicija, a kako ne postoji jedinstvena, bez rizika da se neko uvredi jer nije izabrana upravo njegova definicija, u ovom priručniku ćemo dati svoju:

Otvoreni podaci su kompletni, ažurni i izvorni podaci kojima svako može slobodno pristupiti, ponovo koristiti i dijeliti ih dalje, bez obzira na svrhu.

Kompletnost

Da bi podaci bili kompletni oni treba da obuhvate celinu prikupljenih informacija, bez izuzimanja dijelova informacija pod izgovorom da se podrazumijevaju ili nisu bitne. Ukoliko postoje podaci o ličnosti, potrebno ih je ukloniti odnosno depersonalizovati podatke, ali ne metodom agregacije. Ukoliko je neophodno, podatke treba agregirati minimalno moguće. Uz podatke koji se daju potrebno je obezbediti šifarnike koji se odnose na date podatke. U slučaju kompleksnije strukture veoma je korisno i objasniti strukturu podataka. Dodatne informacije uz date skupove podataka dajemo pomoću metapodataka. Metapodatke još zovemo podacima o podacima. Koristimo ih kako bi postigli interoperabilnost između različitih portala i za lakše snalaženje među podacima. Uobičajeno je da u metapodacima navedemo naziv skupa podataka, nadležnu instituciju, period na koji se podaci odnose i slične informacije. Ukoliko postoje izvedeni i računati podaci, informacija o tome kako su izvođeni treba da bude data u vidu objašnjenja ili linka na metodologiju koja je korišćena. Ove informacije treba predstaviti u okviru opisa resursa ili skupa podataka. I na kraju, da bi bili kompletni potrebno je obezbjediti pristup istorijskim podacima, odnosno ne uklanjati prethodno objavljene otvorene podatke.

Ažurnost

Informacija vrijedi samo ukoliko je pravovremena. Nakon neke prirodne katastrofe, kao što je poplava ili zemljotres, svima je jasno da se katastrofa dogodila i informacija o tome više nije aktuelna, za razliku od ažurne informacije koja može da spasi ljudske živote. Samo informacije objavljene odmah po prikupljanju, odnosno u realnom vremenu daju punu funkcionalnost otvorenom skupu podataka. Preporučuje se da će se uspostaviti elektronski automatski mehanizam, koji bez intervencije čoveka može da ažurira i objavi najnovije podatke.

Izvorni podaci

Tumačenje i agregacija su veliki neprijatelji otvorenih podataka. Podatke treba dati u izvornom obliku, upravo onako kako su prikupljeni. Agregacijom podataka ta cjelina se narušava. Detalji o procesu prikupljanja podataka i izvori podataka takođe treba da budu objavljeni, a dobro mijesto za njihovo objavljivanje su metapodaci.

Slobodan pristup

Slobodan pristup podrazumijeva da su skupovi podataka jednostavno dostupni. Prepreke koje se mogu javiti mogu biti fizičke prirode, gde se na putu do podataka zahtijeva posjeta nekoj instituciji, popunjavanje formulara, podnošenje zahtjeva uz pozivanje na zakon o slobodnom pristupu informacijama i slične obeshrabrujuće i zahtjevne postupke. Prepreke mogu biti i tehnološke prirode, kada se informacije daju putem stranica i tehnologije, npr. flash, silverlight, java apleta - odakle ih nije moguće lako preuzeti bez aktivnog učešća čoveka u tom procesu. Često je informacija data na stranici koja nema permanentni link već se generiše preko JavaScripta, što opet sprečava slobodan pristup podacima.

Korišćenje i dalje dijeljenje podataka

Da bi podaci mogli ponovo da se koriste oni moraju biti dati u obliku koji je moguće mašinski jednostavno obraditi, odnosno u mašinski čitljivom obliku. Ukoliko podatke prikažemo u obliku skenirane slike, kako je uobičajeno u praksi organa uprave (da bi se video pečat), računar to svakako ne može da razume kao podatak, već mu je neophodan čovjek da bi rastumačio tako datu informaciju. Podaci treba da budu dati u jednom ili istovremeno više aktuelnih otvorenih formata, kao što su na primjer CSV, XML, JSON. Ovakve podatke mašina dalje može jednostavno obrađivati i eventualno kombinovati sa drugim izvorima podataka, čime se ostvaruje dodatna vrijednost otvorenih podataka. Greška je ukoliko se podaci daju u formatu koji nije otvoren jer to obično podrazumijeva kupovinu licenci da bi se uopšte mogli čitati takvi podaci. Najčešće greške su objavljivanje u formatima koji pripadaju Microsoft - u (doc, xls...).