Úvod
Data.gov.uk patria k prvým a celosvetovo uznávaným portálom s open government dátami. Od svojho založenia v roku 2010 umožňujú prístup pod otvorenou licenciou k tisíckam datasetov, rozdelených do niekoľkých kategórií, ako sú napríklad doprava, vzdelanie a ekonomika prevažne v csv formáte. Počet datasetov neustále rastie a tiež vznikajú nové využitia týchto dát v rôznych aplikáciách. Zaujímavým využitím je aplikácia zobrazujúca úroveň kriminality vo vašom okolí, alebo ďalšia aplikácia pre cyklistov, ktorá vás varuje, ktorým miestam sa vyhnúť pri vašej trase, pretože sa tam stalo veľa nehôd cyklistov. V tomto článku sa pozrieme bližšie na celý príbeh data.gov.uk, čo všetko sú jeho prínosy a vysvetlíme si ako túto stránku používať.
Príbeh za vznikom data.gov.uk
Kľúčovú úlohu pre úspech projektu data.gov.uk zohrali Tim Berners-Lee a Nigel Shadbolt. Tim Berners-Lee, ktorý je považovaný za zakladateľa World Wide Webu prišiel k ďalšej revolučnej myšlienke a to otvoreným prepojeným dátam. Vo svojom článku Linked Data definuje pravidlá ako jednoducho tieto dáta prepojiť pomocou URI, jednoduchého identifikátoru prostriedku (Berners-Lee 2006). Vďaka tomuto článku vznikol medzi prvými projekt DBpedia, ktorá prepája rôzne dáta z wikipédie a umožňuje tak nájdenie nových spojitostí. Tim ďalej pokračoval v propagácii tejto myšlienky a výborne ju preslávil na TED konferencii, kde upozornil na obrovský nevyužitý potenciál prepojených otvorených dát pre rôzne sféry a hlavne pre boj s veľkými problémami, ktorým čelí svet (Berners-Lee 2009).
Profesor Nigel Shadbolt viedol projekt Advanced Knowledge Technologies (AKT), ktorý sa zaoberal témou použitia štandardov sémantického webu pre open government dáta. Výsledky tejto práce boli prezentované parlamentu Spojeného kráľovstva a na ich základe sa vytváral aj portál data.gov.uk (Shadbolt et al. 2012). Shaldbolt spomína, že závery tohto projektu zaujali aj ľudí vo vláde, ktorí boli naklonení ďalšiemu využitiu týchto poznatkov. Hovorí tiež, že hneď po vzniku tejto priaznivej nálady vo vláde bol aj veľmi dôležitý obed Gordona Browna, vtedajšieho premiéra a Tima Bernersa-Leho, ktorý presvedčil premiéra, aby im vláda dala dáta a oni ich výmenou za to premenia na web of data. Takto sa započal projekt data.gov.uk a celý tím pre jeho vznik mali na starosti práve už spomínané osobnosti Shadbolt a Berners-Lee. (SETsquared Partnership 2010).
Trvalo len rok od spustenia projektu a na portály sa objavilo niečo cez 6000 vládnych datasetov. Vďaka ich zverejneniu pod voľnou licenciou vzniklo niekoľko zaujímavých aplikácii. Okrem už spomínaných vznikla aj napríklad JustPark, ktorá umožní vyhľadať parkovacie miesto alebo si ho rezervovať dopredu (LinkedData.Center 2015). Potom aplikácia Fix My Street zjednodušila problém nahlasovania výtlkov a ďalších problémov s cestami kompetentným autoritám (Shadbolt 2011).
Open government dáta sa postupne stali trendom vo svete, a nakoniec dorazili aj do našich končín. Úplne prvou stránkou s open gevernment dátami bola americká data.gov, ktorá vznikla za podpory Obamovej administratívy. Druhou nato bola britská data.gov.uk. Neskôr u nás vznikli národné portály pre prístup k otvoreným dátam ako sú data.gov.cz a data.gov.sk. Metropoly oboch krajín prišli s vlastnými iniciatívami, ktoré pre Česko predstavuje Praha s opendata.praha.eu a na Slovensku Bratislava s opendata.bratislava.sk.
Čo priniesli data.gov.uk?
So začatím používania portálu nastal zásadný posun mentality zo strany štátnej aparatúry. Zmenil sa postoj udržiavania dát u seba a prípadného sprístupnenia za nejaký poplatok na zverejňovanie všetkých dát pod voľnou licenciou až na tie, ktoré sú súkromného charakteru. Shaldbolt hovorí, že práve táto zmena prináša vytváranie oveľa väčšej hodnoty, ako by boli niekde nečinne uložené, prípadne zverejnená len ich časť na požiadanie a za poplatok (SETsquared Partnership 2010).
Kapoor, Weerakkody a Sivarajah prehľadne zhrnuli benefity, ktoré by mali používaním open government platform vzniknúť. Prvou je zvýšenie transparentnosti zo strany štátu. Zverejnené vládne dáta by mali zvýšiť dôveru občanov a zároveň im umožniť lepšiu verejnú kontrolu nad tým, čo sa deje v štáte. Ďalším prínosom by mala byť podpora ekonomického rastu. Zverejnenie týchto dát pod otvorenou licenciou, by malo umožniť trhu vytvoriť nové produkty a služby. Tie by mali zvýšiť produktivitu, niektorej štátnej inštitúcie alebo inej spoločnosti naviazanej na dané dáta. Vzniknutie nového produktu by malo priniesť zamestnanosť a tá zase priniesť príjem pre štát vo forme daní. Za sociálny benefit môžeme považovať nové možnosti interakcie občanov s vládou. Tie by mali byť interaktívne a zároveň lepšie poskytovať informácie. Ďalej by malo dôjsť k zvýšeniu efektivity a redukcii nákladov inštitúcii, pretože získavanie dát je časovo a finančne náročne. Tým, že sa dáta otvorili verejnosti, by malo dôjsť k zvýšeniu ich kvality, keďže sú dostupné k verejnej kontrole. Tá by mala upozorniť na chýbajúce a nesprávne dáta. Shadbolt spomína príklad ako sa prvýkrát zverejnil zoznam všetkých autobusových zastávok v uk a za krátku dobu verejnosť prišla na to, že cez 12% zo všetkých zastávok je na úplne inom mieste, ako by mali byť podľa daného datasetu (SETsquared Partnership 2010). Podpora inovácii je tiež dôležitým benefitom. Nové poskytnuté dáta sú príležitosťou pre vývojárov k tvorbe nových inovatívnych riešení (Kapoor et al. 2015, s. 264).
Data.gov.uk majú význam nielen pre podporu transparentnosti a inovácii, ale aj vo vede. Štúdia od Yana a Webera z Washingtonskej univerzity, ktorá skúmala využitie open government dát v peer-reviewed literatúre zistila, že tento druh zdrojov dát sa využíva stále viac a to naprieč rôznymi vedeckými disciplínami. Najviac využívaným zdrojom z celkovo 1229 skúmaných článkov boli práve data.gov.uk a boli dokonca ešte viac používané ako americký portál data.gov. Najčastejšie používaným datasetom v skúmaných článkoch tejto štúdie bol „index of deprivation“ a bol používaný hlavne v oblasti výskumu verejného zdravia a medicíny (Yan a Weber 2018).
Ako používať data.gov.uk
Stránka prešla zásadným redizajnom v roku 2018, aby viac zapadala do siete ostatných vládnych stránok Spojeného kráľovstva a zároveň sa zjednodušila pre bežného používateľa. Vďaka tomu zmizlo aj viacero zaujímavých podsekcií stránky, ako napríklad rôzne štatistiky používania webu, alebo prehľad aplikácii používajúcich open dáta z tejto stránky.
Kategórie
Hneď na domovskej stránke je rázcestie s kategóriami, do ktorých sú roztriedené jednotlivé zverejnené dáta. Kategórie sú prehľadné a zrozumiteľné aj pre laického používateľa. Nižšie je uvedený ich zoznam aj s popisom obsahu:
Business a ekonómia
- Datasety o medzinárodnom obchode (clá, export, import), daniach, devízových rezervách, covid pomoci pre ekonomiku, malých a stredných podnikoch a vývoji priemyslu všeobecne.
Zločin a spravodlivosť
- Základné prehľadové datasety o polícií, súdoch a väzniciach (lokalita, zamestnanci). Ďalej dáta o kriminalite, napríklad o podvodoch, alebo podpaľačstve. Tiež sa zaznamenávajú aj údaje o tom, kedy boli použité strelné zbrane políciou. Ďalej tu sú datasety o situácii na hraniciach a imigrácií.
Obrana
- Sprístupnené dáta o vojenských zložkách, civilných zamestnancoch v armáde, penzijných schémach pre armádu, ostrých streľbách vo vojenských obvodoch, bezpečnostnej situácii, zdravotných incidentoch v armáde, pátracích a záchranných operáciách.
Vzdelanie
- Údaje o zamestnancoch v školstve, o knižniciach, mládežníckych organizáciách, dochádzke študentov, školách, kvalifikáciách a národnom kurikulu.
Životné prostredie
- Dáta o životných podmienkach zvierat, vývoji počasia, oblastiach s rôznymi formami environmentálnej záťaže, živelných pohromách, ochrane lesov, riek, kvality vzduchu, geologické dáta a poľnohospodárstvo.
Vláda
- Prehľad o riadení pracovných síl, platy zamestnancov, inovačné a výkonnostné reporty, nehnuteľnosti, záznamy o stretnutiach s externými organizáciami a business plány oddelení.
Vládne výdaje
- Datasety so všetkými platby v štátnom sektore nad 25 000 libier.
Zdravotníctvo
- Dáta o zdravotných testoch, fajčení, drogách, alkohole, potravinovej hygiene, prevencii rakoviny, účinnosti liečby a výdaje nemocníc nad 25 000 libier.
Mapovanie
- Rôzne mapy lokalít (morské dno a suchozemský terén) a adresy, vlastníctva pozemkov, letecké fotografie, parkovacie zóny, stav ciest , volebné miestnosti a zastávky hromadnej dopravy.
Spoločnosť
- Zamestnanosť, podpora v nezamestnanosti, nezamestnanosť mladých, komunitné služby, rodinné financie, nízkopríjmové skupiny obyvateľstva, viera, populácia a jej mobilita.
Mestá
- Bývanie, územné plánovanie, verejné priestranstvá, voľný čas, lokality prípojok na inžinierske siete, energie a odpady, spotreba, zelená infraštruktúra a bezdomovectvo.
Doprava
- Letiská, cesty, plánované rekonštrukcie ciest, osvetlenie ciest, nákladná doprava, železničná sieť, elektrické autá, parkovanie, autobusy, hustota dopravy, lokality semaforov, chodníky, cyklotrasy a licencie pre taxislužby (data.gov.uk 2021).
Filtre
Po výbere konkrétnej kategórie, ktorá nás zaujala si môžeme ešte viac spresniť naše vyhľadávanie pomocou dostupných filtrov. Prvým je filter podľa inštitúcie, ktorá dané dáta zverejnila. Zoznam dostupných inštitúcií sa líši podľa našej predchádzajúcej voľby kategórie a priebežne sa aktualizuje. Nižšie na obrázku môžeme vidieť filter podľa inštitúcie v kategórií obrana.
Druhým filtrom, podľa ktorého môžeme spresniť naše vyhľadávanie je filter podľa dátového formátu. Väčšina prístupných súborov je v csv formáte, ale niekedy sa nájdu aj iné ako napríklad json, xlsx a ďalšie.
Tretí z dostupných filtrov je zameraný na licenciu, pod ktorou sú zverejnené datasety. Väčšina z datasetov na data.gov.uk je zverejnená pod voľnou licenciou Open Government Lice, ale pre istotu je vhodné zaškrtnúť toto políčko a ústiť sa, že skutočne spadajú pod spomínanú licenciu.
Výsledky vyhľadávania si môžeme zoradiť podľa dátumu pridania datasetu, alebo podľa zhody s našim vyhľadávaním.
Open Government Licence
Ako už bolo spomenuté, majorita datasetov na data.gov.uk spadá pod open governmnet licence. Tá je aktuálne v tretej verzii a umožňuje:
- Kopírovať, publikovať a distribuovať informácie
- Prispôsobiť informácie
- Využívať informácie komerčným a nekomerčným spôsobom, napríklad ich kombinovaním s ostatnými informáciami, alebo ich využitím vo vlastnom produkte, či aplikácii
Pri použití dát je nutné:
- Potvrdiť zdroj informácie vo vašom produkte, alebo aplikácii pomocou výslovného uvedenia prehlásenia (attribution statement, ktorý je špecifikovaný poskytovateľom) o zdroji, alebo uvedením prepojenia naň. A ak je to možné uviesť aj odkaz na Open Government Licenciu.
Niektoré výnimky z licencie:
- Súkromné dáta
- Doklady totožnosti, ako je napríklad cestovný pas
- Vojenské insígnie
- Intelektuálne vlastníctvo, ako sú patenty a ochranné známky
Podrobnejší zoznam výnimiek, ďalšie špecifikácie k licencii a znenia predchádzajúcich verzií sú uvedené na stránke národného archívu: http://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/
Princípy publikovania dát na data.gov.uk
Profesor Shadbolt predstavil na konferencii IIEA niekoľko zásadných princípov publikovania dát, vyžadovaných od vládnych inštitúcii pre data.gov.uk. Jedným z problémov, s ktorým sa pri projekte stretli bol problém takzvaného „data huggingu“, keď inštitúcie veľmi neradi sprístupňovali svoje dáta hocikomu inému. To sa snažili zmeniť a vytvoriť princíp, kde sa publikujú všetky dáta až na tie, u ktorých máme dobrý dôvod ich nezverejňovať (napríklad súkromné dáta). Ďalším navrhovaným princopom je, že publikované dáta by mali byť v znovu použiteľnom a strojovo čitateľnom formáte. Tiež dáta by sa mali publikovať pod otvorenou licenciou, ktorá umožňuje opätovné použitie aj pre komerčné účely (Open Government Licence). Verejné inštitúcie majú práve podporovať a propagovať používanie týchto dát verejnosťou. Pre lepšie pochopenie ako čo najlepšie publikovať dáta navrhli používať pomôcku od Tima Bernersa-Leeho „Five stars to stardom“, ktorá pomocou počtu hviezdičiek určuje kvalitu zverejnených dát (Shadbolt 2011).
* Zverejniť dáta na web v hociktorom formáte
** Zverejniť ich v štruktúrovanom formáte
*** Používať tvorené štandardy a formáte pre zverejnené dáta
**** Používať URL k identifikácii dát
***** Prepojiť naše zverejnené dáta s ostatnými zverejnenými dátami
Ak by boli dáta zverejnené aj s prepojením na ostatné dáta, tak sa odstráni ďalší častý problém, ktorý sa vyskytoval v projekte a to „dátové silá“. Koncept dátových síl predstavuje jednotlivé oddelenia, alebo inštitúcie, ktoré disponujú dátami, avšak vôbec nie sú medzi sebou prepojené a preto sa nevyužíva ich plný potenciál .
Ako používať data.gov.uk?
Používanie data.gov.uk je veľmi jednoduché, ale pozrime sa na jeden konkrétny príklad. Dajme tomu, že chceme nájsť aktuálne dáta o hlučnosti pre jednotlivé lokality v Spojenom kráľovstve. Pre efektívnejšie vyhľadávanie využijeme možnosť voľby kategórie aj filtre. Na začiatok si zvolíme príslušnú kategóriu, kde očakávame, že by sa mali údaje o hlučnosti nachádzať. Preto si pre naše vyhľadávanie zvolíme životné prostredie (Environment). Dáta chceme mať vo vhodnom formáte pre prácu s nimi a preto si v ďalšom filtri volíme formát csv. Ďalej ešte zaškrtneme filter pre zobrazenie dát len pod Open Government Licenciou. Pre zobrazenie najaktuálnejších dát si ešte zvolíme zoradenie podľa najnovších dát namiesto najväčšej zhody. Do vyhľadávacieho poľa použijeme výraz noise exposure, ktorý by mal dobre reprezentovať náš predmet vyhľadávania.
Po spustení vyhľadávania by sme mali dostať podobný výsledok.
V čase písania tohto článku bol najaktuálnejším datasetom Noise Exposure data – Round 3. Na stránke venovanej nemu si môžeme pozrieť detailnejšie informácie o ňom, kedy bol prevedený poslednýkrát update, podrobnejší popis datasetu a s nim súvisiace datasety.
Pred stiahnutím dát si ich ešte môžeme pozrieť v náhľade. Alebo ak by sme našli nejaké nezrovnalosti, prípadne mali otázku ohľadom dát, môžeme kontaktovať danú inštitúciu zodpovednú za dataset.
Pre pokročilejších používateľov je k dispozícií prístup pomocou API. Používa sa CKAN API a detailný návod ako s ňou pracovať je na stránke: https://docs.ckan.org/en/2.7/api/index.html
Záver
Data.gov.uk sú skutočne výborným zdrojom dát z prostredia Veľkej Británie. To dokazujú užitočné aplikácie, ktoré vďaka nim vznikli, ale aj veľké množstvo výskumných projektov z rôznych vedeckých disciplín. Výraznejšie zverejňovanie umožnilo lepšiu kontrolu zo strany verejnosti a vytvorilo priestor pre inovácie. Dizajn stránky je prehľadný a vie sa v ňom zorientovať aj menej skúsený používateľ. Akurát by sa dalo vytknúť, že nie vždy všetky datasety sú v najlepšej kvalite a možno by mohli byť častejšie aktualizované. Avšak celkovo sa jedná o prínosnú stránku, na ktorej sa dá nájsť jednoducho veľké množstvo užitočných informácii.
Použité zdroje:
BERNERS-LEE, Tim, 2006. Linked Data. https://www.w3.org/ [online] [cit. 7.2.2021]. Dostupné na: https://www.w3.org/DesignIssues/LinkedData.html
BERNERS-LEE, Tim, 2009. Tim Berners-Lee: The next Web of open, linked data – YouTube [online] [cit. 7.2.2021]. Dostupné na: https://www.youtube.com/watch?v=OM6XIICm_qo&ab_channel=TED
DATA.GOV.UK, 2021. Find open data – data.gov.uk. data.gov.uk [online] [cit. 10.2.2021]. Dostupné na: https://data.gov.uk/
KAPOOR, Kawaljeet, Vishanth WEERAKKODY a Uthayasankar SIVARAJAH, 2015. Open Data Platforms and Their Usability: Proposing a Framework for Evaluating Citizen Intentions. V: Marijn JANSSEN, Matti MÄNTYMÄKI, Jan HIDDERS, Bram KLIEVINK, Winfried LAMERSDORF, Bastiaan VAN LOENEN a Anneke ZUIDERWIJK, ed. Open and Big Data Management and Innovation [online]. Cham: Springer International Publishing, s. 261–271. Lecture Notes in Computer Science. ISBN 978-3-319-25013-7. Dostupné na: doi:10.1007/978-3-319-25013-7_21
LINKEDDATA.CENTER, 2015. Almost 400 apps that use uk gov open data – documentation portal [online] [cit. 10.2.2021]. Dostupné na: http://sites.linkeddata.center/help/business/cases/296-apps-that-use-uk-datasets
SETSQUARED PARTNERSHIP, 2010. Transparency and Open Data: data.gov.uk [online]. [Youtube]. 2010. SETSQUARED PARTNERSHIP. Dostupné na: https://www.youtube.com/watch?v=vBNPIiKi00w&t=432s&ab_channel=SETsquaredPartnership
SHADBOLT, Nigel, 2011. A year of data.gov.uk. The Guardian [online]. 2011 [cit. 10.2.2021]. Dostupné na: https://www.theguardian.com/news/datablog/2011/jan/21/data-gov-nigel-shadbolt-government
SHADBOLT, Nigel, 2011. Nigel Shadbolt on UK Government Open Data Initiative [online]. [Youtube]. 2011. SHADBOLT, Nigel. IIEA. Dostupné na: https://www.youtube.com/watch?v=srPinVmjBOE&t=595s&ab_channel=IIEA
SHADBOLT, Nigel, Kieron O’HARA, Tim BERNERS-LEE, Nicholas GIBBINS, Hugh GLASER, Wendy HALL a m c SCHRAEFEL, 2012. Linked open government data: lessons from Data.gov.uk. IEEE Intelligent Systems [online]. 2012, roč. 27, č. 3, s. 16–24. ISSN 1541-1672. Dostupné na: doi:10.1109/MIS.2012.23
YAN, An a Nicholas WEBER, 2018. Mining Open Government Data Used in Scientific Research. V: Gobinda CHOWDHURY, Julie MCLEOD, Val GILLET a Peter WILLETT, ed. Transforming Digital Worlds [online]. Cham: Springer International Publishing, s. 303–313. Lecture Notes in Computer Science. ISBN 978-3-319-78105-1. Dostupné na: doi:10.1007/978-3-319-78105-1_34