Dnešná doba je charakteristická príliš veľa informáciami, ktoré je potrebné spracovávať a analyzovať. Na to, aby to bolo možné realizovať, je potrebné mať vhodné nástroje a znalosti. Jedným z nástrojov, ktorý môže pomôcť splniť tento cieľ, je Kaggle.
Čo je to Kaggle a čo má spoločné s machine learning
Kaggle je online komunitná platforma, ktorá slúži rôznym expertom a nadšencom, ktorí sa zaujímajú o Machine Learning či Data Science. Umožňuje kolaborovať užívateľom medzi sebou a tiež pridávať a hľadať rôzne datasety. Taktiež je tam možnosť súperiť s ostatnými v rôznych súťažiach. Platforma bola založená Anthonym Goldbloomom a Jeremym Howardom v roku 2010, o sedem rokov neskôr v roku 2017 ju odkúpil Googlom a je momentálne vlastníkom tejto platformy. Cieľom tejto platformy je pomáhať profesionálom či študentom dosahovať ich ciele vo vede za použitím výkonných nástrojov a zdrojov, ktoré platforma poskytuje. K roku 2021 bolo na platforme zaregistrovaných vyše 8 miliónov užívateľov (Uslu 2022).
Vyhľadávanie na Kaggle
Na Kaggle je možné vyhľadávať niekoľkými spôsobmi. Hneď na úvodnej stránke v navigačnej lište sa nachádza vyhľadávacie pole, pomocou ktorého si môže užívateľ vyhľadať rôzne datasety, modely, komentáre. kódy, diskusie či kódy. Ďalšou možnosťou je hľadať na konkrétnych stránkach, kde sa tiež nachádza vyhľadávanie, to môže byť pre užívateľa prívetivejšie, pretože väčšinou si chce nájsť konkrétnu vec, napríklad dataset, takže nemusí použiť všeobecný vyhľadávač na úvodnej stránke. Popis aj printscreeny boli spravené na základe webovej stránky kaggle.com, čo je hlavný zdroj pre tento článok
Vyhľadávanie cez úvodnú stránku
Po kliknutí do poľa sa mi toto vyhľadávacie okno zväčší a ten zobrazí nejaké časté vyhľadácia textové reťazce a tiež populárne tagy. Užívateľ si však samozrejme môže zvoliť svoj vlastný textový reťazec a podľa neho vyhľadávať. Pre ukážku bol zvolený textový reťazec “student performance”.
Obrázok 1 Úvodná stránka platformy s vyhľadávacím poľom na pravej strane. (zdroj: autor)
Obrázok 2 Po kliknutí do vyhľadávacieho poľa sa rozšíri toto vyhľadavacie pole, to potom zobrazuje nejaké trendy, ktoré sú veľmi často vyhľadávané a tiež tagy. (zdroj: autor)
Po zadaní tohto reťazcu sa mi zobrazia výsledky, ktoré s ním súvisia. Tieto záznamy je možné si filtrovať rôznymi spôsobmi. Hneď pod textovým poľom je vidieť šesť kategórii výsledkov:
- Notebooks
- Témy (Topics)
- Datasety (Datasets)
- Komentáre (Comments)
- Súťaže (Competitions)
- Modely (Models)
Kliknutím na jednotlivé položky si je možné filtrovať záznamy podľa potreby. Avšak je možné ďalej filtrovať aj na základe parametrov na ľavej strane, tu sa ponúkajú možnosti filtrovania podľa:
- dátumu
- autora
- veľkosti datasetu
- typu súboru
- licencie
- modelu
- frameworku
- jazyku
- tzv. Competition Evaluation Algorithm
- tagov
Obrázok 3 Zobrazené výsledky po zadaní konkrétneho textového reťazca do vyhľadávacieho poľa. (zdroj: autor)
Vyhľadávanie cez konkrétne stránky
Ako je spomínané vyššie, tak je možné vyhľadávať záznamy aj cez stránky, ktoré sa zobrazujú v navigácii na úvodnej stránke platformy.
Súťaže (Competitions)
Na stránke so súťažami je možné vyhľadávať opäť pomocou nejakého textového reťazca. Ten je potom možné filtrovať nasledujúcimi spôsobmi. Prvým z nich je filtrovanie podľa možností pod textovým poľom, tie môžu byť napríklad tieto: všetky datasety, obľúbené, výskumné alebo komunitné. Ďalšou možnosťou je rozkliknúť záložku filter a filtrovať týchto parametrov:
- stav
- ceny a odmeny
- kategórie
- účasť
- pre hostiteľov
Obrázok 4 Stránka so súťažami a možnosti filtrovania.
Po kliknutí na konkrétnu súťaž je možné vidieť popis, o akú súťaž sa jedná, ako sa prihlásiť a čo je úlohou. V záložke Data sa potom nachádzajú dáta, ktoré sú potrebné k analýze alebo spracovaniu. Code a Model záložky obsahujú riešenia tejto úlohy
Obrázok 5 Popis konkrétnej súťaže.
Datasety (Datasets)
Stránka s datasetmi obsahuje filtry s týmito parametrami. Pod vyhľadávacím poľom je možné si filtrovať záznamy napríklad podľa toho datasetov ohľadom vzdelania, počítačovej vedy či dátovej vizualizácie. Ďalšími možnosťami, ako vyhľadávať, je vyhľadávanie podľa:
- tagov
- veľkosti súboru
- licencie
- hodnotenie použiteľnosti
Obrázok 6 Stránka s datasetmi a možnosti filtrovania.
Po kliknutí na dataset je možné hneď vidieť popis, o aký dataset sa konkrétne jedná, ten sa nachádza v záložke Data card. Ďalej v nej nájdeme ďalšie info ako napríklad to, ako často je využívaný tento dataset (atribút usability rating), pod akou licenciou je dostupný a tiež tagy. Pod popisom je možné nájsť daný dataset, vo väčšine prípadov je vo formáte csv, pri ňom je možné vidieť, koľko záznamov a stĺpcov obsahuje. V záložke je možné nájsť aj nejaký kód (napr. v Pythone alebo R), ktorým niekto spracovaval daný dataset a tiež je možnosť diskutovať o datasete v záložke discussions.
Obrázok 7 Popis konkrétneho datasetu.
Modely (Models)
Modelová stránka sa líši vyhľadávaním a filtrovaním oproti predchádzajúcim dvom stránkam. Na tejto stránke je filtrovanie len pod vyhľadávacím poľom, tam je opäť niekoľko možnosť, ako si nájsť záznamy. Prvou možnosť je možnosť všetky filtre, sú v nej obsiahnuté všetky atribúty, pomocou ktorých sa dá filtrovať, zoznam je tento:
- úloha
- dátový typ
- framework
- vydavateľ
- jazyk
- licencia
- veľkosť
- hodnotenie použiteľnosti
Obrázok 8 Stránka s modelmi a možnosti filtrovania.
Podobne ako pri datasetoch, tak aj po otvorení konkrétneho modelu je možné vidieť jeho popis. Vedľa neho je potom možné nájsť, aký framework bol použitý, aká je jeho používanosť a tagy, pod ktorými je možné ho nájsť. Pod ním je potom možné vidieť, aký model bol konkrétne použitý, taktiež je tam rozsiahly popis o tom, ako ho je možné použiť. Taktiež je tam možné nájsť záložku Code, kde je vidno, ako bol tento model spracovaný niekým iným a tiež záložku Discussions, kde je možné diskutovať o danom modely.
Obrázok 9 Popis konkrétneho modelu.
Kódy (Code)
Stránka s kódmi už má opäť rovnaký spôsob vyhľadávania a filtrovania ako prvé dve stránky. Opäť tu vidíme textové pole, pomocou ktorého sa dajú vyhľadávať jednotlivé kódy. Pod týmto textovým poľom opäť nájdeme niekoľko možností, ako si rýchlo filtrovať záznamy, sú tam napríklad tieto možnosti: Python, R alebo NLP. V textovom poli sa napravo opäť nachádza záložka filter, ktorá ponúka tieto možnosti filtrovania:
- tagy
- jazyk
- výstupy
- typy
- akcelerátor
Obrázok 10 Stránka s kódmi a možnosti filtrovania.
Detail konkrétneho kódu obsahuje tzv. Notebook, v ňom nájdeme kód, ktorým môžeme analyzovať dáta podľa potreby. V záložke Input je možné nájsť vstupné dáta, ktoré sa spracovávajú a v záložke Output výstup, ktorý vyplynul zo spracovania. Taktiež sú k dispozícii aj komentáre, kde sa môže daný kód diskutovať.
Obrázok 11 Popis konkrétneho kódu.
Diskusie (Discussions)
Stránka s diskusiami tiež ponúka možnosti vyhľadávania. Oproti zvyšným stránkam však funguje trochu inak. Na začiatku sa užívateľovi zobrazia jednotlivé fóra, ktoré si užívateľ môže vybrať. Po kliknutí už je to vyhľadávanie podobne ako v predchádzajúcich stránkach. Do textového poľa je možné zadať textový reťazec, ktorý dokáže nájsť záznamy užívateľovi, ktoré potrebuje. Pod týmto poľom sa nachádzajú tri taby, pomocou ktorého sa dajú pozerať záznamy, tie umožňujú zobrazovať:
- všetky záznamy
- záznamy vo vlastníctve
- záložky
Filtrovanie je potom možné pomocou záložky, ktoré sa nachádza v textovom poli vpravo, to ponúka tieto možnosti filtrovania podľa:
- aktuálnosti
- autora
- tagov
Obrázok 12 Stránka s kategóriami jednotlivých diskusií. (zdroj: autor)
Obrázok 13 Stránka s konkrétnou kategóriou. (zdroj: autor)
Po rozkliknutí niektorej z diskusii je možné na začiatku vidieť popis diskusie a pod ňou komentáre k danej téme.
Obrázok 14 Stránka s konkrétnou diskusiou. (zdroj: autor)
Kurzy (Courses)
Stránka s kurzami obsahuje vyhľadávanie kurzov, pomocou ktorých je možné sa vzdelávať v oblasti Machine Learningu či Data Science. Tieto kurzy sú zadarmo a je možné z nich dostať aj certifikát. Na rozdiel od ostatných stránok nie je možné filtrovať záznamy.
Obrázok 15 Stránka s kurzami. (zdroj: autor)
Po kliknutí na konkrétny kurz sa zobrazia užívateľovi videá, ktorý daný kurz má, je možné si pozrieť aj nejaké komentáre ku kurzu.
Obrázok 16 Stránka s konkrétnym kurzom. (zdroj: autor)
Záver
Kaggle je veľmi užitočná platforma, ktorá slúži expertom a nadšencom v oblasti machine learningu. V práci boli predstavené možnosti vyhľadávania zdrojov, to je možné buď to podľa vyhľadaváča na úvodnej stránke, prípadne použiť vyhľadávač na jednotlivých stránkach. To je podľa môjho názoru lepšie na jednotlivých stránkach, pretože je to to komplexnejšie a vyhľadávanie je presne nastavené na to, či sa jedná o dataset alebo model.
Zdroje
KAGGLE. Kaggle: Your Machine Learning and Data Science Community [online] [vid. 2023-12-06]. Dostupné z: https://www.kaggle.com/
USLU, Çağlar, 2022. What is Kaggle? [online] [vid. 2023-12-06]. Dostupné z: https://www.datacamp.com/blog/what-is-kaggle