Pondělí, 18 listopadu, 2024

Kaggle: případová studie s vizualizací prostřednictvím Google Data Studio

Sdílet

Úvodní představení Kaggle

Kaggle není pouze knihovna datasetů, ale jedná se o komunitu odborníku z prostředí data science a machine learning. Kaggle umožňuje uživatelům především publikovat a vyhledávat kvalitní data sety. Dále nabízí i samotné vzdělání ve zmiňovaných oblastech, a dokonce i webovou platformu pro data science. Na platformě lze spolupracovat s dalšími odborníky a účastnit se různých datových soutěží.

Kaggle byl založen roku 2010, kdy poskytoval soutěže v machine lerning. Roku 2017 Kaggle odkoupila společnost Google. Nepatrným důkazem, že je Kaggle dceřinou společností Google může být i následující příklad. Po zadání klíčového slova „ev“ do vyhledávače datasetů od Googlu se dataset z platformy Kaggle nabídne jako první. (GOOGLE DATASET SEARCH, 2021) Ke konci roku 2021 firma eviduje přes 8,3 milionů unikátních uživatelů. (TUNGUZ, 2021)

Případová studie

Kaggle si nejlépe přiblížíme, pokud si ukážeme reálný use case. Naším zadáním tak bude získání dat z oblasti elektrických automobilů, kde budeme chtít získat obecný přehled o elektrických automobilech na trhu a následně si je vizuálně přiblížit, aby data byla lépe čitelná.

Způsob vyhledávání

Oblast vyhledávání datasetů na portále Kaggle je velmi intuitivní a neobsahuje příliš filtračních možností.

Vyhledávání data setu může být provedeno dvěma způsoby.

  1. Prvním je výběr stránky Datasets v menu, které se nachází na levé části stránky.
  2. Zadáním klíčových slov rovnou do horního vyhledávače.
Obrázek 1 Vyhledávání na Kaggle (zdroj: autor)

Zadání dotazu přes stránku Datasets

A. Na stránce Datasets se pak nachází vyhledávač, do kterého zadáme klíčová slova.

Obrázek 2 Zadání dotazu přes stránku Datasets (zdroj: autor)

B. Dále se výběr může lépe specifikovat. Pro náš účel postačí, když přidáme tag Automobiles and Vehicles, omezíme velikost datasetu a vybereme typ souboru CSV.

Obrázek 3 Filtrování dotazu (zdroj: autor)

C. Vyfiltrováním nám zůstaly 3 data sety

Obrázek 4 Výsledek dotazu (zdroj: autor)

D. Nabízí se i styl řazení výsledků. Na výběr je 5 možností: hottest, most votes, new, updated, usability.

Obrázek 5 Možnost řazení (zdroj: autor)

E. V tomto případě máme výběr jednoduchý. Za předpokladu, že by se v dané oblasti vyskytovalo více datasetů, tak nám výběr usnadní název a rating komunity. V případně, že bychom stále nevěděli, jaký data set je pro naše užití vhodný, pomůže nám popis datového setu po kliknutí na něj. Hned na prvním výsledku vidíme dobré hodnocení od komunity. Použitelnost (ang Usability) nabývá vysoké hodnoty 10. To znamená, že má data set dobrou dokumentaci a je k dispozici přehled. Dále vidíme číslo 60, které značí počet lajků od komunity. 

Obrázek 6 Vybrání data setu (zdroj: autor)

F. Po rozkliknutí prvního data setu získáme základní přehled.

Obrázek 7 Základní přehled data setu (zdroj: autor)

G. Po rozkliknutí popisu získáme obecný popis a otázky, které nám dataset pomůže zodpovědět.

Obrázek 8 Popis data setu (zdroj: autor)

H. Pokud se nám popis líbí můžeme přejít k jeho stažení ve formátu csv. Další možností je kliknutí na tlačítko „New notebook“, které nás přesměruje na cloud-based pracovní plochu, kde můžeme provádět analýzy daného data setu například pomocí jazyku Python. Tato možnost ale nemusí být u všech datových sad. Pro naše potřeby postačí stažení do formátu CSV.

Přímé zadání dotazu do vyhledávače na hlavní stránce

Tento způsob vyhledávání se liší pouze ve vzhledu filtrování data setů. Pro uživatele může působit přehledněji a výhodou je například automatické nabízení tagů, které v předchozím zobrazení chybí a uživatel si musí na tagy přijít sám pouze za pomoci našeptávače. Naopak nevýhodou toho zobrazení je možnost seřazení datových sad. V tomto zobrazení je možné seřazení pouze podle relevantnosti nebo data publikování. Namísto prvního zobrazení, kde bylo na výběr až 5 možností. Po rozkliknutí následuje zobrazení již popsané od bodu F z předchozí kapitoly.

Obrázek 9 Výsledek přímého zadání do vyhledávače na hlavní stránce (zdroj: autor)

Zpracování souboru získaného z Kaggle

Stažený soubor, jak napověděl popis, obsahuje dva soubory. Soubor s sufixem „_Norm“ obsahuje datové údaje i s jednotkami dat (např.: km/h, Wh/km). Pro následnou vizualizaci dat je proto lepší již očištěný soubor se sufixem „_Clean“, který obsahuje pouze data bez jednotek.

Vizualizace lze provést různými vizualizačními nástroji jako je Tableu, Power BI apod. Jelikož Kaggle spadá pod společnost Google, vizualizaci uvedeme na jejich řešení v prostředí Google Data Studio, které nabízí tvorbu dashboardů zdarma.

Práce s Google Data Studiem je intuitivní a podobá se jiným vizualizačním programům. Hlavním postupem je import dat a následné sestavení grafů. Nástroj má přednastavené konektory až k 476 různým zdrojům dat a Kaggle je jedním z nich. Proto by bylo možné vynechat krok stažení CSV z databáze Kaggle a namísto toho napojit zdroj dat s aplikací napřímo. Data Studio napodobuje prezentování, které je známo z programu Power Point, kde si dají jednotlivé grafy sestavit do takzvaných slidů.

Interpretace dat

Následná část se věnuje pouhé interpretaci dat, ke které pomohl Kaggle z hlediska zdroje dat a poté Google Data Studio pro vizualizaci dat.

Obrázek 10 Základní představení datasetu (zdroj: autor)
Obrázek 11 Elektrické automobily dle typu náhonu kol (zdroj: autor)
Obrázek 12 Elektrické automobily dle typu karosérie (zdroj: autor)
Obrázek 13 Velikost automobilů (zdroj: autor)
Obrázek 14 Zrychlení (zdroj: autor)
Obrázek 15 Cena elektroautomobilů (zdroj: autor)
Obrázek 16 Dojezd (zdroj: autor)

Zdroje

GEOFF839. EVs – One Electric Vehicle Dataset – Smaller [online]. Kaggle, 2020 [cit. 2021-12-02]. Dostupné z: https://www.kaggle.com/geoffnel/evs-one-electric-vehicle-dataset

GOOGLE DATASET SEARCH, [online]. 2021 [cit. 2021-12-02]. Dostupné z: https://datasetsearch.research.google.com/

GOOGLE DATA STUDIO, [online]. 2021 [cit. 2021-12-02]. Dostupné z: https://datastudio.google.com/

KAGGLE, [online]. 2021 [cit. 2021-12-02]. Dostupné z: https://www.kaggle.com/

TUNGUZ, Bojan. Unique Kaggle Users [online]. Kaggle, 2021 [cit. 2021-12-02]. Dostupné z: https://www.kaggle.com/tunguz/unique-kaggle-users

Použité obrázky

Obrázek 1 Vyhledávání na Kaggle (zdroj: autor)

Obrázek 2 Zadání dotazu přes stránku Datasets (zdroj: autor)

Obrázek 3 Filtrování dotazu (zdroj: autor)

Obrázek 4 Výsledek dotazu (zdroj: autor)

Obrázek 5 Možnost řazení (zdroj: autor)

Obrázek 6 Vybrání data setu (zdroj: autor)

Obrázek 7 Základní přehled data setu (zdroj: autor)

Obrázek 8 Popis data setu (zdroj: autor)

Obrázek 9 Výsledek přímého zadání do vyhledávače na hlavní stránce (zdroj: autor)

Obrázek 10 Základní představení datasetu (zdroj: autor)

Obrázek 11 Elektrické automobily dle typu náhonu kol (zdroj: autor)

Obrázek 12 Elektrické automobily dle typu karosérie (zdroj: autor)

Obrázek 13 Velikost automobilů (zdroj: autor)

Obrázek 14 Zrychlení (zdroj: autor)

Obrázek 15 Cena elektroautomobilů (zdroj: autor)

Obrázek 16 Dojezd (zdroj: autor)

Číst více

Další články