Pondělí, 25 listopadu, 2024

Census.gov: co prozrazují o Američanech data

Sdílet

Úvod

Sčítání lidu v USA je řízeno pod záštitou organizace United States Census Bureau (UCSB), v češtině tzv. Americký úřad pro sčítání lidu. Ten poskytuje údaje o lidech a ekonomice národa. Každých 10 let provádí sčítání lidu, domů a bytů, do kterého se počítají všichni obyvatelé Spojených států. Agentura také shromažďuje údaje prostřednictvím více než 100 dalších průzkumů u domácností a podniků každých jeden až pět let.

Četné sčítání a průzkumy každý rok pomáhají jednotlivým státům, místním komunitám a podnikům rozdělit více než 675 miliard dolarů ve federálních fondech a zároveň pomáhají státům, místním komunitám a podnikům při přijímání informovaných rozhodnutí. Podniky používají údaje ze sčítání k určení, kde by měly být postaveny sklady, kanceláře a obchody, což vede k vytváření pracovních míst. Developeři k výstavbě nových domů a revitalizaci stávajících. Sčítání používají místní samosprávy k veřejné bezpečnosti a připravenosti na mimořádné události. Obyvatelé používají sčítání k prosazování politiky, kvality života a programů prosazování práv spotřebitelů ve svých komunitách.

První sčítání proběhlo více než rok po inauguraci prezidenta George Washingtona a těsně před skončením druhého zasedání prvního kongresu. Za sčítání lidu z roku 1790 dostali od kongresu odpovědnost jednotliví maršálové. Pohlaví, barva, vztah k osobě v čele domácnosti, jméno osoby v čele domácnosti a případně počet otroků, to vše bylo součástí šesti šetření v roce 1790. Maršálové některých států šli nad rámec těchto dotazů a shromažďovali informace o zaměstnání a počtu bytů ve městě.

Typologie datasetů

Řada základních statistik podnikání (Core Business Statistics)

V pěti tabulkách dat, které jsou zveřejněny na data.census.gov počínaje zářím 2019, nabízí řada Core Business Statistics řadu statistik o počtu provozoven, pracovních míst, mezd a hodnotě tržeb, příjmů, příjmů nebo zásilek pro provozovny společností s platícími pracovníky pro jednotlivá odvětví na úrovni USA nebo státu.

Statistiky dle geografie (Geographic Area Series)

Série geografických oblastí obsahuje komplexní odvětvové statistiky pro podniky s platícími pracovníky podle zeměpisných oblastí. Informace jsou založeny na severoamerickém průmyslovém klasifikačním systému (NAICS) pro rok 2017.

Shrnující statistiky (Subject & Summary Series)

Tyto statistiky obsahují souhrnná data dle odvětví a dalších specifických témat. Tyto údaje víceméně shrnují informace, které jsou zveřejněny v datových řadách pro podnikání či pro jednotlivá geografické oblasti. Obsah těchto sérií je nadále seskupen dle tematických sestav, které např. zahrnují: produktové řady, provozny a jejich velikosti, lokaci výrobních závodů apod. Data pro tato témata jsou primárně k dispozici na úrovni USA a u vybraných témat na úrovni státu.

Kategorizace dat

Velký objem dat, které UCSB sdružuje, jsou děleny dle NAICS struktury a kódů.

NAICS struktura

NAICS struktura je dělena do hierarchického vztahu:

  • Sektor: dvoučíselný kód
    • Subsektor: tříčíselný kód
      • Skupina odvětví: čtyřčíselný kód
        • NAICS odvětví: pětičíselný kód
          • Státní odvětví: šestičíselný kód
Obrázek 1: NAICS hierarchie; zdroj: census.gov

Definice sektorů

V NAICS struktuře je zahrnuto 20 sektorů. Až na sektory 11 a 92 (viz níže) jsou zahrnuty do ekonomického sčítání.

Obrázek 2: NAICS struktura odvětví; zdroj: census.gov

Vládní instituce nejsou do ekonomického sčítání obvykle zahrnuty, i když bude jejich primární provoz klasifikován v průmyslových odvětvích zahrnutých do ekonomického sčítání. Údaje o sčítání lidu z průmyslových odvětví v několika odvětvích se mohou v důsledku těchto výluk zdát neúplné. Zároveň byly z hospodářského sčítání vyloučeny některé oficiální operace:

  • Nemocnice
  • Vládní obchody s lihovinami
  • Vydavatelé univerzitního tisku
  • Federální rezervní banky

Existuje samostatné sčítání vlád, které poskytuje některé údaje o příjmech, výdajích a zaměstnanosti pro různé vládní funkce, jako jsou ulice a dálnice, nakládání s pevným odpadem, kanalizace, elektrická energie, doprava a místní knihovny.

Hledání dat na census.gov

Hledání dat přes census.gov můžeme rozdělit do dvou perspektiv: uživatelské rozhraní a developerské rozhraní přes API. Z uživatelského pohledu je hledání dat velmi jednoduché. Census.gov nabízí dva primární nástroje: QuickFacts a Census Business Builder.

QuickFacts

QuickFacts je uživatelsky přívětivý rámec, který nabízí tabulky, mapy a grafy běžně požadovaných statistik z různých sčítání lidu, průzkumů a služeb. K dispozici jsou profily pro celou zemi, všech 50 států, District of Columbia a Portoriko, stejně jako všechny kraje. Zahrnuty jsou také města a města s počtem obyvatel 5 000 a více.

Obrázek 3: QuickFacts hledání; zdroj: census.gov/quickfacts

Uživatel si lehce může zvolit lokalitu a v nabídce rychle zvolit i jednotlivé fakta. Po zadání svého požadavku si uživatel může daná data zobrazit graficky na mapě či v jiném grafickém vyjádření. Zajímavostí pro uživatele může být i vytvoření dashboardu či možnosti sdílení dat přes email či sociální sítě (FB, Twitter). Uživatel si samozřejmě může data vytisknout či stáhnout ve formátu CSV.

Census Business Builder

Census Business Builder (CBB) je kolekce služeb Census Bureau, která poskytuje demografické a ekonomické údaje přizpůsobené konkrétním typům uživatelů ve snadno použitelném formátu. Co si pod tím ale představit? Tento nástroj je speciálně mířen na byznys uživatele, který mají za cíl založit podnik a chtějí získat počáteční data pro svoje rozhodování. CBB na základě lokace a odvětví či NAICS kódu uživateli přípraví report, který je dělen do několika částí:

  • Potenciální zákazníci
    • demografická analýza
    • socioekonomická analýza
    • ostatní relevantní analýzy
  • Analýza daného sektoru v dané lokalitě
  • Analýza spotřebitelských výdajů
  • Ostatní (liší se dle uživatelských vstupů při hledání)

Níže jako příklad uvádím část reportu pro tyto zadané vstupy: odvětví – komerční nemovitosti, lokalita – Oklahoma City.

Obrázek 4: CBS report; zdroj: cbb.census.gov

Census Data API

Census Data Application Programming Interface (API) je datová služba, která umožňuje vývojářům softwaru přistupovat a používat data Census Bureau v rámci svých aplikací. Toto API používají výzkumní pracovníci a vývojáři aplikací v rámci Census Bureau i mimo něj. Jeho jednoduchý nezpracovaný formát usnadňuje a zpřístupňuje zadávání dat v jakémkoli formátu, který uživatelé potřebují pro prezentaci a manipulaci s daty. Census Data API je rychlý a snadný způsob dotazování dat přímo ze serverů Census Bureau a přináší řadu výhod:

  • Snadné stahování cílových proměnných a geografických oblastí
  • Připojuje se ke statistickým nástrojům, jako jsou R a SAS
  • Poskytuje okamžitý přístup k nejnovějším datům
  • Usnadňuje vytváření inovativních mobilních a webových aplikací
  • Vytváří vizualizace dat

Census Bureau již zpřístupnilo většinu svých datasetů a přidává na měsíční bázi další. Mezi nejčastěji využívané patří:

  • American Community Surveys (ACS)
  • Časové řady ekonomických ukazatelů
  • Desetileté sčítání lidu
  • Ekonomické sčítání lidu
  • Odhady populace a projekce
  • Mezinárodní obchod

Kompletní list dostupných datasetů lze najít přes tzv. API Discovery Tool.

Obrázek 5: Rozhraní API Discovery Tool; zdroj: api.census.gov

Queries fungují na stejné bázi jako jakékoliv jiné informační zdroje. Census Bureau používá nestandardní verzi JSON, kde data jsou reprezentovány v dvourozměrném poli, hranaté závorky („[]“) obsahují pole a hodnoty jsou odděleny čárkou. Viz příklad níže:

Obrázek 6: API vyhledávání dat; zdroj: Census Data API User Guide

Klíčové pojmy důležité pro práci s API Census Bureau

  • Proměnné
    • Každá jednotka dat, kterou uživatel hledá v datové sadě, se označuje jako proměnná. Každá proměnná v datové sadě má název, který může být sám o sobě zkratkou nebo něčím smysluplným, například STNAME, POP nebo DATE_.
  • Povinné proměnné
    • Povinné proměnné jsou parametry, které uživatel musí zahrnout do vyhledávání; v opačném případě jeho vyhledávání neprodukuje žádná data a vrátí chybovou zprávu.
  • Atributy
    • Další proměnné, které může uživatel použít při volání API k poskytnutí dalších podrobností o primární proměnné, se nazývají atributy. Lze zahrnout například štítky, poznámky, meze chyby, statistickou významnost apod.
  • Get Funkce
    • Funkce get (get =) určuje požadované a vybrané proměnné, které od API žádá uživatel.
  • Predikáty
    • Uživatel může vytvořit predikáty pro geografii, string proměnné, číselné proměnné a čas; a všechny určují, jak by měly být proměnné filtrovány nebo omezovány (v souborech dat časové řady).
  • Group Funkce
    • Funkce group umožní uživatelovi získat výsledky pro celou tabulku v jediném příkazu.

Využití dat

Jak už je zřejmé z dosavadního textu, tak census.gov poskytují podrobné statistiky, které jsou nesmírně důležité pro průmyslová odvětví a komunity. Obchodní sdružení, obchodní komory a podniky spoléhají na tyto informace pro ekonomický rozvoj, obchodní rozhodnutí a strategické plánování.

Obrázek 7: Znázornění možností využití dat z census.gov; zdroj: census.gov

Reálné příklady využití v praxi

Na webu census.gov lze najít sekci „Real-Life Use Cases“, kde je shrnuto šest reálných příkladů využití poskytnutých dat. Níže uvádím tři vybrané příklady:

1. Přehodnocení stávajícího většího podniku – výrobce užitkových vozů

Výrobce užitkových nákladních vozidel pravidelně přezkoumával svou síť prodejců a opravárenských zařízení po celých USA. Byli rádi, že většina jejich zařízení vykázala vysoké skóre spokojenosti zákazníků z průzkumů, které provedli se svými zákazníky, ale byli zklamáni, když viděli, že někteří nedělali tak dobře. Počty podniků (instalatérské a elektroinstalační firmy), které obvykle používaly svá vozidla v oblastech pokrytých službami, byly zjištěny (na mapě) pomocí obchodních údajů ze sčítání lidu. Nahoře překryli mapu svých servisních středisek a odhalili oblasti s mnoha potenciálními zákazníky. Také si všimli, že některé oblasti služeb jejich zařízení s nedostatečným výkonem se překrývaly s jinými oblastmi. Pracovníci plánování dokázali přesvědčit manažery, že je třeba zlepšit podnikové procesy pomocí údajů ze sčítání. Aby lépe sloužili svým trhům, dohodli se, že některá zařízení by měla být přesunuta a měla by být otevřena nová zařízení. Hodnocení spokojenosti zákazníků se dramaticky zvýšilo v době, kdy byla dokončena další roční analýza.

cbb-plumbing-knox-county
Obrázek 8: Ukázka reálného využití; zdroj: census.gov

2. Formování daňové politiky – daně z cigaret v Marylandu

Stát Maryland zvažoval zvýšení daní z cigaret a jiných tabákových výrobků. Stát se obával nejen dopadu na spotřebitele tabákových výrobků (a toho, jak by toto zvýšení mohlo ovlivnit schopnost zákazníka je koupit), ale také dopadu na společnosti, které prodávají tabákové výrobky ve státě. Státní zaměstnanci použili údaje o produktových řadách z ekonomického sčítání ke klasifikaci typů dotčených podniků a ke stanovení rozsahu účinků. Tato čísla odhalila, že obchody s potravinami jsou nejoblíbenějšími prodejci tabákových výrobků v Marylandu, což představuje 18,1 procenta (121,2 milionu USD) z celkového prodeje. S využitím údajů Census Bureau o velikosti firmy zjistili, že drtivá většina obchodů s potravinami zaměstnává méně než pět lidí. Po studii údajů se státní úředníci rozhodli nezvýšit tyto daně kvůli možným negativním dopadům na malé podniky.

3. Otevření nové malé firmy – prodejna kol v Portlandu v Oregonu

Úspěšný špičkový výrobce komponentů pro horská kola zvažoval otevření vlastního obchodu s jízdními koly, aby mohl prodávat své výrobky i horská kola a další příslušenství. Identifikoval potenciální zákazníky (mladé profesionály se středním až vysokým středním příjmem domácnosti) pomocí údajů z průzkumu ACS. Použil údaje ze sčítání, aby určil umístění obchodů se sportovními potřebami (NAICS 451110, který zahrnuje obchody s jízdními koly). Tato zjištění nejen zavedla potenciální konkurenty pro jeho společnost, ale také podniky, se kterými mohl spolupracovat otevřením pronajatého oddělení ve větším obchodě. Byl také schopen porovnat mezd na zaměstnance, výnosy na zaměstnance a další statistiky pro devět oblastí, které zvažoval, pomocí statistik trhu ze sčítání lidu, což mu poskytlo lepší pochopení jeho oboru a toho, co by měl očekávat od svých zaměstnanců. Tyto údaje byly použity v jeho podnikatelském plánu a žádosti o půjčku na počáteční kapitál, kterou předložil místnímu věřiteli pro malé podniky.

Závěr

Census.gov je nesmírně důležitý web nejen pro jednotlivé uživatele v US či v zahraničí, ale i pro další externí informační zdroje, které spoléhají na tyto data. Posláním Úřadu pro sčítání lidu je sloužit jako přední poskytovatel kvalitních údajů o svých lidech a ekonomice. Pro jednotlivé uživatele může být tento informační zdroj zajímavý zejména svojí jednoduchostí a vytvářením specifických dashboardů či reportů přes poskytované nástroje.

Nad fundamenty portálu census.gov lze pohlížet z české perspektivy jako nad CZSO, nicméně oba portály se ve výsledné podobě poskytovaných informací mírně liší. Např. CZSO nenabízí souhrnné specifické reporty pro podnikatele dle lokality a odvětví, ale nabízí jiný typ reportů (např. statistický bulletin dle kraje).

Zdroje

  1. UNITED STATES CENSUS BUREAU. Census Data API User Guide. Census.gov [online]. United States Census Bureau, 2021 [cit. 2021-5-8]. Dostupné z: https://www.census.gov/content/dam/Census/data/developers/api-user-guide/api-guide.pdf
  2. UNITED STATES CENSUS BUREAU. Guidance for Economic Census Data Users [online]. [cit. 2021-5-8]. Dostupné z: https://www.census.gov/programs-surveys/economic-census/guidance.html
  3. UNITED STATES CENSUS BUREAU. QuickFacts [online]. [cit. 2021-5-8]. Dostupné z: https://www.census.gov/quickfacts/
  4. UNITED STATES CENSUS BUREAU. Census Business Builder [online]. [cit. 2021-5-8]. Dostupné z: https://cbb.census.gov/

Číst více

Další články