Už se vám stalo, že jste se vrátili na nějakou webovou stránkou za konkrétní informací, ale ta už tam nebyla? Nebo se jen zajímáte o to, jak vypadal některý z dnešních webových portálů v minulosti? S tím Vám pomůže stránka Archive.org, která provozuje službu Internet Archive Wayback Machine. Naleznete na ní opravdu velké množství webových stránek spolu s jejich historií, není to však jediné, co Archive.org nabízí.
Co je Archive.org
Archive.org je webový archiv, který uchovává a zpřístupňuje miliony digitálních materiálů, jako jsou knihy, webové stránky, fotografie, zvukové nahrávky, videa a další. Jedná se o neziskovou organizaci, která poskytuje přístup k informacím pro veřejnost. Archive.org je také domovem mnoha dalších webových služeb, včetně Open Library, Internet Archive a Public Library of Science.1
Jak takový projekt vznikl? V roce 1996 ho založil Brewster Kahle na univerzitě v kalifornském Berkeley. Cíl autora bylo vybudování internetového archivu, kde by bylo možné zálohovat, v té době ještě příliš nerozšířený internet.
Sbírka dále rostla, a z projektu pro vědecké účely se během let stala obrovská databáze nejrůznějších druhů digitální obsahu. Dle autorů nyní databáze uchovává stovky miliard webů2, k 5. prosinci 2023 to dle informací na webu bylo přes 869 miliard webových stránek, 39 milionů knih, 256 000 koncertů nebo přes 2 miliony softwarových programů.3 O rozsáhlosti samotného projektu hovoří i velikost využitých úložných prostorů nazývaných Petabox – jedná se o čtyři data centra o celkové kapacitě 212 PetaBytů4 úložného prostoru! No není to opravdu ohromující množství?
Internet Archive Wayback Machine
Jednou z nejzajímavějších věcí, je již zmíněná možnost nahlédnout do historie bilionů stránek a to skrze archiv Wayback Machine, který je doslova strojem času.
Služba funguje jednoduše, po zadání webové adresy stránky se vám zobrazí časová osa, na které si můžete z výběru zvolit přesný den a čas, ve kterém stránku navštívíte. V archivu jsou záznamy od roku 1996! Podívejte se například na domovskou stránku Vysoké školy ekonomické z 18. ledna 1997.
Nejedná se však o pasivní obrázek, můžete po stránce libovolně brouzdat, úplně všechny odkazy však nejsou funkční (zálohované). Další problém může nastat s některými obrázky, animacemi, bannery nebo dlouhým načítáním stránek. Není to ale nic co by vám v nalezení potřebné informace zabránilo.
Jaké další informace mohu získat?
Jak již bylo zmíněno, Archive.org nabízí bohatý výběr datových sad, které zahrnují knihy, webové stránky, fotografie, zvukové záznamy, videa a další digitální materiály. Datové sady jsou uspořádány do různých kategorií – mimo Waybackmachine se jedná textové informace, video, audio, software a fotografie. A to v nejrůznějších dostupných formátech.
Uživatelé mohou využívat fulltextové vyhledávání, což umožňuje hledání v rámci celého obsahu digitálních dokumentů. Archiv také nabízí možnost filtrování výsledků vyhledávání podle různých kategorií, jako je například autor, rok vydání, formát souboru a další.
Struktura Archive.org je navržena tak, aby usnadnila vyhledávání a přístup k datům. Každý dokument na Archive.org je také přístupný prostřednictvím jedinečného URL, který obsahuje identifikátor dokumentu. Služba poskytuje metadata o každém dokumentu a nabízí i například možnost výstupu dat ve formátu XML.
Lincencování a využití
Přístup k datům na Archive.org je vždy omezen na základě licence, která je příslušná k danému souboru. To znamená, že uživatelé mohou přistupovat k datům pouze v případě, že mají odpovídající licenční práva. To platí jak na veřejné domény, tak i data chráněná autorskými právy, pro které je potřeba souhlas majitele práv. Služba vás ale vždy upozorní.
Tento univerzální zdroj dat využijete pro různé účely. Autoři kladou důraz na zprostředkování obsahu veřejných a akademických knihoven komukoli na světe, a díky milionům dostupných knih je archiv ideální pro akademický výzkum. Na své si ale přijdou i historici, kteří zde najdou historické dokumenty jako jsou noviny, knihy, fotografické negativy a další.
Archivované verze webových stránek mohou být užitečné i pro studium historických webových stránek, mimo technologie a designu těchto webů nám můžou být nápomocné při analýze konkurence či trendů. V neposlední řadě se díky Archive.org dostaneme k již smazaným příspěvkům, platí zde tedy více než kdy dřív, co na internet jednou dáme, již tam zůstane.
Závěr
Cílem autorů projektu je poskytnou univerzální přístup ke všem znalostem. Archive.org toto více než splňuje a je nejen skvělým zdrojem informací, ale také hračkou výzkumníky, akademiky a obyčejné zvědavce. Nejzajímavější službou je dozajista Wayback Machine, která nám umožní nahlédnout do samotné historie internetu. Jedná se o skvělý projekt, který bezplatně poskytuje obrovské množství informací a podporuje digitalní „preservaci“ informací.
Zdroje:
[1] Internet Archive Blogs [online]. [cit. 5.12.2023]. Dostupné z: https://blog.archive.org/2011/03/31/how-archive-org-items-are-structured/
[2] WAYBACK MACHINE GENERAL INFORMATION [online]. [cit. 5.12.2023]. Dostupné z: https://help.archive.org/help/wayback-machine-general-information/
[3] Infografika na webu [online]. [cit. 5.12.2023]. Dostupné z: https://archive.org
[4] Petabox [online]. [cit. 5.12.2023]. Dostupné z: https://archive.org/web/petabox.php