Když se koncem 80. let minulého století v CERNu odehrával vývoj hypertextového značkovacího jazyka HTML (o něm někdy později) v podání Tima Bernerse Leeho, nikdo netušil o jaký pokrok se jedná. První webová stránka, která poté vznikla na začátku 90. let, odstartovala masivní informatizaci světa. Co je to vlastně webová stránka? A proč jsou některé dohledatelné a některé tak jednoduše nejsou?
Web v základu lze definovat jako hlavní službu poskytovanou v rámci světové sítě internet a její hlavní princip je propojování webových stránek (s textem, fotografiemi, videi, …) pomocí takzvaných linků (hyperlinků), které jsou reprezentovány adresou URL (uniform resource locator).
Můžeme si říci, že kliknutím na tuto URL adresu se dostanete na profil zakladatele webu Tima Bernerse-Leeho v rámci konsorcia W3. A právě tento princip poprvé zmíněný autor uplatnil při tvorbě webu jako takového. Jednoduše propojování obsahu hyperlinky.
Úkol
Zkuste najít, jak vypadala úplně první webová stránka na světě. Opravdu je dostupná.
Povrchový web
Webové stránky, které si dennodenně prohlíží skrze svůj prohlížeč (noviny, eshopy, profily firem, wikipedie, …) tvoří povrchový web. A proč se tak zvláštně jmenuje? Určitě vám jdou myšlenky směrem, že na těchto webových stránkách jsou povrchní informace. Je to částečně pravda. Povrchový web tvoří speciálními roboty-sběrači indexované informace. Google má svoje roboty, Bing rovněž a další vyhledávače také. Jejich úkol by se dal zjednodušeně říci takto: prohledávat nové vzniknuvší webové stránky (popř. aktualizovaný obsah na existujících) a zpřístupnit je uživatelům skrze vyhledávání. Kvalita informací ovšem není příliš vysoká, protože povrchový web je hodně reprezentován stránkami se spamem, reklamou a je na uživateli, aby posoudil tzv. relevanci informací. Ta reprezentuje míru osvětlení vaší informační potřeby a za druhé také přesnost reprezentované informace. Povrchový web je v tomto smyslu velmi složité prostředí, protože ověření informací je prakticky pouze na uživateli. Je to dnes především příklad sociálních médií, která generují obrovské množství informací a mnohdy právě dezinformací, které se poté lavinově šíří napříč společností. Mimochodem, skvělou práci v této branži vytváří projekt Hoax.cz, který je vlastně největší českou databází nesmyslů, poplašných, řetězových a lživých zpráv, které lidé často bezhlavě sdílejí dále.(Džubák 2000)
Hluboký web
Problém je, že roboti „chodí“ pouze po povrchu webu, ale již se nedostanou do vod hlubokého webu. Ten na rozdíl od povrchového tvoří pro roboty těžko dostupný nebo nedostupný obsah (např. vědecké články, studie, patentové dokumenty, normy, obchodní informace, …). Můžete namítnout, že např. Google Scholar rovněž zpřístupňuje vědecké články nebo patenty. Ano, nicméně knihovny, či univerzity je za prvé zpřístupňují oněm robotům a za druhé, jedná se pouze o zlomek skutečného množství těchto dokumentů. Tím se samozřejmě dostáváme k tomu hlavnímu, velikost povrchového webu přesáhla v roce 2014 jednu miliardu webových stránek. Problém je, že oproti hlubokému webu a jeho velikosti, se jedná o malý zlomek.
V tomto bodě je vhodné reprezentovat tato dvě odlišná webová prostředí na snímku z konce 90. let, kdy se společnost Bright Planet snažila o zmapování všech informačních zdrojů hlubokého webu.
Rybářské lodě musí sítěmi hluboko pod hladinu oceánu, aby ulovily to nejlepší. Stejné pravidlo platí i pro prostředí webu. Kvalitní, cenné informace hledejme v oblasti hlubokého webu, kam ovšem se ovšem můžeme vypravit za pomocí znalosti příslušných informačních zdrojů a specifických vyhledávacích postupů.NASA zobrazil rozhraní povrchového a hlubokého webu následovně:
Most of the Internet is hidden in the #DeepWeb. We’re making tools to search it http://t.co/dCPmMr9Wri @DARPA #MEMEX pic.twitter.com/CU5TSrwE2s
— NASA JPL (@NASAJPL) 22. května 2015
Temný web
Tím to však celé nekončí. Za pomyslnou hranicí hlubokého webu se nachází temný web (též temný internet), který rovněž lze definovat pojmy jako darkweb nebo dark internet. Je to ta část webu, která je sice veřejnosti přístupná, ale již za pomocí sofistikovaných nástrojů (prohlížečů) s primární funkcí anonymního pohybu. To samozřejmě není samoúčelné, protože temný web dnes slouží především k nelegální činnosti a obchodu.
Toliko na úvod do problematiky webu. A na závěr shrnutí:
- Web je služba v rámci světové sítě internet.
- Primárně se jedná o propojení obsahu hyperlinky
- Známe tři úrovně webu.
- Povrchový web tvoří roboty indexované informace
- Hluboký web tvoří neindexované a těžko dostupné informace
- Temný web získal své označení pro nelegální činnost, která se v rámci něho odvíjí.
Zdroje:
DŽUBÁK, Josef, 2000. Hoax : podvodné a řetězové e-maily, poplašné zprávy, phishing, scam [online] [vid. 2017-02-11]. Dostupné z: http://www.hoax.cz