Čtvrtek, 7 listopadu, 2024

CC Search – k stovkám milionů fotografií z celého světa

Sdílet


Zkratka CC reprezentuje název neziskové organizace Creative Commons, která se zabývá licencováním multimediálního obsahu. Zároveň do jejího portfolia spadá již zmíněný CC Search, což je nástroj, který umožňuje snadno objevovat a používat otevřeně licencovaná a veřejně dostupná autorská díla pomocí snadného vyhledávání. CC Search prohledává více než 300 milionů obrázků z otevřených API a datové sady Common Crawl. Jde nad rámec jednoduchého vyhledávání a agreguje výsledky napříč několika veřejnými úložišti (Flickr, Europeana,… ) do jednoho souhrnného katalogu. V současné době CC Search plně podporuje prohledávání obrázků, ale plánují plně implementovat vyhledávání napříč dalšími typy médií, jako jsou otevřené texty, audio a video. Tento „další“ multimediální obsah momentálně běží v testovací verzi. Obsah z těchto platforem lze prohledávat pomocí CC Search a sdílet na webu díky licencím CC.

Ukázka procházených zdrojů
 Obrázek: Ukázka log procházených informačních zdrojů s licencovaným obsahem dle CC. [Zdroj: creativecommons.org]

Typy licencí Creative Commons

Každé dílo, ať už jde o obrázek, fotografii, hudbu, odborný i prozaický, nebo i poetický text, má svého autora a ten vlastní k dílu autorská práva. Ta obsahují mix práv a povinností spjatých s daným dílem a stanovují to, jak se s ním smí zacházet. Autorskoprávní nástroje a licence Creative Commons vytvářejí rovnováhu v rámci tradičního nastavení „všechna práva vyhrazena“, které jinak automaticky autorské právo zajišťuje. Nástroje Creative Commons nabízejí každému, od jednotlivých autorů až po velké společnosti jednoduchý standardizovaný způsob, jak umožnit ostatním užívat jejich dílo. Přehled jednotlivých licencí s ukázkou práv a povinností k nim spjatých je  uveden v následující tabulce. 

Tabulka znázorňující přehled licencí a práv + povinností
Tabulka: Znázorňující přehled CC licencí a jejich práv + povinností [Zdroj: web.natur.cuni.cz]

 


 

Na první pohled při příchodu na platformu CC Search, která se nachází na adrese https://search.creativecommons.org se uživateli objeví nápadně podobné rozhraní připomínající jinou vyhledávací platformu Google. Uprostřed obrazovky se tyčí velký Search Bar umožňující zadání klíčových slov pro vyhledávání v rámci obsahu, který je licencovaný pomocí CC licencí. Po kliknutí na tlačítko Search se uživateli zobrazí, stejně jako u Googlu katalog výsledků, které se vztahují ke klíčovým slovům, jenž uživatel zadal k vyhledání. 

CCSearch Úvodní stránka
Obrázek: Úvodní stránka při příchodu na search.creativecommons.org  [Zdroj: Vlastní zpracování]

Syntaxe vyhledávání

Stejně jako již zmíněný Google, tak i CC Search umožňuje uživatelům konkretizovat jejich vyhledávání pomocí speciálních symbolů nebo slov, které slouží k bližšímu upřesnění vámi hledaných spojení. 

Vyhledávání s přesnou shodou

Pro vyhledávání slova nebo fráze je nutné hledaný termín dát do uvozovek. Například pro doslovné vyhledávání tvrzení Empire State building je potřeba do Search Baru zadat „Empire State Building“, tím dáváme najevo, že nás zajímá jen přesná shoda, nikoliv částečná. 

Kombinování vyhledávaných termínů 

Pokud by uživatel potřeboval různě kombinovat vyhledávané termíny, tak k tomu slouží operátory, které umožňují vykonávat komplexnější dotazy. Nejprve budou představeny samotné operátory a poté ke každému bude uveden příklad využití a vysvětlení jak funguje. 

  • +   Operátor značící logickou operaci AND 
  • |    Operátor značící logickou operaci OR
  • –    Operátor negující jeden token/termín
  • *   Operátor, který na konci hledaného výrazu značí tzv. prefix query
  • ()   Operátor pro signalizaci priority
  • ~N Operátor uvádějící se na konci slova sloužící k nastavení Fuzzy distance výrazu

Příklady vyhledávání:

dog+cat  -> Tento dotaz vyhledá výsledky, na kterých je jak pes, tak kočka.

dog|cat -> Tento dotaz by vyhledal výsledky, na kterých je buď pec nebo kočka, ale nemusely by tam nutně být oba.

dog -buldog -> Tento dotaz by vyhledal výsledky, na kterých jsou psi, ale vynechal by ty na nich je vyobrazený buldok. Využili jsme daný operátor – k vyloučení buldočího plemene z výsledků vyhledávání psů. 

net* -> Tento dotaz by vyhledal výsledky pro slova, které začínají na net a hvězdička poté značí, že může následovat cokoliv. Jedná se o takzvaný Wildcard operátor. Takže ve výsledcích by se mohla objevit slova jako: Netflix, Netherlends, network, a spousta dalších. 

dogs + (labrador|chivava) -> Tento dotaz by vyhledal výsledky, na kterých jsou psi, ale konkrétně čivava nebo labrador. Závorky slouží k určení priority dotazu nebo ke kombinování složitějších dotazů.  

theatre~1 -> Tento dotaz by vyhledal výsledky, které se mohou lišit o proti hledanému výrazu o jeden znak. Výsledek by tedy mohl obsahovat slova, která mají jiný pravopis jako třeba Theater místo Theatre. Tento jev se odborně nazývá fuzzy logic/fuzziness.

 

Meta vyhledávač (známý také jako více vláknový modul) je vyhledávací nástroj, který odesílá váš dotaz současně několika vyhledávačům (Search Engine), webovým adresářům (WD) a někdy i takzvanému Invisible (Deep) Webu, shromažďování online informací neindexovaných tradičními vyhledávači. V tomto případě se vyhledávač snaží najít veškery obsah indexovaný licencemi Creative Commons. CC Search následně z posbíraných pozitivních výsledků hledání vytvoří katalog, který se uživateli zobrazí jako výsledek hledání, ale tato funkcionalita zatím funguje pouze pro obrázky. Audio a Video má na stránce zastoupení v záložkách, ale hledání momentálně nabízí jen odkazy na zdroje obsahující daný obsah pod licencemi CC, což je názorně předvedeno v přiložených obrázcích. 


 

Filtrování a přehled výsledků

Výsledný agregovaný katalog obrázků pro audio a video tato funkcionalita zatím nefugnuje, lze dále selektovat finální výběr obrázků, na základě intuitivních filtrů, které CC Search nabízí v levém menu. K dispozici jsou uživateli filtry podle:

  • Použití obrázku
  • Typu CC licence obrázku
  • Zdroje obrázku
  • Typu obrázku
  • Formátu obrázku
  • Poměru stran 
  • Velikosti obrázku
  • Autora

Filtry fungují velmi intuitivně jako na většině eshopů a běžných stránkách, kdy uživatel vybere jednotlivé filtry, o které má zájem a ty mu automaticky překreslují výsledný katalog, aby splňoval uživatelem stanovené požadavky. Pokud by si přál odstranit nějaký konkrétní filtr, tak jej stačí odkliknout nebo zrušit křížkem, případně je zde možnost vyčistit všechny filtry, která zruší veškeré nastavené filtrování výsledků.

 


 

Zdroje:

  1. https://web.natur.cuni.cz/student/creative-commons-aneb-co-je-na-internetu-volne-k-pouziti
  2. https://creativecommons.org/about/platform/
  3. https://search.creativecommons.org/meta-search
  4. https://search.creativecommons.org/
  5. https://creativecommons.org/licenses/?lang=cs
  6. https://search.creativecommons.org/search-help
  7. https://www.llrx.com/2002/09/features-the-meta-search-engines-a-web-searchers-best-friends

Číst více

Další články