Sobota, 21 prosince, 2024

Lens.org. Unikátní systém pro analýzu patentových dat

Sdílet

Obrázek č.1: Logo Lens.org | Zdroj: Lens.org

1. Úvod

Lens.org je aglomerační databáze nabízející prostředí především pro vyhledávání patentů a odborné literatury ze všech kontinentů. Vlastníkem je společnost Cambia, což je nezisková organizace sídlící v Austrálii. Velkou výhodou Lens.org je její bezplatnost a možnost vyhledávání bez registrace pro nekomerční užití. Lens.org je vhodný především pro výzkumné instituce, pro policy makers, pro studenty, pro vědce, pro patentové kanceláře a pro investory.

Na světlo světa přišla již před dvaceti lety a za tuto dlouhou dobu dospěla do fáze, kdy sdružuje přes 245 milionů vědeckých prací, 137 milionů patentových záznamů a více než 370 milionů patentových sekvencí.

2. Rozložení a architektura lens.org

Způsob fungování Lens.org je tvořen Lens MetaRecord architekturou, která efektivně shromažďuje, normalizuje a zpřístupňuje poptávaná metadata koncovým zákazníkům. Zjednodušený způsob fungování této architektury pro případ odborné literatury naleznete zde.

Základní možnost vyhledávání a vizualizace (viz. níže) je pak rozdělena do dvou základních kategorií a sice patentů a vědeckých prací, které jsou spolu metadatově propojené. Celý proces velmi dobře vystihuje následující obrázek

Podíváme-li se podrobněji na dvě výše zmíněné položky, tak Scholarly works obsahují 245 milionů záznamů, které jsou kompilované a harmonizované z databází z:

  • Microsoft Academic
  • PubMed
  • Crossref
  • Core

Druhou majoritní položkou, patenty, pak obsahují 137,1 milionů záznamů z více než 95 národních či nadnárodních jurisdikcí.

Obrázek č.2: Struktura Platformy | Zdroj: Lens.org

Nutno podotknout, že Lens.org je značně komplexnější nástroj, než by se na první pohled mohlo zdát. Nabízí další tři aplikace, které může koncový uživatel pro své potřeby použít. Je to aplikace PatSeq, která umožňuje sdílet biologické sekvence popsané v patentech. PatCite, což je aplikace sloužící pro hledání citací a zároveň ukazuje, jak je daný článek/patent citován/ovlivněn v článkách/patentech jiných a nakonec In4M, což je ve zkratce řečeno Innovation influence mapping. V zásadě monitoruje, jak daná inovace z dané společnosti ovlivňuje další patenty.

Obrázek č.3: Aplikace platformy | Zdroj: Lens.org

3. Jak s Lens.org pracovat?

Způsob práce s Lens.org je opravdu velmi jednoduchý a intuitivní. Požadované informace lze jednoduše zanést do vyhledavače a přijímat výsledky, avšak doba je komplexní a velmi často je třeba hledat v milionech záznamech značně specifičtěji. Přesně na to Lens.org myslí. Máme tedy v zásadě dvě možnosti, jak k tomuto přistoupit.

První možností jest strukturované vyhledávání, kdy za pomocí nativně definovaných filtrů či dalších textových polí můžeme náš dotaz od datumu vydání až po například jména konference značně lépe definovat. Například mj. pomocí těchto třídění:

  • Relevance výsledku
  • Počet citací
  • Datum publikace (od:do)
  • Typ zdroje

Druhou a značně komplexnější možností jest pak pomocí Query vyhledávání, kterou Lens nativně podporuje a je kombinací Apache Lucene
a Elasticsearch Parser syntaxe. V tabulce pak vidíme nejrelevantnější příklady těchto dotazů, které na Lens můžeme pro efektivnější vyhledávání použít.

PopisDotazPříklad užití
Název dokumentutitletitle:covid
Datum publikacedate_publisheddate_published:[2021-02-01 TO 2022-02-01]
Boolean operatorsAND     OR     NOTJapan AND China OR Russia NOT Australia
Boolean Combined(x) AND/OR/NOT (y)title: (covid OR sars) AND (Vaccine)
Wildcard/(non)stemming* a ?Valve*
Zvýšení relevance vyhledávání -> mění pořadí výsledků^Car AND coke^2

Příklad sofistikovanějšího dotazu. Vezměme, že nás zajímají všechny informace o intervencích české národní banky na měnovém trhu započaté v roce 2013 jako boj proti nízko akcelerující inflaci. Zajímají nás všechny publikace, kde se vyskytuje slovo inflace nebo intervence(tu chceme nadhodnotit) a zároveň CNB nebo Česká republika s datem publikování od 2013 do roku 2018.

title:((inflation OR interventions^2) AND (Czech republic OR CNB)) date_published:[2013-01-01 TO 2018-01-01]

Po vyhledání dotyčného dotazu vidíme celou řadu relevantních výsledků týkající se naší problematiky, nicméně je nutno pamatovat, že stavba dotazu není nikdy dokonalá a někdy vyžaduje velmi dlouhého ladění k dosažení těch nejlepších výsledků.

4. Vizualizační nástroj

Velkou předností Lens.org je možnost výsledky vyhledávání vizualizovat a vidět tak například počet nalezených záznamů v dimenzi času
či rozdělení výsledků záznamu na typ dokumentu (zdali se jedná o knihu, konferenci atp.). Jednotlivé grafy pak můžeme skládat do dashboardů a všechny námi vytvořené grafy vidět v reálném čase na jednom místě. Velkou výhodou je pak možnost exportu daného dashboardu do celé řady formátů či se rovnou přesunout do tzv. presentation modů kde je dashboard velmi pěkně strukturován pro potenciálně další uživatele.

Jako příklad si položme základní otázku ohledně Vysoké škole ekonomické v Praze. Kolik bylo za posledních deset let sepsáno prací v jednotlivých letech a v jakých oblastech se práce na VŠE nejčastěji týkají. Po stavbě relevantního dotazu se můžeme pustit do tvoření dashboardu, který nalezneme po pravé straně, kolonka Analysis. V dolní časti filtrační lišty pak přes tlačítko Add New Chart přidáváme další grafy dle libosti. Výsledkem našeho šetření je, že VŠE má relativně stabilní přírůstky prací a nejčastěji se týkají ekonomie.

Obrázek č.4: Vizualizační nástroj platformy | Zdroj: Lens.org

5. API a Lens.org

Lens.org má možnost nastavit si API, tu je možno bezplatně, formou 14denního trialu získat a pracovat s ní. Tato základní licence obsahuje možnosti požadavku až 5 milionů záznamů za měsíc, 10 požadavků API za minutu a až 1000 záznamů na požadavek. O licenci je třeba žádat i s ohledem na to, o jakou aplikaci se jedná, tedy zdali o patenty či vědecké práce. Celý koncept funguje na principu token-based API autentizaci. Důkladný postup, jak ji nastavit, lze nalézt na uzpůsobené webové stránce zde.

Po správném obdržení přístupu pak máme hned několik možností, jak ji využít. Buď využít předem nadefinované prostředí swagger-ui, kde lze vybrat požadovanou kategorii pro vyhledávání a následně je třeba ladit dotaz. Jako příklad uvádím jednoduchý JSON request pro vyhledání vědecké práce s dotyčným id 163-080-389-848-863

JSON

{

  „query“:{

           „match“:{„lens_id“:“086-713-276-176-892″}

  }

}

Jako příklad Response části uvádím subčást z výstupního JSONu. Určitě je třeba znát dané proměnné jak pro stavbu, tak i pro interpretaci výstupu. Tyto informace lze zjistit v přiložené dokumentaci

„authors“: [

                {

                    „collective_name“: null,

                    „first_name“: „Maha“,

                    „last_name“: „Hussain“,

                    „initials“: „M“,

                    „affiliations“: [

                        {

                            „name“: „University of Michigan“,

                            „grid_id“: „grid.214458.e“,

                            „country_code“: „US“

                        }

                    ]

                },

Druhou možností je pak nastavení si API přímo na lokále. Přednastavené skripty pro nastavení v prostředí Pythoni, Rku, Java, NodeJs či cURL jsou rovněž velmi dobře sepsané v dokumentaci viz. výše. Jako příklad přikládám Python skript pro případnou inspiraci.

import requests

url = ‚https://api.lens.org/scholarly/search‘

data = “'{

     „query“: {

           „match_phrase“:{

                „author.affiliation.name“: „Harvard University“

           }

     },

     „size“: 1,

     „sort“: [

           {

                „year_published“: „desc“

           }

     ]

}“‘

headers = {‚Authorization‘: ‚Bearer your-access-token‘, ‚Content-Type‘: ‚application/json‘}

response = requests.post(url, data=data, headers=headers)

if response.status_code != requests.codes.ok:

  print(response.status_code)

else:

  print(response.text)

Python skript

6. Závěr

Svět informací je dnes nadměrně komplexní a člověk se sám jenom velmi těžko může zorientovat. Aplikací, které dokážou toto pomyslné prázdné místo vyplnit je dnes celá řada. Mají svá prostředí, svá specifika, svou logiku. Člověk poptávající informace tedy musí nutně optimalizovat svůj čas mezi takové aplikace, které předají tu největší možnou informační hodnotu v co nejmenším čase. Jelikož i já sám se teprve učím a Len.org je první aplikací, kterou jsem měl možnost důkladněji prozkoumat, tak nedokážu říct, jestli je právě ta nejvhodnější.

Faktem ale zůstává, že Lens.org má mnoho předností. Především se jedná o bezplatnost, snadnou syntaxi pro pokročilé vyhledávání a možnost vizualizace v reálném čase. Metadatové propojení prací s patenty rovněž oceňuji. V čem však vidím slabou stránku tohoto portálu je slabý takt na pokročilé aplikace, jako IN4M, kde čistě konceptuálně spatřuji nesmírný potenciál.

Zdroje:

https://www.lens.org/ | https://about.lens.org/ | https://osf.io/preprints/lissa/t56yh/ | https://aarontay.medium.com/6-reasons-why-you-should-try-lens-org-c40abb09ec6f | https://docs.api.lens.org/index.html |

Obrázky

Obrázek č.1: Logo Lens.org | Obrázek č.2: Struktura Lens.org | Obrázek č.3: Aplikace Lens.org | Obrázek č.4: Vizualizační nástroj Lens.org

Autor: Daniel Srp

Číst více

Další články