Open/FAIR data

Publikování a sdílení dat v režimu otevřeného přístupu, který umožňuje okamžitý, bezplatný, trvalý a neomezený přístup k vědeckým výsledkům, je celosvětově stále více podporováno jak vědeckými institucemi, tak poskytovateli finanční podpory. Zpřístupnění dat dle principů FAIR neznamená zpřístupnění dat bez jakýchkoliv omezení. Cílem je následovat princip, tj. data zpřístupňovat:

„…as open as possible, as closed as necessary“
„…tak otevřeně, jak jen to je možné, tak omezeně, jak je to nezbytně nutné“.

Výzkumná data by, v souladu s touto zásadou, měla být zveřejňována v takovém rozsahu, který maximálně umožní jejich opětovné užití. Na druhou stranu ale může být zveřejnění omezeno, a to právě v rozsahu, který je nezbytný pro ochranu práv a zájmů příjemce, poskytovatele a třetích osob. Mezi tato chráněná práva a zájmy patří typicky právo na ochranu osobních údajů, ochrana bezpečnosti státu, nebo třeba zájem na monetizaci a zužitkování výzkumu institucí, která jej provedla.

Výzkumná data

Výzkumnými daty se podle Zákona 130/2002 o podpoře výzkumu, experimentálního vývoje a inovací (§ 2 Vymezení pojmů, Odstavec 2 písmeno o) rozumí „informace v elektronické podobě, které jsou shromažďovány nebo vytvářeny v průběhu výzkumu, jsou používány jako důkazy nebo které jsou obecně akceptovány výzkumnou obcí jako nezbytné k validaci zjištění a výsledků.“

Evropská směrnice o otevřených datech definuje data následovně: “Výzkumná data (údaje z výzkumu) – zahrnují statistiky, výsledky pokusů, měření, pozorování vyplývající z práce v terénu, výsledky průzkumů, jakož i zvukové a obrazové záznamy z pohovorů. Zahrnují též metadata, specifikace a jiné digitální objekty. Výzkumná data se liší od vědeckých článků, které přinášejí zprávy o zjištěních, jež jsou výsledkem vědeckého výzkumu, a tato zjištění též komentují.”

FAIR principy:

Výzkumná data by měla naplňovat FAIR principy. Tyto principy popisují, jak by data měla být zpracována, aby byla dohledatelná (Findable), dostupná (Accessible), interoperabilní (Interoperable) a opětovně využitelná (Reusable). Data by měla disponovat standardními formáty, měla by být opatřena metadaty a perzistentními identifikátory (DOI, handle).

S FAIR principy není v rozporu, pokud je přístup k datům podmíněn splněním podmínek (např. podpisem smlouvy a dodržováním smluvních omezení atp. – pokud jde o omezení, která jsou nezbytně nutná a transparentně vysvětlená např. v DMP).

1. Vyhledatelnost (to be Findable)

Pokud mají být data opětovně využitelná, pak je třeba zajistit, že je jak lidé, tak stroje budou moci najít. Pro tento účel jsou klíčová strojově čitelná metadata.

F1.(meta)datům je přiřazen jedinečný a perzistentní identifikátor (např. DOI, handle)
F2.data jsou popsána dostatečnými metadaty
F3.metadata obsahují jasný identifikátor dat, která popisují
F4.(meta)data jsou registrována nebo indexována v prohledávatelných zdrojích

2. Dostupnost (to be Accessible)

K datům by měl být zajištěn otevřený přístup, ideálně prostřednictvím repozitáře. Není-li možné zajistit otevřený přístup k vědeckým datům, pak by měla být volně přístupná alespoň metadata.

A1.(meta)data lze získat pomocí jejich identifikátorů při využití standardních komunikačních protokolů (API)
A1.1protokol je otevřený, zdarma k dispozici a univerzálně použitelný
A1.2protokol umožňuje v případě potřeby autentizaci a autorizaci
A2.metadata jsou dostupná i v případě, že data samotná již nejsou k dispozici

3. Interoperabilita (to be Interoperable)

Pro integraci s jinými datasety je vhodné použít standardizované výrazy k popisu dat.

I1.(meta)data používají pro reprezentaci znalostí formální, dostupný, sdílený a široce aplikovatelný jazyk
I2.(meta)data používají slovníky, které se řídí zásadami FAIR
I3.(meta)data obsahují odkazy na další (meta)data

4. Opětovná využitelnost (to be Reusable)

Primárním cílem FAIR principů je zvýšit znovuvyužitelnost vědeckých dat.  K dosažení tohoto cíle je důležité, aby byla data dostatečně popsaná a sdílená pod otevřenou licencí (např. Creative Commons), aby uživatelé dat věděli, jak data vznikla, co popisují a jak s nimi mohou nakládat.

R1.(meta)data mají množství přesných a relevantních atributů
R1.1(meta)data jsou zveřejněna pod jasnou a dostupnou licencí
R1.2(meta)data jsou spojena se svým původem
R1.3(meta)data splňují standardy vědecké komunity pro daný obor

Naplnění FAIR principů

FAIR principy samy o sobě neobsahují žádné konkrétní technologie nebo návody pro implementaci do praxe, nýbrž v ní představují spíše takovou škálu „férovosti“ jejich naplnění.

FAIR – How to:

Tato stránka vám v přehledné formě ukáže, jak můžete svá výzkumná data učinit více FAIR, a to prostřednictvím šesti postupů FAIRifikace (Dokumentace, Formáty souborů, Metadata, Přístup k datům, Trvalé identifikátory, Licence).

Autorem je Dánské národní fórum pro správu výzkumných dat s podporou Danish e-Infrastructure Cooperation (DeiC).

V současné době vznikly různé nástroje sloužící jako vodítka pro tvůrce dat, na jejichž základě lze zhodnotit, jak FAIR jsou jejich data. Jako pomocný nástroj pro zhodnocení vašich výzkumných dat lze využít kontrolní seznam Jak FAIR jsou vaše výzkumná data. Je to český překlad od Dagmar Hanzlíkové původně anglického textu „How FAIR are your data?„, který vytvořila Sarah Jones & Marjan Grootveld.

Pokud si chcete zhruba zhodnotit, jak FAIR jsou vaše data, ARDC poskytuje jednoduchý sebehodnotící nástroj, s jehož pomocí to zjistíte:

FAIRovost dat lze také vyhodnotit pomocí nástrojů, jako je například FAIR Wizard. Ten slouží hlavně také k tvorbě Data Management plánu.

Dánské národní fórum pro správu výzkumných dat připravilo multioborovou stránku How to make your data FAIR, která poradí, jak na FAIRifikaci kvantitativních i kvalitativních dat.

Na GitHubu naleznete také tento multioborový sebehodnotící nástroj. Jeho autory jsou Kerry Levett, Keith Russell, Martin Schweitzer, Kathryn Unsworth, Andrew White, přičemž do češtiny ho přeložili Jan Skupa a Petra Dědičová z Ústřední knihovny VUT, přičemž online ho naleznete výše na této stránce.

Dalším sebehodnotícím nástrojem je 5 ★ DATA RATINGS. Nástroj implementuje FAIR datové principy od FORCE 11. Další vodítka ke zhodnocení stupně FAIR dat naleznete například zde.

F-UJI je webová služba hodnotící FAIRifikaci dat z výzkumných datasetů na základě metrik vyvinutých projektem FAIRsFAIR.

Nástroje pro Life sciences

Dostupný je například nástroj Life sciences ELIXIR Research Data Management Kit (RDMkit), který poskytuje best practices a vodítka k FAIRifikaci dat. Tento nástroj je doporučen dokumentem Horizon Europe Program Guide, jako „zdroj pokynů a osvědčených postupů pro správu dat v oblasti věd o živé přírodě.“

Francouzský institut pro bioinformatiku poskytuje Life sciences ELIXIR France/IFB  FAIR-Checker, nástroj, s jehož pomocí si lze zhodnotit míru FAIR a zvýšit  kvalitu svých digitálních zdrojů. Poskytovatelé dat si mohou zkontrolovat, jak jsou jejich webové zdroje FAIR. Vývojáři zase mohou prozkoumávat a kontrolovat metadata ve webových zdrojích.

Nástroje pro sociální vědy

Pro výzkumníky v oblasti sociálních věd je dostupný Data Management Expert Guide od CESSDA. Tohoto průvodce je možné si také stáhnout.


Zpracováno na základě podkladů z Guides for Researchers – How to make your data FAIR – stránkách podpory OpenAIRE a materiálů iniciativy GO FAIR.