Data management
Data management jsou veškeré činnosti spojené se správou výzkumných dat v celém jejich životním cyklu. Výsledkem dobře prováděné správy by měla být FAIR data, snadnější replikovatelnost výzkumu a ověřitelnost dosažených výsledků. Dobře vykonávaná správa dat zvyšuje důvěryhodnost vědy vede k větší citovanosti a obecně stimuluje další rozvoj poznání. Projektovým výstupem tohoto procesu bývá tzv. data management plán.
„Data Management Plans (plány správy dat, DMP) jsou klíčovou složkou dobré správy dat.“
“Data Management Plans (DMPs) are a key element of good data management.”
| European Commission, 2016.
Data management plan – DMP
DMP je dokument, který popisuje proces správy dat v konkrétním výzkumném projektu – tedy jaká data a jakým způsobem budou během výzkumu použita, případně znovu vytvářena, a obsahuje informace o jejich parametrech, dostupnosti, jednotlivých krocích vedoucích k jejich získání, jejich uložení během výzkumu, možnostech a omezeních jejich dalšího využití a také informace o dlouhodobé archivaci.
DMP je „živý“ dokument, který má být aktualizován a udržován aktuální v průběhu celého výzkumného projektu. Pro jeho přípravu je tedy vhodné používat nástroje, které umožňují průběžně udržovat aktuální informace o zacházení s daty v projektu, a DMP jako dokument na požádání vygenerovat v aktuální podobě kdykoliv je to potřeba.
Více informací o plánu správy dat
V češtině není pro DMP ustálený název, lze se setkat s označením „plán managementu dat“ nebo „plán správy dat“. DMP má být živý dokument a nikoliv pouhý byrokratický požadavek, měl by být aktualizován, jakmile se objeví závažné změny v průběhu projektu (např. nová data, změna v konsorciálních podmínkách nebo ve složení atd.) a také v době ukončení projektu. DMP je součástí metodologie výzkumného projektu. Pokud je dobře zpracovaný, zefektivňuje práci a šetří čas a je tedy klíčovým podpůrným prostředkem při plánování a realizaci výzkumného projektu.
Podoba dokumentu není formálně striktně daná, ale jde principiálně o sadu témat a odpovědí, které se liší podle poskytovatele financí, zažité praxe jednotlivých vědních oborů, povahy konkrétního výzkumného projektu a v neposlední řad typu zahrnutých dat.
Science Europe ve svém ”Practical Guide To The International Alignment of Research Data Management” doporučuje při tvorbě DMP neopomenout 6 hlavních témat (Popis sběru dat nebo použití již existujících, Dokumentace a kvalita dat, Uložení a zálohování během výzkumu, Právní a etické požadavky, Sdílení dat a jejich dlouhodobé uchování, Odpovědnost za DMP, související zdroje) a zodpovědět 15 návodných, upřesňujících otázek. Pro potřeby grantových výzev z OP JAK byl Národní technickou knihovnou vydán Překlad šablony plánu pro správu dat určené pro program Horizon Europe.
Praktické informace a doporučení k data management plánu pro sociální vědy naleznete na stránkách Českého sociálněvědního datového archivu (CSDA) – Sociologického ústavu AV ČR. Pro potřeby českých sociálních vědkyň a vědců připravil CSDA vlastní vzor DMP v českém jazyce, který je do značné míry založen na šabloně Konsorcia evropských sociálněvědních datových archivů CESSDA ERIC (Consortium of European Social Science Data Archives, European Research Infrastructure Consortium). Šablona obsahuje několik málo úprav, které CSDA udělal na základě vlastních zkušeností z českého prostředí. Tato šablona rovněž pokrývá DMP kategorie požadované programem Horizon 2020. Téma managementu dat v sociálních vědách je podrobněji zpracováno v samostatném článku „Management dat v průběhu výzkumného projektu“ a v knize „Cesty k datům„.
Nástroje pro tvorbu DMP
Pro vytváření a správu DMP existuje hned několik vhodných online nástrojů. Jedná se o nejrozšířenější řešení, která jsou vzájemně více méně srovnatelná a všechna jsou dále vyvíjena.
Specifikace nejběžnějších nástrojů pro tvorbu DMP
Nástroj vyvinutý v rámci projektu OpenAIRE a EUDAT jako open source. Tento online nástroj umožňuje snadné vytvoření DMP a samostatný popis datasetů. Nástroj je poskytován jako bezplatná služba. Je možné využít šablony pro popis dat. Nástroj je propojen s ORCID, službami OpenAIRE a repozitářem Zenodo, prostřednictvím kterého je DMP možné snadno publikovat a získat tak pro něj DOI.
Nástroj je vyvíjený jako open source Britským DCC – Data Curation Center – obsahuje velké množství veřejných DMP a šablon pro popis dat. Je poskytován jako bezplatná služba. Vyniká možností snadného zveřejnění DMP přímo na stránkách DMP online.
Komplexní nástroj pro tvorbu DMP a správu výzkumných dat vyvíjený v rámci infrastruktury ELIXIR jako open source – jde o společný projekt ELIXIR CZ a ELIXIR NL. Umožňuje snadnou tvorbu vlastních předvyplněných šablon, například pro výzkumné týmy, či použité výzkumné nástroje, tím usnadňuje zpracování dalších DMP. Nástroj obsahuje i komplexnější knowledge modely profilované podle vědních oblastí, automaticky vyhodnocuje míru naplnění FAIR principů, je dobře propojen na databázi standardů fairsharing.org a nabádá uživatele k co největšímu využití řízených slovníků – to následně umožňuje porovnávání a evaluaci již vytvořených DMP.
Pro ELIXIR-affiliated instituce je nástroj dostupný v rámci infrastruktury ELIXIR. Knihovna AV ČR, v. v. i. zprostředkovává přístup k samostatné instanci tohoto open source nástroje provozované společností Codevence Solutions, s.r.o. pod názvem FAIR Wizard pro zájemce ze všech pracovišť AV ČR. Poslední možností je provozovat instanci na vlastním serveru.
ELIXIR CZ – affiliated pracoviště AV ČR:
Další nástroje pro správu dat
Existuje řada různých technických nástrojů, které mohou být užitečnou podporou pro každou část životního cyklu dat.
Specifikace několika dalších užitečných nástrojů
Nástroj umožňuje pomocí jednoduchých otázek vyhodnotit, do jaké míry jsou vaše data FAIR. V českém překladu je rovněž dostupný zde.
Nástroj OpenAIRE pro anonymizaci výzkumných dat umožňuje upravit citlivá data tak, aby mohla být sdílena se širokou veřejností, a tím se eliminovalo riziko porušení práv dalších subjektů. Nástroj umí deduplikovat nahrávaná anonymizovaná data při ukládání do repozitáře ZENODO.
Open Science Framework je platforma pro otevřený a uživatelsky snadný management celého výzkumného procesu ve všech jeho fázích – od počátečního záměru, přes zpracování, úpravy, analýzu až po finální sdílení publikačních výsledků a dat. Umožňuje registraci výzkumného záměru, správu projektu nebo správu samotných dat. Prostředí je propojeno s mnoha dalšími službami a platformami – ORCID, Zotero, Mendeley, Google scholar, Dropbox apod.
JupyterLab je nejnovější webové interaktivní prostředí pro zápisky, kód a data. Přizpůsobivé rozhraní umožňuje uživatelům upravovat a uspořádávat workflow v data science, scientific computing, computational journalism a strojovém učení. Modulární design umožňuje přidávat rozšíření pro obohacení funkcí.