Repozytoria danych badawczych
Repozytorium danych badawczych – narzędzie informatyczne służące do (samo) publikowania, (samo) archiwizacji i udostępniania danych badawczych. Repozytoria danych badawczych, podobnie jak repozytoria publikacji, mogą mieć charakter dziedzinowy lub instytucjonalny. Mogą też łączyć funkcje obu typów, jeżeli prowadząca je instytucja zajmuje się badaniami w określonym obszarze:
- repozytorium instytucjonalne – służące do (samo) publikowania, (samo) archiwizacji i udostępniania bieżącej twórczości intelektualnej społeczności akademickiej związanej z daną instytucją;
- repozytorium dziedzinowe – służące do (samo) publikowania, (samo) archiwizacji i udostępniania treści związanych z określoną dziedziną nauki bez względu na miejsce ich powstania.
Rejestr repozytoriów danych badawczych:
- Registry of Research Data Repositories (re3data.org; rejestracja w tej bazie jest jednym z wymogów NCN dotyczących repozytoriów danych badawczych) – międzynarodowy rejestr repozytoriów danych badawczych. Narzędzie uruchomiono w 2012 r. w ramach projektu realizowanego przez Karlsruher Institut für Technologie (KIT), Humboldt-Universität zu Berlin oraz Helmholtz Open Science Office, którego celem było opracowanie usługi pomagającej odnaleźć odpowiednie repozytorium do przechowywania danych badawczych. W 2014 r. rejestr re3data został połączony z podobnym amerykańskim narzędziem o nazwie Databib opracowanym przez Institute of Museum and Library Services (IMLS) oraz biblioteki Purdue i Pennsylvania State University. re3data zawiera zwięzłe informacje na temat zarejestrowanych repozytoriów (ponad 3 tys. repozytoriów – stan na 2024 r.). System ikon informuje o poziomie otwartości repozytoriów, możliwości nadawania przez nie trwałego identyfikatora (PID, np. DOI, hdl, urn, purl), certyfikacji czy posiadaniu polityk, np. regulaminu korzystania czy polityki otwartego dostępu. Narzędzie re3data jest szeroko wykorzystywane przez instytucje akademickie, organizacje finansujące, wydawców, czasopisma i różne inne zainteresowane podmioty, takie jak European Open Science Cloud (EOSC) czy Nationale Forschungsdateninfrastruktur (NFDI). re3data jest wymieniane jako niezbędna pomoc w znalezieniu odpowiedniego repozytorium w politykach różnych organizacji finansujących badania (Narodowe Centrum Nauki, PL, Bill & Melinda Gates Foundation, USA, National Science Foundation (NSF), USA, European Commission i ERC, EU), instytucji naukowych (Technische Universität Berlin, Germany, University of Edinburgh, United Kingdom) i czasopism (Springer Nature, Taylor & Francis, Wiley).
Źródło: Pampel H., Weisweiler N.L., Strecker D. et al. (2023) re3data – Indexing the Global Research Data Repository Landscape Since 2012, „Scientific Data” 10(1), 571, dostęp: https://doi.org/10.1038/s41597-023-02462-y
Narzędzia służące do certyfikacji repozytoriów:
CoreTrustSeal
CoreTrustSeal – międzynarodowa, pozarządowa organizacja non-profit, która oferuje zainteresowanym podmiotom zarządzającym repozytorium danych certyfikację w oparciu o Core Trustworthy Data Repositories Requirements. Wymagania Core Trustworthy Data Repositories zostały sformułowane w 2017 r. w wyniku połączenia dwóch standardów certyfikacji – Data Seal of Approval (DSA) i World Data System (WDS). Proces certyfikacji CoreTrustSeal nie obejmuje wizyty audytora – polega na samoocenie (certyfikacja na poziomie podstawowym wg klasyfikacji zaproponowanej w Memorandum of Understanding uzgodnionym w 2010 r.). Certyfikat traci ważność po trzech latach. Za wydanie certyfikatu CoreTrustSeal pobierana jest opłata administracyjna, która od 1 lutego 2024 r. wynosi 3 tys. euro.
norma ISO 16363
norma ISO 16363 – sformalizowana wersja dokumentu Audit and Certification of Trustworthy Digital Repositories: Recommended Practice opracowanego na podstawie listy kontrolnej Trustworthy Repositories. Audit & Certification: Criteria and Checklist (TRAC). Proces certyfikacji według normy ISO 16363 polega na audycie przeprowadzonym przez zewnętrznych ekspertów (formalna certyfikacja). Pierwszą organizacją na świecie upoważnioną do przeprowadzania audytu według normy ISO 16363 został PTAB (Primary Trustable Digital Repository Authorization Body) z siedzibą w Dorset w Wielkiej Brytanii. Cena audytu przeprowadzonego przez PTAB uzależniona jest od wielkości i złożoności repozytorium (może wynieść ok. 15 tys. GBP).
norma DIN 31644 (pieczęć NESTOR Seal)
norma DIN 31644 (pieczęć NESTOR Seal) – sformalizowana wersja drugiej wersji dokumentu Kriterienkatalog vertrauenswürdige digitale Langzeitarchive opracowanego na podstawie listy kontrolnej Trustworthy Repositories. Audit & Certification: Criteria and Checklist (TRAC). Proces certyfikacji NESTOR oparty na rozszerzonej samoocenie jest prostszy i mniej intensywny niż audyt przeprowadzony przez zewnętrznych ekspertów w ramach formalnego procesu oceny. W założeniu cała ocena powinna zamknąć się w ciągu trzech miesięcy. Formalnie pieczęć ważna jest bezterminowo, jednak jej znaczenie może się zmniejszyć po kilku latach – niemniej jednak nie ma wymogu powtarzania procedury. Opłata administracyjna za przeprowadzenie kontroli wiarygodności składanego wniosku wynosi 500 EUR.
Certyfikacja CoreTrustSeal powstała z myślą o repozytoriach przechowujących i udostępniających dane. Normy ISO 16363 i DIN 31644 mogą służyć jako narzędzie do certyfikacji zarówno repozytoriów danych badawczych, jak i repozytoriów publikacji.
Przykłady ogólnych repozytoriów otwartych danych badawczych, w których SGGW ma utworzone kolekcje instytucjonalne:
Repozytorium Otwartych Danych (RepOD)
Repozytorium Otwartych Danych (RepOD; instrukcja zakładania konta i deponowania danych w RepOD) – bezpłatne, polskie repozytorium interdyscyplinarne, które powstało w ramach projektu Dziedzinowe Repozytoria Otwartych Danych Badawczych realizowanego przez zespoły projektowe w ICM UW, ISS UW, IFiS PAN i UAM w Poznaniu. Repozytorium to jest przeznaczone dla tzw. małych danych – limit wielkości pojedynczego pliku wynosi 5 GB (limit wielkości sumy przesyłanych jednocześnie plików wynosi 20 GB), przy czym nie ma określonego limitu na wielkość zestawu danych. Wszystkie wersje zbiorów danych w RepOD mają ten sam identyfikator DOI, ich wyróżnikiem jest numer wersji. RepOD jest zarejestrowane w re3data.org.
Zenodo
Zenodo (instrukcja zakładania konta i deponowania danych w Zenodo) – bezpłatne, międzynarodowe repozytorium interdyscyplinarne utworzone dzięki inicjatywie CERN (European Organization for Nuclear Research; międzynarodowej organizacji niekomercyjnej zrzeszającej ponad 20 państw członkowskich i ponad 10 obserwujących; największego na świecie centrum badań fizyki cząstek elementarnych) i OpenAIRE (organizacji niekomercyjnej, której misją jest promowanie otwartej nauki; zarządzającej europejską e-infrastrukturą agregującą repozytoria i wspierającą deponowanie wyników badań naukowych; kluczowego podmiotu zarządzającego European Open Science Cloud). Repozytorium to jest przeznaczone dla tzw. małych danych – limit wielkości zestawu danych wynosi 50 GB (można zdeponować maksymalnie 100 plików). Każda wersja zbioru danych zdeponowanych w tym repozytorium otrzymuje unikalny numer DOI. Zenodo jest zarejestrowane w re3data.org.
Przykłady innych ogólnych repozytoriów otwartych danych badawczych:
Mendeley Data
Mendeley Data – produkt firmy Elsevier; międzynarodowe repozytorium interdyscyplinarne przeznaczone dla tzw. małych danych – limit wielkości pojedynczego pliku w wersji bezpłatnej wynosi 10 GB (można zdeponować maksymalnie 200 folderów z plikami; utworzone foldery mogą mieć maksymalnie do 8 podfolderów); instytucje, które są subskrybentami Digital Commons Data mogą deponować zestawy danych o maksymalnym rozmiarze 100 GB. Każda wersja zbioru danych zdeponowanych w tym repozytorium otrzymuje unikalny numer DOI. Mendeley Data jest zarejestrowane w re3data.org.
Figshare
Figshare – międzynarodowe repozytorium interdyscyplinarne działające przy wsparciu firmy Digital Science. Każda osoba, która założy konto, otrzymuje przestrzeń o wielkości 20 GB na swoje dane (można zwiększyć limit miejsca po wykupieniu dodatkowych gigabajtów – po odpowiedniej opłacie przestrzeń może zostać powiększona do wielu TB). Każda wersja zbioru danych zdeponowanych w tym repozytorium otrzymuje unikalny numer DOI. Figshare jest zarejestrowane w re3data.org.
Harvard Dataverse
Harvard Dataverse – repozytorium interdyscyplinarne stworzone na Uniwersytecie Harvarda. Wszyscy naukowcy, zarówno ze społeczności Uniwersytetu Harvarda, jak i spoza niej, mogą deponować w tym repozytorium pliki o rozmiarze do 2,5 GB i przechowywać do 1 TB danych. Wszystkie wersje zbiorów danych w Harvard Dataverse mają ten sam identyfikator DOI, ich wyróżnikiem jest numer wersji. Harvard Dataverse jest zarejestrowane w re3data.org.
Open Science Framework (OSF)
Open Science Framework (OSF) – bezpłatna platforma zarządzana przez amerykańską organizację non-profit Center for Open Science (COS), która może być wykorzystana do nawiązania współpracy, dokumentowania, archiwizowania, udostępniania i rejestrowania projektów badawczych, artykułów i danych. Limit wielkości pojedynczego pliku w tym repozytorium wynosi 5 GB, natomiast limit na wielkość zestawu danych jest różny dla rekordów z zamkniętym dostępem (5 GB) i otwartym dostępem (50 GB). OSF przypisuje wszystkim swoim zasobom Globally Unique Identifiers (GUIDs). Jest też możliwość nadania numerów DOI, przy czym wszystkie wersje zasobów w OSF mają ten sam identyfikator DOI. OSF jest zarejestrowane w re3data.org.
W tym repozytoria płatne niezależnie od liczby przesłanych plików:
Dryad
Dryad – międzynarodowe repozytorium przeznaczone dla szerokiego zakresu danych (początkowo głównie dla danych z dziedziny biologii). Powstało z inicjatywy National Evolutionary Synthesis Center (NESCent) dzięki dofinansowaniu U.S. National Science Foundation. Jest to repozytorium non-profit, ale za zdeponowanie danych wymagana jest opłata 150 USD (opłaty za publikację danych mają na celu odzyskanie podstawowych kosztów gromadzenia i przechowywania danych). Z opłaty zwolnione są osoby związane z instytucjami uiszczającymi regularne składki członkowskie oraz publikujące artykuły w czasopismach lub książkach, których redakcje podpisały umowę z Dryad. Można również osobiście wnioskować o zwolnienie z opłaty za zdeponowanie danych. Limit wielkości pojedynczego pliku wynosi w tym repozytorium 10 GB (limit wielkości sumy przesyłanych jednocześnie plików wynosi 300 GB). Dryad nie akceptuje plików z warunkami licencji, które nie są zgodne z Creative Commons Zero (przekazanie do domeny publicznej) CC0. Wszystkie wersje zbiorów danych w Dryad mają ten sam identyfikator DOI. Dryad jest zarejestrowane w re3data.org.
Przykłady repozytoriów dziedzinowych:
Nauki społeczne
Repozytorium Danych Społecznych (RDS)
Repozytorium Danych Społecznych (RDS) – bezpłatne, polskie repozytorium dziedzinowe danych społecznych, które powstało w ramach projektu Dziedzinowe Repozytoria Otwartych Danych Badawczych realizowanego przez zespoły projektowe w ICM UW, ISS UW, IFiS PAN i UAM w Poznaniu. Repozytorium RDS składa się z dwóch baz: Archiwum Danych Jakościowych (dane jakościowe) i Polskiego Archiwum Danych Społecznych (dane ilościowe). Repozytorium RDS jest przeznaczone dla tzw. małych danych – limit wielkości pojedynczego pliku wynosi 5 GB (limit wielkości sumy przesyłanych jednocześnie plików wynosi 20 GB), przy czym nie ma określonego limitu na wielkość zestawu danych. Wszystkie wersje zbiorów danych w RDS mają ten sam identyfikator DOI, ich wyróżnikiem jest numer wersji. RDS jest zarejestrowane w re3data.org.
Nauki ścisłe i przyrodnicze
GigaDB
GigaDB – dziedzinowe repozytorium danych przyrodniczych i biomedycznych związane z firmami GigaScience Press oraz BGI Group. Pierwotnie GigaDB służył przede wszystkim jako repozytorium do przechowywania danych i narzędzi związanych z artykułami w GigaScience (czasopismo poświęcone otwartym danym, uruchomione w 2012 roku jako miejsce publikacji badań big data z zakresu nauk przyrodniczych i biomedycznych), obecnie akceptowane są również zbiory danych niezwiązane z tym czasopismem. GigaByte jest w stanie przechowywać bardzo duże zbiory danych różnych formatów. Jeżeli dane są powiązane z czasopismem GigaScience, koszty przechowywania danych poniżej 1 TB są wliczone w standardową opłatę za publikację artykułu. Wszystkie zbiory danych zdeponowane w GigaDB są objęte licencją Creative Commons Zero (przekazanie do domeny publicznej) CC0. Jest też możliwość nadania numerów DOI, przy czym wszystkie wersje zasobów w GigaDB mają ten sam identyfikator DOI. GigaDB jest zarejestrowane w re3data.org.
Sequence Read Archive (SRA)
Sequence Read Archive (SRA) – repozytorium zostało założone przez National Center for Biotechnology Information (NCBI) w celu przechowywania w nim danych uzyskanych z badań RNA-Seq i ChIP-Seq, a także badań na dużą skalę, takich jak 1000 Genomes i Human Microbiome Project. SRA jest obecnie częścią programu międzynarodowej współpracy w zakresie baz danych sekwencji nukleotydów (International Nucleotide Sequence Database Collaboration, INSDC), która obejmuje NCBI Sequence Read Archive (SRA), Europejski Instytut Bioinformatyki (European Bioinformatics Institute, EMBL-EBI) i Japoński Bank Danych DNA (DNA Data Bank of Japan, DDBJ). W repozytorium tym gromadzone są surowe dane sekwencjonowania z takich urządzeń jak: Roche 454 GS System, Illumina Genome Analyzer, Applied Biosystems SOLiD System, Helicos Heliscope i Complete Genomics. Każdy przesłany plik fastq powinien mieć rozmiar mniejszy niż 100 GB, limit wielkości sumy przesyłanych jednocześnie plików wynosi 5 TB (po przesłaniu 5 TB należy zaczekać na zakończenie procesu przesyłania zanim przystąpi się do ładowania następnego zestawu plików). Pliki można kompresować przy użyciu programów gzip lub bzip2 (nie należy używać programu Zip). SRA akceptuje pliki binarne, takie jak formaty BAM, SFF i HDF5 oraz formaty tekstowe, takie jak FASTQ. Dane zdeponowane w SRA mają przypisany stały numer seryjny (run accession number). Repozytorium SRA jest zarejestrowane w re3data.org.
Nauki medyczne i nauki o zdrowiu
Synapse
Synapse – platforma, która pomaga zespołom badawczym organizować, udostępniać i komentować badania z zakresu nauk biologicznych i medycznych. Repozytorium Synapse jest zarządzane przez Sage Bionetworks (organizację non-profit zajmującą się badaniami nad zdrowiem z siedzibą w Seattle w stanie Waszyngton). Ponieważ Synapse służy do przechowywania danych z badań z udziałem ludzi, Sage Bionetworks wymaga, aby użytkownik wykazał się zrozumieniem obowiązków związanych z udostępnianiem takich treści. Dlatego przed udostępnieniem wyników badań należy rozwiązać krótki quiz i uzyskać certyfikat jego ukończenia. Przechowywanie małych danych (<100 GB) może być bezkosztowe (z limitem przesyłania danych do 4 TB na rok), natomiast w celu uzyskania wsparcia w zarządzaniu danymi ze strony zespołu specjalistów tego repozytorium oraz powiększenia limitu dostępnego miejsca, trzeba zapłacić od 15 tys. USD do 30 tys. USD w zależności od wybranych opcji dodatkowych. Każda wersja zbioru danych zdeponowanych w tym repozytorium może otrzymać unikalny numer DOI. Pliki można opatrzyć niestandardowymi metadanymi. Synapse jest zarejestrowane w re3data.org.