Repozytoria danych badawczych

  • CoreTrustSeal

    CoreTrustSeal – międzynarodowa, pozarządowa organizacja non-profit, która oferuje zainteresowanym podmiotom zarządzającym repozytorium danych certyfikację w oparciu o Core Trustworthy Data Repositories Requirements. Wymagania Core Trustworthy Data Repositories zostały sformułowane w 2017 r. w wyniku połączenia dwóch standardów certyfikacji – Data Seal of Approval (DSA) i World Data System (WDS). Proces certyfikacji CoreTrustSeal nie obejmuje wizyty audytora – polega na samoocenie (certyfikacja na poziomie podstawowym wg klasyfikacji zaproponowanej w Memorandum of Understanding uzgodnionym w 2010 r.). Certyfikat traci ważność po trzech latach. Za wydanie certyfikatu CoreTrustSeal pobierana jest opłata administracyjna, która od 1 lutego 2024 r. wynosi 3 tys. euro.

  • norma DIN 31644 (pieczęć NESTOR Seal)

    norma DIN 31644 (pieczęć NESTOR Seal) – sformalizowana wersja drugiej wersji dokumentu Kriterienkatalog vertrauenswürdige digitale Langzeitarchive opracowanego na podstawie listy kontrolnej Trustworthy Repositories. Audit & Certification: Criteria and Checklist (TRAC). Proces certyfikacji NESTOR oparty na rozszerzonej samoocenie jest prostszy i mniej intensywny niż audyt przeprowadzony przez zewnętrznych ekspertów w ramach formalnego procesu oceny. W założeniu cała ocena powinna zamknąć się w ciągu trzech miesięcy. Formalnie pieczęć ważna jest bezterminowo, jednak jej znaczenie może się zmniejszyć po kilku latach – niemniej jednak nie ma wymogu powtarzania procedury. Opłata administracyjna za przeprowadzenie kontroli wiarygodności składanego wniosku wynosi 500 EUR.

  • Repozytorium Otwartych Danych (RepOD)

    Repozytorium Otwartych Danych (RepOD; instrukcja zakładania konta i deponowania danych w RepOD) – bezpłatne, polskie repozytorium interdyscyplinarne, które powstało w ramach projektu Dziedzinowe Repozytoria Otwartych Danych Badawczych realizowanego przez zespoły projektowe w ICM UW, ISS UW, IFiS PAN i UAM w Poznaniu. Repozytorium to jest przeznaczone dla tzw. małych danych – limit wielkości pojedynczego pliku wynosi 5 GB (limit wielkości sumy przesyłanych jednocześnie plików wynosi 20 GB), przy czym nie ma określonego limitu na wielkość zestawu danych. Wszystkie wersje zbiorów danych w RepOD mają ten sam identyfikator DOI, ich wyróżnikiem jest numer wersji. RepOD jest zarejestrowane w re3data.org.

  • Zenodo

    Zenodo (instrukcja zakładania konta i deponowania danych w Zenodo) – bezpłatne, międzynarodowe repozytorium interdyscyplinarne utworzone dzięki inicjatywie CERN (European Organization for Nuclear Research; międzynarodowej organizacji niekomercyjnej zrzeszającej ponad 20 państw członkowskich i ponad 10 obserwujących; największego na świecie centrum badań fizyki cząstek elementarnych) i OpenAIRE (organizacji niekomercyjnej, której misją jest promowanie otwartej nauki; zarządzającej europejską e-infrastrukturą agregującą repozytoria i wspierającą deponowanie wyników badań naukowych; kluczowego podmiotu zarządzającego European Open Science Cloud). Repozytorium to jest przeznaczone dla tzw. małych danych – limit wielkości zestawu danych wynosi 50 GB (można zdeponować maksymalnie 100 plików). Każda wersja zbioru danych zdeponowanych w tym repozytorium otrzymuje unikalny numer DOI. Zenodo jest zarejestrowane w re3data.org.

  • Mendeley Data

    Mendeley Data – produkt firmy Elsevier; międzynarodowe repozytorium interdyscyplinarne przeznaczone dla tzw. małych danych – limit wielkości pojedynczego pliku w wersji bezpłatnej wynosi 10 GB (można zdeponować maksymalnie 200 folderów z plikami; utworzone foldery mogą mieć maksymalnie do 8 podfolderów); instytucje, które są subskrybentami Digital Commons Data mogą deponować zestawy danych o maksymalnym rozmiarze 100 GB. Każda wersja zbioru danych zdeponowanych w tym repozytorium otrzymuje unikalny numer DOI. Mendeley Data jest zarejestrowane w re3data.org.

  • Figshare

    Figshare – międzynarodowe repozytorium interdyscyplinarne działające przy wsparciu firmy Digital Science. Każda osoba, która założy konto, otrzymuje przestrzeń o wielkości 20 GB na swoje dane (można zwiększyć limit miejsca po wykupieniu dodatkowych gigabajtów – po odpowiedniej opłacie przestrzeń może zostać powiększona do wielu TB). Każda wersja zbioru danych zdeponowanych w tym repozytorium otrzymuje unikalny numer DOI. Figshare jest zarejestrowane w re3data.org.

  • Harvard Dataverse

    Harvard Dataverse – repozytorium interdyscyplinarne stworzone na Uniwersytecie Harvarda. Wszyscy naukowcy, zarówno ze społeczności Uniwersytetu Harvarda, jak i spoza niej, mogą deponować w tym repozytorium pliki o rozmiarze do 2,5 GB i przechowywać do 1 TB danych. Wszystkie wersje zbiorów danych w Harvard Dataverse mają ten sam identyfikator DOI, ich wyróżnikiem jest numer wersji. Harvard Dataverse jest zarejestrowane w re3data.org.

  • Open Science Framework (OSF)

    Open Science Framework (OSF) – bezpłatna platforma zarządzana przez amerykańską organizację non-profit Center for Open Science (COS), która może być wykorzystana do nawiązania współpracy, dokumentowania, archiwizowania, udostępniania i rejestrowania projektów badawczych, artykułów i danych. Limit wielkości pojedynczego pliku w tym repozytorium wynosi 5 GB, natomiast limit na wielkość zestawu danych jest różny dla rekordów z zamkniętym dostępem (5 GB) i otwartym dostępem (50 GB). OSF przypisuje wszystkim swoim zasobom Globally Unique Identifiers (GUIDs). Jest też możliwość nadania numerów DOI, przy czym wszystkie wersje zasobów w OSF mają ten sam identyfikator DOI. OSF jest zarejestrowane w re3data.org.

  • Dryad

    Dryad – międzynarodowe repozytorium przeznaczone dla szerokiego zakresu danych (początkowo głównie dla danych z dziedziny biologii). Powstało z inicjatywy National Evolutionary Synthesis Center (NESCent) dzięki dofinansowaniu U.S. National Science Foundation. Jest to repozytorium non-profit, ale za zdeponowanie danych wymagana jest opłata 150 USD (opłaty za publikację danych mają na celu odzyskanie podstawowych kosztów gromadzenia i przechowywania danych). Z opłaty zwolnione są osoby związane z instytucjami uiszczającymi regularne składki członkowskie oraz publikujące artykuły w czasopismach lub książkach, których redakcje podpisały umowę z Dryad. Można również osobiście wnioskować o zwolnienie z opłaty za zdeponowanie danych. Limit wielkości pojedynczego pliku wynosi w tym repozytorium 10 GB (limit wielkości sumy przesyłanych jednocześnie plików wynosi 300 GB). Dryad nie akceptuje plików z warunkami licencji, które nie są zgodne z Creative Commons Zero (przekazanie do domeny publicznej) CC0. Wszystkie wersje zbiorów danych w Dryad mają ten sam identyfikator DOI. Dryad jest zarejestrowane w re3data.org.

  • Repozytorium Danych Społecznych (RDS)

    Repozytorium Danych Społecznych (RDS) – bezpłatne, polskie repozytorium dziedzinowe danych społecznych, które powstało w ramach projektu Dziedzinowe Repozytoria Otwartych Danych Badawczych realizowanego przez zespoły projektowe w ICM UW, ISS UW, IFiS PAN i UAM w Poznaniu. Repozytorium RDS składa się z dwóch baz: Archiwum Danych Jakościowych (dane jakościowe) i Polskiego Archiwum Danych Społecznych (dane ilościowe). Repozytorium RDS jest przeznaczone dla tzw. małych danych – limit wielkości pojedynczego pliku wynosi 5 GB (limit wielkości sumy przesyłanych jednocześnie plików wynosi 20 GB), przy czym nie ma określonego limitu na wielkość zestawu danych. Wszystkie wersje zbiorów danych w RDS mają ten sam identyfikator DOI, ich wyróżnikiem jest numer wersji. RDS jest zarejestrowane w re3data.org.

  • GigaDB

    GigaDB – dziedzinowe repozytorium danych przyrodniczych i biomedycznych związane z firmami GigaScience Press oraz BGI Group. Pierwotnie GigaDB służył przede wszystkim jako repozytorium do przechowywania danych i narzędzi związanych z artykułami w GigaScience (czasopismo poświęcone otwartym danym, uruchomione w 2012 roku jako miejsce publikacji badań big data z zakresu nauk przyrodniczych i biomedycznych), obecnie akceptowane są również zbiory danych niezwiązane z tym czasopismem. GigaByte jest w stanie przechowywać bardzo duże zbiory danych różnych formatów. Jeżeli dane są powiązane z czasopismem GigaScience, koszty przechowywania danych poniżej 1 TB są wliczone w standardową opłatę za publikację artykułu. Wszystkie zbiory danych zdeponowane w GigaDB są objęte licencją Creative Commons Zero (przekazanie do domeny publicznej) CC0. Jest też możliwość nadania numerów DOI, przy czym wszystkie wersje zasobów w GigaDB mają ten sam identyfikator DOI. GigaDB jest zarejestrowane w re3data.org.

  • Sequence Read Archive (SRA)

    Sequence Read Archive (SRA) – repozytorium zostało założone przez National Center for Biotechnology Information (NCBI) w celu przechowywania w nim danych uzyskanych z badań RNA-Seq i ChIP-Seq, a także badań na dużą skalę, takich jak 1000 GenomesHuman Microbiome Project. SRA jest obecnie częścią programu międzynarodowej współpracy w zakresie baz danych sekwencji nukleotydów (International Nucleotide Sequence Database Collaboration, INSDC), która obejmuje NCBI Sequence Read Archive (SRA), Europejski Instytut Bioinformatyki (European Bioinformatics Institute, EMBL-EBI) i Japoński Bank Danych DNA (DNA Data Bank of Japan, DDBJ). W repozytorium tym gromadzone są surowe dane sekwencjonowania z takich urządzeń jak: Roche 454 GS System, Illumina Genome Analyzer, Applied Biosystems SOLiD System, Helicos Heliscope i Complete Genomics. Każdy przesłany plik fastq powinien mieć rozmiar mniejszy niż 100 GB, limit wielkości sumy przesyłanych jednocześnie plików wynosi 5 TB (po przesłaniu 5 TB należy zaczekać na zakończenie procesu przesyłania zanim przystąpi się do ładowania następnego zestawu plików). Pliki można kompresować przy użyciu programów gzip lub bzip2 (nie należy używać programu Zip). SRA akceptuje pliki binarne, takie jak formaty BAM, SFF i HDF5 oraz formaty tekstowe, takie jak FASTQ. Dane zdeponowane w SRA mają przypisany stały numer seryjny (run accession number). Repozytorium SRA jest zarejestrowane w re3data.org.

  • Synapse

    Synapse – platforma, która pomaga zespołom badawczym organizować, udostępniać i komentować badania z zakresu nauk biologicznych i medycznych. Repozytorium Synapse jest zarządzane przez Sage Bionetworks (organizację non-profit zajmującą się badaniami nad zdrowiem z siedzibą w Seattle w stanie Waszyngton). Ponieważ Synapse służy do przechowywania danych z badań z udziałem ludzi, Sage Bionetworks wymaga, aby użytkownik wykazał się zrozumieniem obowiązków związanych z udostępnianiem takich treści. Dlatego przed udostępnieniem wyników badań należy rozwiązać krótki quiz i uzyskać certyfikat jego ukończenia. Przechowywanie małych danych (<100 GB) może być bezkosztowe (z limitem przesyłania danych do 4 TB na rok), natomiast w celu uzyskania wsparcia w zarządzaniu danymi ze strony zespołu specjalistów tego repozytorium oraz powiększenia limitu dostępnego miejsca, trzeba zapłacić od 15 tys. USD do 30 tys. USD w zależności od wybranych opcji dodatkowych. Każda wersja zbioru danych zdeponowanych w tym repozytorium może otrzymać unikalny numer DOI. Pliki można opatrzyć niestandardowymi metadanymi. Synapse jest zarejestrowane w re3data.org.