Repozitář LINDAT/CLARIAH-CZ - O nás a naše pravidla



Naše poslání


Konečným cílem projektu CLARIN ERIC je urychlit výzkum v humanitních a sociálních vědách zpřístupněním jednotné platformy, která na evropské úrovni integruje jazykové zdroje a pokročilé nástroje pro zpracování psaného i mluveného jazyka. Tento cíl je uskutečňován prostřednictvím nově vytvořené sdílené distribuované infrastruktury (s jednotným přístupem), která se zaměřuje na to, aby jazykové zdroje, technologie a odborné znalosti zpřístupnila nejen humanitním a společenským vědám (dále jen SHV), ale obecně všem výzkumným komunitám.

Více o CLARIN ERIC na CLARIN-ShortGuide.pdf


Pravidla použití služeb

Pro dosažení našeho poslání jsme stanovili některá základní nařízení prostřednictvím Pravidel pro použití služeb. Používáním repozitáře LINDAT/CLARIAH-CZ nebo použitím jakýchkoliv dat nebo služeb poskytovaných prostřednictvím LINDAT/CLARIAH-CZ souhlasíte s tím, že budete dodržovat podmínky obsažené ve výše uvedeném dokumentu.

Data v repozitáři LINDAT/CLARIAH-CZ jsou k dispozici na základě licence uvedené u jednotlivých zdrojů (položek). Pokud zde licence uvedena není, data jsou volně k dispozici, a to jak pro přístup a tisk, tak také ke stažení pro účely nekomerčního výzkumu nebo pro soukromé studium. Uživatel musí v každé své publikaci pomocí stálého ("perzistentního") identifikátoru (PID, viz Pravidla pro citace) uvést, jaká data použil, dále musí uvést jejich původního autora a v případě potřeby také jejich vydavatele. Žádné položky nesmí být využívány roboty, s výjimkou dočasného zpracování pro fulltextové indexování nebo analýzy citací. Žádné položky nesmí být bez formálního souhlasu majitele autorských práv komerčně prodávány, jedině pokud je to výslovně dovoleno na základě licence uvedené u dané položky v repozitáři.


O repozitáři

Repozitář je knihovna pro jazyková data a nástroje na zpracování textu. Umožňuje

  • vyhledávání dat a nástrojů a jejich snadné stažení a
  • ukládání dat uživatelem s jistotou bezpečného uložení - všichni je mohou najít, používat i správně citovat (čímž uživatel získá příslušný kredit).

O ÚFALu

Ústav formální a aplikované lingvistiky (ÚFAL) na informatické sekci Matematicko-fyzikální fakulty Univerzity Karlovy v České republice byl založen v roce 1990 jako pokračovatel činnosti v oblasti výzkumu a výuky prováděné od počátku 60. let bývalou Laboratoří algebraické lingvistiky nejprve na Filozofické fakultě a později na Matematicko-fyzikální fakultě Univerzity Karlovy. ÚFAL je v prvé řadě výzkumné oddělení pracující na mnoha tématech z oblasti počítačové lingvistiky, a na mnoha národních i mezinárodních výzkumných projektech. Nicméně Ústav formální a aplikované lingvistiky je také "regulérní" katedrou v tom smyslu, že zajišťuje komplexní výukový program, a to jak pro magisterské (Mgr.), tak pro doktorské (Ph.D.) studium počítačové lingvistiky. Oba programy jsou vyučovány v českém a anglickém jazyce. Ústav je také členem "Master's LCT programme" realizovaného v rámci EU, který uděluje dva magisterské tituly na obou školách, na kterých je student zapsán. Studenti ÚFALu mohou rovněž využívat program Erasmus pro studijní pobyty na partnerských zahraničních univerzitách.


Licenční ujednání a smlouvy

V současné době se rozlišují tři typy smluv.

  • Při každém vložení dat vstupujeme s tím, kdo data vkládá ("vkladatelem") do standardního smluvního vztahu - jde o tzv. "Licenční ujednání", ve kterém popisujeme naše práva a povinnosti a vkladatel stvrzuje, že má právo svá data vložit. Zároveň nám dává právo tato data jeho jménem distribuovat prostřednictvím repozitáře LINDAT/CLARIAH-CZ.
  • Každý, kdo si data stáhne, je vázán licencí, která je k nim přiřazena. Pro stažení chráněných dat musí být uživatel identifikován jedním z ověřených způsobů a musí licenci elektronicky podepsat. Seznam všech licencí používaných v našem repozitáři lze nalézt zde.
  • Vkladatel má rovněž možnost zavést a následně nastavit pro vkládanou položku dat vlastní licenci, která bude po schválení administrátorem přidána do seznamu použitých licencí.

Práva k duševnímu vlastnictví

Jak již bylo zmíněno v oddíle Licenční ujednání a smlouvy, požadujeme, aby vkladatel dat nebo nástrojů podepsal Licenční ujednání a smlouvu, v níž specifikujeme, že vkladatel má právo vložit data a dává nám (repozitáři) právo tato data jeho jménem distribuovat. To znamená, že vkladatelé vložením dat k nám do repozitáře nesou sami zodpovědnost za práva k duševnímu vlastnictví (IPR) ještě předtím, než v repozitáři jimi vložená data nebo nástroje dáme veřejně k dispozici (za jimi nastavených licenčních podmínek).
Pokud by někdo měl podezření, že některý z datových souborů nebo některé nástroje v našem repozitáři porušují práva k duševnímu vlastnictví, měl by nás okamžitě kontaktovat na Lince podpory.


Pravidla uchovávání osobních údajů

Přečtěte si prosím naše Pravidla uchovávání osobních údajů, kde popisujeme, jak chráníme nutné osobní údaje shromážděné v LINDAT/CLARIAH-CZ repozitáři.


Pravidla pro metadata

Aby byl ve vložených položkách dat a nástrojů "pořádek" a bylo je možné snadno najít, čímž chceme podpořit jejich distribuci, musí být doprovázeny dostatečným množstvím metadat popisujících obsah daných položek, jejich původ a formáty. Metadata jsou vždy volně přístupná a jsou distribuována ve veřejné doméně (jako CC0). Vyhrazujeme si však právo být informováni o komerčním využití metadat uložených v LINDAT/CLARIAH-CZ repozitáři, včetně popisu vašeho použití, a to na Lince podpory.


Pravidla pro uchovávání dat

LINDAT/CLARIAH-CZ se zavázal k dlouhodobé péči o data a nástroje uložené v repozitáři a snaží se používat nejlepší stávající osvědčené postupy v oblasti uchovávání digitálních záznamů, jak je stanovuje CLARIN, OAIS a/nebo Univerzita Karlova. Viz Naše poslání.

Abychom zůstali spolehlivým a důvěryhodným úložištěm, podstupujeme pravidelná hodnocení ze strany CLARIN ERIC a CTS (dříve DSA).

Abychom mohli plnit naše závazky, repozitář zajišťuje, že přijatá data mají licenci a pod touto licencí je dále poskytuje (viz Licenční ujednání a smlouvy). Někdy (u licencí, které nepovolují volný přístup) to znamená, že k datům mají přístup pouze oprávnění uživatelé.

Proces nahrání dat popsaný v Jak ukládat vaše data a práce našich editorů zajišťuje, že data budou k nalezení prostřednictvím našeho vyhledávače, externě přes OAI-PMH a v různých dalších vyhledávačích. Proto vyžadujeme detailní metadata. Metadata jsou volně přístupná.

Integritu přijatých dat a úplnost metadat ověřuje řada automatizovaných procedur. Na úrovni systému používáme různé zálohovací strategie (včetně zálohování do jiné lokality) a hardware monitorujeme. Data jsou dostupná online.

Data i nástroje vnímáme jako hlavní výstupy výzkumu. Ke každému záznamu v repozitáři je přidělen perzistentní identifikátor, který slouží jako trvalý odkaz. Uživatelé jsou vedeni k jejich používaní. Jednou zveřejněná data není možné měnit, vždy je potřeba vytvořit nový záznam. Oba záznamy (starý a nový) jsou provázány odkazy (PID) v metadatech (viz nová verze).

Pracovníci repozitáře se pravidelně účastní aktivit v rámci CLARIN, konference Open Repositories a různých dalších konferencí, setkání a tréninků. Udržují si tak přehled o nových technologiích a iniciativách.

Námi používaný systém (DSpace) nabízí různé možnosti exportu, což zajistí, že v případě potřeby bude data i metadata možné přesunout do jiného systému.

Nahraná data by ideálně měla být v jednom z formátů, které doporučuje CLARIN, pokud to není možné, jsou hlavní zásady výběru formátu následující: Otevřené standardy jsou preferovány před proprietárními, formáty by měly být dobře zdokumentovány, ověřitelné a ověřené praxí. Pokud je to možné, upřednostňují se textové formáty před binárními a v případě digitalizace analogového signálu se doporučuje bezeztrátová nebo žádná komprese. Preferované formáty se budou časem měnit, v takovém případě vynaloží repozitář veškeré úsilí k převodu dat na nový formát. Originály budou pro účely reprodukovatelnosti zachovány beze změn (tj. pro nový formát bude vytvořen nový záznam, který propojíme se starým).

V případě ukončení financování bude obsah repozitáře převeden na jiné CLARIN centrum. Zatímco se bude jednat o detailech tohoto přesunu (právní aspekty apod.), nabízí ÚFAL (jakožto hostitelská instituce) časový rámec 10 let, během kterých zajistí přístup k datům.