O metadatech

Tato stránka poskytuje informace o tom, jaká metadata používáme (a tedy požadujeme po vkladatelích dat) a jak je zpřístupňujeme. Metadata jsou volně přístupná a jsou distribuována ve veřejné doméně pod CC0. Vyhrazujeme si ale právo být na naší Lince podpory informováni o komerčním využití všech metadat z LINDAT/CLARIAH-CZ repozitáře, včetně podrobného popisu jejich použití.



Formáty metadat

Během procesu vkládání příspěvku musí vkladatelé vyplnit také metadata, která jsou nedílnou součástí vloženého příspěvku (dat, nástrojů nebo služeb). Jsme schopni šířit metadata v různých formátech, včetně (a nejenom) CMDI a oai_dc. Viz úplný seznam podporovaných formátů. Je třeba mít na paměti, že některé formáty nemusí být použitelné pro všechny položky. Různé formáty nám pomáhají zpřístupnit tato metadata (a tedy "zviditelnit" příslušné položky) ve velkém množství agregátorů, specializovaných portálů i běžných vyhledávačů.

CMDI

Podívejte se na úvod do CLARINovských komponent metadat, kde získáte více informací k tomuto tématu.

Naše současné příspěvky dodržují clarin.eu:cr1:p_1403526079380 schéma. Část starších příspěvků (v podstatě všechny ty, které byly vloženy před zářím/říjnem 2014) používá jiné schéma clarin.eu:cr1:p_1349361150622. Nové schéma jsme vytvořili proto, abychom vkladatelům zjednodušili a zpřehlednili postup vyplňování metadat. Původní schéma kombinovalo složku OLAC a MetaShare. Toto schéma nás nutilo zvládat duplicity a také nás činilo závislými na cizím schématu matadat a jeho sémantice, které jsme nemohli ani ovlivnit, ani měnit.

Obě schémata jsou poměrně dobře pokryta odkazy na registr konceptů (základních pojmů a definic). Nyní zastaralé odkazy ISOcat DCR byly přesměrovány na CCR a odkazy na schémata komponentů OLAC byly přesměrovány na DCMI terms schémata (např. odkaz na abstrakty je na http://purl.org/dc/terms/abstract). VLO nepoužívá tato specifická schémata při svých mapováních a spíše mapuje cesty uvnitř jednoho konkrétního schématu. Jen pro některé specifické položky bylo toto mapování cest rozšířeno, aby fungovalo také s komponentou tohoto schématu. Dalším důvodem pro vytvoření vlastního schématu byla skutečnost, že DC (Dublin Core) koncepty byly stále příliš široké.

Podporujeme příspěvky s libovolnými CMDI soubory metadat, které se používají v OAI-PMH, pokud je pro metadata požadováno schéma CMDI.

Požadavky ve výše uvedených odstavcích by vás mohly odradit od opakovaného použití clarin.eu:cr1:p_1349361150622. Pro opakované použití jeho specifických komponent ale nezapomínejte, co již bylo o mapování VLO řečeno. clarin.eu:cr1:p_1403526079380 s mapováním VLO již počítal při svém vzniku (i když to se může změnit), ale dosud stále odráží náš pohled na svět (jazykových zdrojů) a konkrétní případy použití. Pokud nemáte specifické potřeby, může být toto schéma pro vás dostačující, nebo může být základem pro vaše vlastní schéma.

oai_dc

oai_dc je formát, který je vyžadován schématy OAI-PMH. Mapování našich příspěvků na tento formát vysvětlujeme v sekci o mapování.


Vložená metadata

Následující seznam je výčtem polí, která požadujeme v průběhu vkládání příspěvků (v seznamu může v budoucnu dojít ke sporadickým změnám). Metadata jsou ukládána v angličtině. Existují jemné rozdíly v závislosti na typu zdroje, který je ukládán do repozitáře. Ne všechna pole se týkají všech formátů. Některá pole jsou generována automaticky (např. jména jazyků čitelná pro člověka obsahují ve skutečnosti iso kódy, jiné mohou obsahovat identifikátory a jiné údaje).

Jméno pole Popis Status
Typ Typ zdroje: "Korpus" odkazuje k textovým, mluveným a multimodálním korpusům. "Lexikální koncepční zdroj" zahrnuje lexikony, ontologie, slovníky, seznamy slov apod. "Popis jazyka" pokrývá jazykové modely a gramatiky. "Technologie / nástroje / služby" se používá pro nástroje, systémy, systémové komponenty atd. vyžadováno
Název Hlavní název položky. vyžadováno
URL projektu URL zdroje/projektu vztahující se ke vkládané položce (např. stránka projektu). Specifikováno reg. výrazy (začíná písmeny http/https) specifikováno reg. výrazy
URL demoverze Ukázky, vzorky nebo (v případě nástrojů) např. URL vzorku výstupu. Specifikováno reg. výrazy (začíná písmeny http/https) specifikováno reg. výrazy
Datum vydání Datum vydání příspěvku, pokud existuje, např. 2014-01-21 nebo alespoň rok. vyžadováno
Autor Jména autorů položky. U kolekcí (např. korpusů nebo jiných větších databází textu nebo u jiných velkých databází textu) obvykle chcete uvádět jména všech osob zapojených do sestavování kolekce, ne autory jednotlivých částí. Jméno osoby je uloženo jako příjmení, čárka, další jména nebo části jména (např. "Smith, John Jr."). vyžadováno opakovatelně
Vydavatel Název organizace/subjektu, která publikovala předchozí verzi(-e) dané položky, nebo název vaší domovské instituce. vyžadováno opakovatelně
Kontaktní osoba Osoba, kterou je možné kontaktovat v případě problémů s příspěvkem. Někdo, kdo je schopen podat informaci o zdroji, např. jeden z jeho autorů nebo "vkladatel" příspěvku. Tento údaj je uložen jako strukturovaný řetězec obsahující jméno, příjmení, e-mail a domácí organizaci. vyžadováno opakovatelně
Financování Sponzoři a financování podporující vkládaný příspěvek Tento údaj je uložen jako strukturovaný řetězec obsahující jméno projektu, kód projektu, organizaci provádějící financování, typ financování (vlastní/národní/EU/...) a OpenAIRE identifikátor (který je uložen také v dc.relation) opakovatelně
Popis Textový popis příspěvku (celé položky). vyžadováno
Jazyk Jazyk(y) hlavního obsahu položky. Uloženo jako ISO 639-3 kód. Vyžadováno pro korpusy, lexikální koncepční zdroje a popisy jazyka. opakovatelně vyžadováno v závislosti na typu položky
Klíčová slova Klíčová slova nebo fráze týkající se předmětu položky. opakovatelně vyžadováno
Velikost Rozsah předložených údajů, např. počet tokenů, nebo počet souborů. opakovatelně
Typ média Typ média hlavního obsahu položky, např. text nebo zvuk. Rozevíratelý (dropdown) výběr, vyžadováno pro korpusy, lexikální koncepční zdroje a popisy jazyka. rozevíratelý (dropdown) výběr vyžadováno v závislosti na typu položky
Detailní typ Další klasifikace zdroje. Rozevíratelý (dropdown) výběr, vyžadováno pro korpusy, lexikální koncepční zdroje a popisy jazyka. rozevíratelý (dropdown) výběr vyžadováno v závislosti na typu položky
Jazykově závislé Logická hodnota indikující, zda popsané nástroje/služby jsou jazykově závislé nebo ne. Povinné pro nástroje. vyžadováno v závislosti na typu položky

Mapování metadat

Následující tabulky obsahují mapování příspěvků mezi oai_dc, a uvádějí také některé z důležitých automaticky generovaných polí.

Pole příspěvku Namapované pole
Typ dc.type
Název dc.title
URL projektu dc.source
URL demoverze nemapováno
Datum vydání dc.date
Autor dc.creator
Vydavatel dc.publisher
Kontaktní osoba nemapováno
Financování nemapováno
Popis dc.description
Jazyk dc.language
Klíčová slova dc.subject
Velikost nemapováno
Typ média nemapováno
Detailní typ nemapováno
Generované pole Popis
dc.identifikátor PID (v současnosti systém handle) zdroje.
dc.práva Opakovatelné pole může obsahovat název licence, pod kterou je zdroj distribuován, URL odkaz k plnému textu licence a takzvaný obecný licenční typ (PUB, ACA, RES)