O metadatech
Tato stránka poskytuje informace o tom, jaká metadata používáme (a tedy požadujeme po vkladatelích dat) a jak je zpřístupňujeme. Metadata jsou volně přístupná a jsou distribuována ve veřejné doméně pod CC0. Vyhrazujeme si ale právo být na naší Lince podpory informováni o komerčním využití všech metadat z LINDAT/CLARIAH-CZ repozitáře, včetně podrobného popisu jejich použití.
Formáty metadat
Během procesu vkládání příspěvku musí vkladatelé vyplnit také metadata, která jsou nedílnou součástí vloženého příspěvku (dat, nástrojů nebo služeb). Jsme schopni šířit metadata v různých formátech, včetně (a nejenom) CMDI a oai_dc. Viz úplný seznam podporovaných formátů. Je třeba mít na paměti, že některé formáty nemusí být použitelné pro všechny položky. Různé formáty nám pomáhají zpřístupnit tato metadata (a tedy "zviditelnit" příslušné položky) ve velkém množství agregátorů, specializovaných portálů i běžných vyhledávačů.
CMDI
Podívejte se na úvod do CLARINovských komponent metadat, kde získáte více informací k tomuto tématu.
Naše současné příspěvky dodržují clarin.eu:cr1:p_1403526079380 schéma. Část starších příspěvků (v podstatě všechny ty, které byly vloženy před zářím/říjnem 2014) používá jiné schéma clarin.eu:cr1:p_1349361150622. Nové schéma jsme vytvořili proto, abychom vkladatelům zjednodušili a zpřehlednili postup vyplňování metadat. Původní schéma kombinovalo složku OLAC a MetaShare. Toto schéma nás nutilo zvládat duplicity a také nás činilo závislými na cizím schématu matadat a jeho sémantice, které jsme nemohli ani ovlivnit, ani měnit.
Obě schémata jsou poměrně dobře pokryta odkazy na registr konceptů (základních pojmů a definic). Nyní zastaralé odkazy ISOcat DCR byly přesměrovány na CCR a odkazy na schémata komponentů OLAC byly přesměrovány na DCMI terms schémata (např. odkaz na abstrakty je na http://purl.org/dc/terms/abstract). VLO nepoužívá tato specifická schémata při svých mapováních a spíše mapuje cesty uvnitř jednoho konkrétního schématu. Jen pro některé specifické položky bylo toto mapování cest rozšířeno, aby fungovalo také s komponentou tohoto schématu. Dalším důvodem pro vytvoření vlastního schématu byla skutečnost, že DC (Dublin Core) koncepty byly stále příliš široké.
Podporujeme příspěvky s libovolnými CMDI soubory metadat, které se používají v OAI-PMH, pokud je pro metadata požadováno schéma CMDI.
Požadavky ve výše uvedených odstavcích by vás mohly odradit od opakovaného použití clarin.eu:cr1:p_1349361150622. Pro opakované použití jeho specifických komponent ale nezapomínejte, co již bylo o mapování VLO řečeno. clarin.eu:cr1:p_1403526079380 s mapováním VLO již počítal při svém vzniku (i když to se může změnit), ale dosud stále odráží náš pohled na svět (jazykových zdrojů) a konkrétní případy použití. Pokud nemáte specifické potřeby, může být toto schéma pro vás dostačující, nebo může být základem pro vaše vlastní schéma.
oai_dc
oai_dc je formát, který je vyžadován schématy OAI-PMH. Mapování našich příspěvků na tento formát vysvětlujeme v sekci o mapování.
Vložená metadata
Následující seznam je výčtem polí, která požadujeme v průběhu vkládání příspěvků (v seznamu může v budoucnu dojít ke sporadickým změnám). Metadata jsou ukládána v angličtině. Existují jemné rozdíly v závislosti na typu zdroje, který je ukládán do repozitáře. Ne všechna pole se týkají všech formátů. Některá pole jsou generována automaticky (např. jména jazyků čitelná pro člověka obsahují ve skutečnosti iso kódy, jiné mohou obsahovat identifikátory a jiné údaje).
Jméno pole | Popis | Status |
---|---|---|
Typ | Typ zdroje: "Korpus" odkazuje k textovým, mluveným a multimodálním korpusům. "Lexikální koncepční zdroj" zahrnuje lexikony, ontologie, slovníky, seznamy slov apod. "Popis jazyka" pokrývá jazykové modely a gramatiky. "Technologie / nástroje / služby" se používá pro nástroje, systémy, systémové komponenty atd. | vyžadováno |
Název | Hlavní název položky. | vyžadováno |
URL projektu | URL zdroje/projektu vztahující se ke vkládané položce (např. stránka projektu). Specifikováno reg. výrazy (začíná písmeny http/https) | specifikováno reg. výrazy |
URL demoverze | Ukázky, vzorky nebo (v případě nástrojů) např. URL vzorku výstupu. Specifikováno reg. výrazy (začíná písmeny http/https) | specifikováno reg. výrazy |
Datum vydání | Datum vydání příspěvku, pokud existuje, např. 2014-01-21 nebo alespoň rok. | vyžadováno |
Autor | Jména autorů položky. U kolekcí (např. korpusů nebo jiných větších databází textu nebo u jiných velkých databází textu) obvykle chcete uvádět jména všech osob zapojených do sestavování kolekce, ne autory jednotlivých částí. Jméno osoby je uloženo jako příjmení, čárka, další jména nebo části jména (např. "Smith, John Jr."). | vyžadováno opakovatelně |
Vydavatel | Název organizace/subjektu, která publikovala předchozí verzi(-e) dané položky, nebo název vaší domovské instituce. | vyžadováno opakovatelně |
Kontaktní osoba | Osoba, kterou je možné kontaktovat v případě problémů s příspěvkem. Někdo, kdo je schopen podat informaci o zdroji, např. jeden z jeho autorů nebo "vkladatel" příspěvku. Tento údaj je uložen jako strukturovaný řetězec obsahující jméno, příjmení, e-mail a domácí organizaci. | vyžadováno opakovatelně |
Financování | Sponzoři a financování podporující vkládaný příspěvek Tento údaj je uložen jako strukturovaný řetězec obsahující jméno projektu, kód projektu, organizaci provádějící financování, typ financování (vlastní/národní/EU/...) a OpenAIRE identifikátor (který je uložen také v dc.relation) | opakovatelně |
Popis | Textový popis příspěvku (celé položky). | vyžadováno |
Jazyk | Jazyk(y) hlavního obsahu položky. Uloženo jako ISO 639-3 kód. Vyžadováno pro korpusy, lexikální koncepční zdroje a popisy jazyka. | opakovatelně vyžadováno v závislosti na typu položky |
Klíčová slova | Klíčová slova nebo fráze týkající se předmětu položky. | opakovatelně vyžadováno |
Velikost | Rozsah předložených údajů, např. počet tokenů, nebo počet souborů. | opakovatelně |
Typ média | Typ média hlavního obsahu položky, např. text nebo zvuk. Rozevíratelý (dropdown) výběr, vyžadováno pro korpusy, lexikální koncepční zdroje a popisy jazyka. | rozevíratelý (dropdown) výběr vyžadováno v závislosti na typu položky |
Detailní typ | Další klasifikace zdroje. Rozevíratelý (dropdown) výběr, vyžadováno pro korpusy, lexikální koncepční zdroje a popisy jazyka. | rozevíratelý (dropdown) výběr vyžadováno v závislosti na typu položky |
Jazykově závislé | Logická hodnota indikující, zda popsané nástroje/služby jsou jazykově závislé nebo ne. Povinné pro nástroje. | vyžadováno v závislosti na typu položky |
Mapování metadat
Následující tabulky obsahují mapování příspěvků mezi oai_dc, a uvádějí také některé z důležitých automaticky generovaných polí.
Pole příspěvku | Namapované pole |
---|---|
Typ | dc.type |
Název | dc.title |
URL projektu | dc.source |
URL demoverze | nemapováno |
Datum vydání | dc.date |
Autor | dc.creator |
Vydavatel | dc.publisher |
Kontaktní osoba | nemapováno |
Financování | nemapováno |
Popis | dc.description |
Jazyk | dc.language |
Klíčová slova | dc.subject |
Velikost | nemapováno |
Typ média | nemapováno |
Detailní typ | nemapováno |
Generované pole | Popis |
---|---|
dc.identifikátor | PID (v současnosti systém handle) zdroje. |
dc.práva | Opakovatelné pole může obsahovat název licence, pod kterou je zdroj distribuován, URL odkaz k plnému textu licence a takzvaný obecný licenční typ (PUB, ACA, RES) |