Často kladené dotazy



Co je repozitář?

Repozitář je knihovna pro jazyková data a nástroje na zpracování textu. Umožňuje

  • vyhledávání dat a nástrojů a jejich snadné stažení a
  • ukládání dat uživatelem s jistotou bezpečného uložení - všichni je mohou najít, používat i správně citovat (čímž uživatel získá příslušný kredit).

Jaké příspěvky přijímáme?

Přijímáme jakákoli jazyková data a/nebo NLP data a nástroje: korpusy, anotované korpusy, slovníky, ale také natrénované jazykové modely, parsery, taggery, systémy strojového překladu, jazykové webové služby apod. Přísně nevyžadujeme, abyste nahráli samotná data, i když je to vždy lepší udělat. V případě potřeby, si můžete uložit pouze samotná metadata. Podporujeme také podpis licence on-line cestou pro okamžitou možnost získání zdrojů s omezenou dostupností.

Při nahrávání jazykových zdrojů zkuste prosím použít některý z doporučených formátů, uvedených v LRT Standardech.

Musím si vytvořit účet, abych mohl stahovat nebo ukládat data?

  • Bez jakýchkoli problémů si můžete stáhnout data a nástroje s licencí, která umožňuje bezplatné a volné sdílení. Pouze si přečtěte licenci a stahujte. To se týká všech dat s licencí Creative Commons a dat s lincencí s otevřeným přístupem.
  • Pro stahování dat a nástrojů, které vyžadují podepsání licence, se musíte přihlásit. Přihlásit se musíte také v případě, že chcete vložit příspěvek (datovou položku). Pokud jste z akademického prostředí, pravděpodobně nebudete ani potřebovat nový účet.
  • Klikněte na "Přihlásit se" a vyhledejte svou akademickou instituci. Pro přihlášení můžete použít libovolný účet s poskytovatelem identity, který je členem EduGAIN federace a je v našem seznamu.
  • Dejte nám vědět, pokud nemáte akceptovaný nebo platný akademický účet.

Ukáže se mi chyba při přihlašování

Máte-li problém s přihlášením, dejte nám prosím vědět přes naši Linku podpory.

Čas od času (obvykle jste-li první, kdo se přihlašuje přes svou domovskou instituci), můžete vidět následující chybu "Ověřování bylo úspěšné; nicméně váš poskytovatel identity neposkytl ani váš e-mail, eppn ani požadované id." To znamená, že vaše domovská instituce nám o vás neposlala dostatek údajů, na jejichž základě bychom pro vás mohli provozovat naše služby. Uvedené údaje žádáme proto, abychom vás chránili. Požadujeme pouze email a řídíme se Kodexem chování pro ochranu dat, který nám pomáhá přesvědčit vaši domovskou instituci. Vaše osobní údaje v žádném případě nejde zneužít.

Máte-li účet u více poskytovatelů a přihlásíte-li se pokaždé s jiným, může se zobrazit následující chyba "Váš e-mail je již spojen s jiným uživatelem.". Prosím, zkuste používat vždy stejného poskytovatele, pokud to není možné, dejte nám vědět a my změníme jeho výchozí nastavení.

Proč bych měl ukládat data do repozitáře?

  • Je to zadarmo a vysoce bezpečné.
  • Respektujeme vaše licence. Podporujeme myšlenku "data zdarma" (Open Access) a věříme, že je prospěšná nejen uživatelům dat, ale i jejich poskytovatelům. Nicméně pracujeme také s více či méně uzavřenými daty - repozitář poskytuje mechamismus podepisování licencí jako podmínku stahování dat; pokud takový mechanismus nutně potřebujete, je možné jej použít.
  • Data jsou široce dostupná a indexovaná, takže dostanete maximální kredit za vaši práci s přípravou dat (google, VLO, DataCite, OLAC, Data Citation Index, arXive).
  • Data lze snadno citovat. Poskytujeme ready-to-use citace na jeden klik v BibTex formátu, v RIS formátu a dalších populárních citačních formátech. Všechny citace obsahují stálý odkaz vytvořený z trvalých ("perzistentních") identifikátorů (pro PID používáme systém Handle). Tyto PID identifikátory jsou i z hlediska budoucnosti bezpečné.
  • Pro některá data, např. text, korpusy nebo anotované korpusy, nabízíme dodatečné služby, jako fultextové textové hledání nebo vyhledávání ve stromových strukturách (treebancích) pomocí speciálních dotazů.

Proč bych měl ukládat nástroje do repozitáře?

  • Viz "Proč bych měl ukládat data do repozitáře?" Vše, co se vztahuje na data, platí i pro nástroje.
  • Stačí, když s naším repozitářem propojíte (jednodychým URL odkazem) svůj systém pro kontrolu verzí (svn, git), je-li veřejně přístupný. Můžete také odkazovat na svou stránku projektu nebo stránku, na níž máte demo.

K čemu je dobrý systém Handle (PID)?

Je to specifická permanentní adresa typu URL. Poskytuje stálý odkaz, který bude fungovat správně, i když budou data v nějaké vzdálené budoucnosti přesunuta. Z tohoto důvodu by se měla v citacích používat právě permanentní adresa typu URL.

Jaký je vlastní postup ukládání dat a jejich archivace?

V průběhu ukládání digitálních jazykových zdrojů do repozitáře procházejí data kurátorským procesem s cílem zajistit jejich kvalitu a konzistenci. Pomůžeme vám při plnění nezbytných požadavků na dlouhodobou archivaci zdrojů. Data musí být především opatřena metadaty ve standardních formátech přijatých příslušnými komunitami; musí být opatřena perzistentními identifikátory (PID), musí u nich být vyřešeny otázky práv k duševnímu vlastnictví, musí být opatřena jasnými prohlášeními ohledně udělování licencí a také musí být správně ošetřeno, pokud jste vkládaná data vytvořili za použití dalších zdrojů. Vkladatel musí elektronicky podepsat licenci (smlouvu) o ukládání dat, čímž potvrzuje, že je držitelem práv k datům, a že má právo udělovat práva uvedená v licenci přiřazené k těmto datům vkladatelem. Jakmile jsou data po kontrole uložena v repozitáři, je jim přiřazen PID jako trvalý odkaz.

Co když chci/potřebuji aktualizovat archivovaná data?

Každá změna zdrojů a metadat by měla být uložena jako nová verze s novým PID. Nicméně v případě, že změny jsou minimální (např. překlepy nebo jasné chyby), obraťte se na naši Linku podpory a uveďte PID daného uložení dat a změny, které chcete zanést. Je na redakci repozitáře rozhodnout, zda tyto vaše změny bude možno redakcí provést, nebo zda vás požádáme o vložení nové verze příspěvku jako nové položky.

Co když chci v budoucnu svá data odstranit? Mohu je smazat?

Ano, v tomto případě kontaktujte naši Linku podpory a uveďte PID příspěvku a důvod odstranění dat. Referenci o tom, že data byla v našem repozitáři uložena (protože byl vydán trvalý identifikátor - PID), budeme ovšem archivovat; administrativní metadata budou zachována a my tak budeme vědět, že vlastní data byla odstraněna.

Začali jsme budovat náš vlastní repozitář, můžeme nějak přesunout data uložená v LRT kolekci?

Můžeme vytvořit stínovou stránku přesunutých dat a můžeme na ni přidat upozornění o tom, že zdrojová data jsou nyní přesunuta na nové místo. Data tak budou v našem repozitáři skryta a nepůjde v nich ani hledat, ani je nebude možné procházet a používat (např. přes OAI-PMH), jejich PID však stále existuje. PID však po přesunu dat odkazuje jen na datovou položku v našem repozitáři (a metadata tam uložená), nikoli na skutečná data. Pro více podrobností se prosím obraťte na Linku podpory.

Nechci/nemohu mít data veřejně dostupná, anebo je nemohu uveřejnit po určitou dobu. Budete je moci archivovat i za těchto podmínek?

V souladu s ideou výzkumných infrastruktur a s obecným postojem k otevřenému přístupu (Open Access) důrazně vybízíme producenty dat, aby byli maximálně otevření. Za určitých okolností však můžeme přistoupit na vložení vašich dat, i když nebudou veřejně dostupná nebo nebudou dostupná hned. Pokud vkládáte taková data a nenajdete-li vhodnou licenci v našem seznamu, obraťte se prosím ještě před dokončením procesu ukládání dat na naši Linku podpory.

Jak citovat příspěvek?

Viz naše pravidla.

Pokud uložím data v repozitáři, jak jsou zabezpečena?

Zcela bezpečná, pravděpodobně mnohem bezpečnější než ve vašem počítači. V našem repozitáři platí následující pravidla bezpečnosti dat:

  • Všechna data v repozitáři mají ještě lokální záložní kopii.
  • Existuje ještě další kopie, která je mimo repozitář, takže i úplné zničení naší budovy nezničí data.
  • Pravidelně kontrolujeme všechny kopie, a pokud u kterékoli z nich dojde k poškození, smažeme ji a vytvoříme novou.
  • Uchováváme nejméně tři kopie, přičemž jedna z nich je za všech okolností uchovávána mimo fyzické umístění repozitáře.

Jakou licenci si mám pro svá data/nástroje vybrat?

Doporučujeme používat bezplatnou, otevřenou licenci. Reprezentativní výběr bezplatných licencí na sofwarové nástroje a CC licencí (vhodnějších pro data) je k dispozici přímo během ukládání dat. Máme k dispozici OPEN License Selector, který vás provede výběrem vhodných licencí.
Pokud potřebujete z určitých důvodů jinou licenci, kontaktujte nás.

Kde najdu více informací o podporovaných licencích?

Seznam licencí, které jsou v současné době podporovány, najdete zde. Pokud potřebujete jinou licenci (např. s elektronickým podpisem apod.), neváhejte nás kontaktovat. V případě odůvodněné potřeby jsme schopni přidat do seznamu licencí i takové licence, které jsou doprovázeny různými požadavky, např. omezení na přihlášené uživatele, plnění dalších podrobností (účel) apod.

Proč upřednostňujeme skutečné autory před institucemi?

Není to o kontaktu, je to věc citací, kreditu a důvěry. Proto máme samostatná metadata pro autory a pro kontaktní osoby. Kontakt na "institucionální" Linku podpory pro vaše data je skvělý, ale zároveň je nutné citovat autory dat a vědeckých prací. Náš repozitář dává přednost přímým citacím dat (https://www.force11.org/datacitation). Proto jim udělujeme PID identifikátory, vytváříme formátované citace atd. To je také důvod, proč chceme v metadatech mít přímo autory dat. Ti získají citace svých děl a ostatní vědci zas na oplátku budou vědět, na čí práce spoléhají.

Jak získám co nejvíce vyhledávek?

Na rozdíl od jiných vyhledávačů v metadatech ten náš používá OR coby defaultní operátor; viz příklady níže. Pokud nebudete spokojeni s výsledky svých vyhledávek, budete možná chtít jít nad rámec prostého textového vyhledávání stylem online vyhledávačů. Můžete vyhledávat pouze v některých polích metadat, používat negaci a mnoho dalších možností. V repozitáři používáme vyhledávač SOLR, takže pokud znáte jeho syntax, používejte ji, nebo si ji vyhledejte v dokumentaci.

Příklady

PDT wordnet vs PDT AND wordnet
Defaultním operátorem je OR; tj. první příklad hledá PDT OR wordnet ve všech textových polích.
dc.title:P?T && -dc.title:WordNet
Vrátí všechny položky, které mají P?T v názvu - ? zastupuje jakýkoli znak (např. PDT) - a nemají v názvu WordNet
dc.title:"Czech WordNet"
Použijte uvozovky (") pro přesné shody nebo pro víceslovné výrazy
autor:(Bojar && -Tamchyna) && (dc.language.iso:(ces AND eng) OR language:(czech AND english))
Hledejte položky od jednoho autora a ne od jiného; zajímavé jsou jen ty položky, které jsou v českém a zároveň anglickém jazyce (např. paralelní korpus).