Persian Morphologically Segmented Lexicon 0.5
Please use the following text to cite this item or export to a predefined format:
Ansari, Ebrahim; Žabokrtský, Zdeněk; Haghdoost, Hamid and Nikravesh, Mahshid, 2019,
Persian Morphologically Segmented Lexicon 0.5, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL),
http://hdl.handle.net/11234/1-3011.
Authors
Item identifier
Date issued
2019-06-27
Size
45300 words
Language(s)
Description
This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes.
Acknowledgement
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:CZ.02.2.69/0.0/0.0/16_027/0008495
Project name:OP VVV Mezinárodní mobilita výzkumných pracovníků Univerzity Karlovy
Grantová agentura České Republiky
Project code:19-14534S
Project name:Popis slovotvorné struktury českých slov na základě jazykových dat
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LM2015071
Project name:LINDAT/CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat
Subject(s)
Collections
This item isPublicly Available
and licensed under:
Files in this item
- Name
- readme.txt
- Size
- 4.82 KB
- Format
- text/plain
- Description
- README
- MD5
- 4f7fbb0bbb6dd0c19e9417ae325355b7

This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes. Lemmas and some extra information about those words are also included. Words are separated by "\n" and in each line (for each word) we have this information: word lemma form ambiguity segments_1 segment_2 ... segment_n where "form" could be one of these: V: verb E: Name entity word I: Irregular plural X: none of the above and "ambiguity" field could be 0 which means the word has only one meaning and is 1 when the word has more than one meaning. For more information about this dataset, you can see [1]. Methodology: We extracted our primary word list from a collection of three corpora. The first one contains sentences extracted from the Persian Wikipedia [2]. The second one is a popular Persian corpusBijanKhan [3], and the last one is Persian Named Entity corpus [4]. For all those corpora, we used the Hazm toolkit (Persian preprocessing and tokenization tools) [5] and the stemming tool presented by [6]. We extracted and normalized all sentences and lemmatized all words using our rule-based lemmatizer that uses the collection of Persian lemmas. Finally, all semi-spaces are automatically detected and fixed. Words with more than 10 occurrences in our corpus collection were selected for manual annotation, which resulted in a set of around 80K word forms. We distributed them among 16 annotators in the way that each word was checked and annotated by two persons independently. Annotators decided about the lemma of a word under question, segmentation parts, plurality, ambiguity (whether a word has more than one meaning). The manual annotation of segmentation was accelerated by predicting morpheme boundaries by our automatic segmenter and offering the most confident ones to the annotators. The annotators might indicate that the word is not a proper Persian word, which led to removing almost 30K words from the lexicon. The remaining 46000 words were sent for res . . .
- Name
- train.txt
- Size
- 1.66 MB
- Format
- text/plain
- Description
- training set
- MD5
- 2205b9ceb514b88431091893930cc4a3

آرمیک آرمیک E 0 آرمیک آرنا آرنا E 0 آرنا آرناس آرناس E 0 آرناس آرنالدو آرنالدو E 0 آرنالدو آرنت آرنت E 0 آرنت آرنج آرنج X 0 آرنج آرنجش آرنج X 0 آرنج ش آرنجها آرنج X 0 آرنج ها آرندت آرندت E 0 آرندت آرنلد آرنلد E 0 آرنلد آرنو آرنو E 0 آرنو آرنور آرنور E 0 آرنور آرنولف آرنولف E 0 آرنولف آرنی آرنی E 0 آرنی آرنیوس آرنیوس E 0 آرنیوس آرنیکهها آرنیکه X 0 آرنیکه ها آره آره X 0 آره آرواره آرواره X 0 آرواره آروارهای آرواره X 0 آرواره ای آروارهها آرواره X 0 آرواره ها آروارههای آرواره X 0 آرواره ها ی آروزی آروز X 0 آروز ی آروس آروس E 0 آروس آروشا آروشا E 0 آروشا آروغ آروغ X 0 آروغ آروماتیک آروماتیک X 0 آرومات یک آروماتیکی آروماتیک X 0 آرومات یک ی آروماتیکها آروماتیک X 0 آرومات یک ها آرونا آرونا E 0 آرونا آرونسون آرونسون E 0 آرونسون آرونوفسکی آرونوفسکی E 0 آرونوفسکی آروو آروو E 0 آروو آروین آروین E 0 آروین آرویو آرویو E 0 آرویو آرپ آرپ E 0 آرپ آرپا آرپا X 0 آرپا آرپانت آرپانت X 0 آرپا نت آرپاچای آرپاچای X 0 آرپا چای آرپژ آرپژ X 0 آرپژ آرپی آرپی E 0 آرپی آرپیجی آرپیجی X 0 آر پی جی آرچ آرچ E 0 آرچ آرچر آرچر E 0 آرچر آرچی آرچی E 0 آرچی آرچیبالد آرچیبالد E 0 آرچیبالد آرژانتین آرژانتین E 0 آرژانتین آرژانتینی آرژانتین X 0 آرژانتین ی آرژانتینیها آرژانتینی X 0 آرژانتین ی ها آرکادی آرکادی E 0 آرکادی آرکادیوس آرکادیوس E 0 آرکادیوس آرکانجلو آرکانجلو E 0 آرکانجلو آرکت آرکت E 0 آرکت آرکتیک آرکتیک E 0 آرکتیک آرکید آرکید E 0 آرکید آرگو آرگو X 0 آرگو آرگومان آرگومان X 0 آرگومان آرگومانی آرگومان X 0 آرگومان ی آرگومانها آرگومان X 0 آرگومان ها آرگومانهای آرگومان X 0 آرگومان ها ی آرگومانهایی آرگومان X 0 آرگومان ها یی آرگون آرگون X 0 آرگون آرگونات آرگون X 0 آرگون ات آرگوناتها آرگون X 0 آرگون ات ها آرگونوتها آرگونوت X 0 آرگون وت ها آرگیشتی آرگیشتی E 0 آرگیشتی آری آری E 0 آری آریا آریا E 0 آریا آریائی آریا X 0 آریا ئی آریائیان آریا X 0 آریا ئی ان آریائیها آریا X 0 آریا ئی ها آریابهاتا آریابهاتا E 0 آریابهاتا آریادنا آریادنا E 0 آریادنا آریاس آریاس E 0 آریاس آریامنش آریامنش X 0 آریا منش آریامهر آریامهر E 0 آریا مهر آریان آریان E 0 آریان آریانا آریانا E 0 آریانا آریانی آریانی X 0 آ . . .
- Name
- test.txt
- Size
- 199.96 KB
- Format
- text/plain
- Description
- test set
- MD5
- 57d71429e62a0534ac06fff9be734465

آرنس آرنس E 0 آرنس آروارهداران آروارهدار X 0 آرواره دار ان آرودا آرودا E 0 آرودا آرکین آرکین E 0 آرکین آریاشهر آریاشهر X 0 آریا شهر آزادشهر آزادشهر E 0 آزاد شهر آزادماهی آزادماهی X 0 آزاد ماهی آزادماهیان آزادماهی X 0 آزاد ماهی ان آزادوار آزادوار X 0 آزاد وار آزادواری آزادواری E 0 آزاد وار ی آزرم آزرم E 0 آزرم آزرمیدخت آزرمیدخت E 0 آزر می دخت آزمودنی آزمودن X 0 آزمود نی آزمودنیها آزمودن X 0 آزمود نی ها آسانژ آسانژ E 0 آسانژ آستانهاشرفیه آستانهاشرفیه E 0 آستان ه اشرف یه آسفالت آسفالت X 0 آسفالت آسفالته آسفالت X 0 آسفالت ه آسفالتهاست آسفالتهاست V 0 آسفالت ه است آسفالتهای آسفالت X 0 آسفالت ه ای آسفالتی آسفالت X 0 آسفالت ی آسماننما آسماننما X 0 آسمان نما آسوس آسوس X 0 آسوس آشام آشام X 0 آشام آشامی آشامی X 0 آشام ی آشامیدن آشامیدن X 0 آشام ید ن آشامیدنی آشامیدن X 0 آشام ید نی آشامها آشام X 0 آشام ها آشناییزدایی آشناییزدایی X 0 آشنا یی زدا یی آشور آشور E 0 آشور آشوراده آشوراده X 0 آشورا ده آشورشناسی آشورشناسی X 0 آشور شناس ی آشوری آشور E 0 آشور ی آشوریان آشور E 0 آشور ی ان آشوریه آشوریه X 0 آشور یه آشوریتبار آشوریتبار X 0 آشور ی تبار آشوریها آشوری E 0 آشور ی ها آشوریهای آشوری X 0 آشور ی ها ی آغل آغل X 0 آغل آغچه آغچه X 0 آغ چه آلونک آلونک X 0 آلونک آلونکهای آلونک X 0 آلونک ها ی آلوچه آلوچه X 0 آلو چه آلیسا آلیسا E 0 آلیسا آمدنیوز آمدنیوز X 0 آمد نیوز آمریکا آمریکا E 0 آمریکا آمریکائی آمریکائی X 0 آمریکا ئی آمریکائیان آمریکائی X 0 آمریکا ئی ان آمریکائیها آمریکائی X 0 آمریکا ئی ها آمریکااست آمریکا X 0 آمریکا است آمریکاستیزی آمریکا X 0 آمریکا ستیز ی آمریکای آمریکا X 0 آمریکا ی آمریکایی آمریکایی X 0 آمریکا یی آمریکاییان آمریکا X 0 آمریکا یی ان آمریکاییست آمریکایی V 0 آمریکا یی ست آمریکاییاش آمریکایی X 0 آمریکا یی اش آمریکاییها آمریکایی X 0 آمریکا یی ها آمریکاییهای آمریکایی X 0 آمریکا یی ها ی آمریکاییهایی آمریکایی X 0 آمریکا یی هایی آمریکن آمریکن X 0 آمریکن آموختنی آموختنی X 0 آموخت نی آمیدها آمید X 0 آمید ها آناتومی آناتومی X 0 آناتومی آناتومیست آناتومیست X 0 آناتومی ست آناتومیک آناتومیک X 0 آناتومی ک آناتومیکی آناتومیک X 0 آناتومی ک ی آنته آنته E . . .
- Name
- dev.txt
- Size
- 197.25 KB
- Format
- text/plain
- Description
- development set
- MD5
- ad5227aa79f421a109c90447b672d6d1

آرنه آرنه E 0 آرنه آرنولد آرنولد E 0 آرنولد آرورا آرورا E 0 آرورا آرون آرون E 0 آرون آرونیان آرونیان E 0 آرون ی ان آریستید آریستید E 0 آریستید آزاداسلامی آزاداسلامی X 0 آزاد اسلام ی آزادانه آزادانه X 0 آزاد انه آزادانهای آزادانه X 0 آزاد انه ای آزادانهتر آزادانه X 0 آزاد انه تر آزادیبخش آزادیبخش E 0 آزاد ی بخش آزادیخواهانه آزادیخواه X 0 آزاد ی خواه انه آزوریت آزوریت X 0 آز ور یت آس آس E 0 آس آسانسور آسانسور X 0 آسانسور آسانسورها آسانسور X 0 آسانسور ها آسانسورهای آسانسور X 0 آسانسور ها ی آسانسوری آسانسور X 0 آسانسور ی آسایش آسایش E 0 آسای ش آسایشگاه آسایشگاه X 0 آسای ش گاه آسایشگاهی آسایشگاه X 0 آسای ش گاه ی آسایشگاههای آسایشگاه X 0 آسای ش گاه ها ی آسایشی آسایش X 0 آسای ش ی آستنیت آستنیت X 0 آستن یت آستیاگ آستیاگ E 0 آستیاگ آسرایی آسرایی E 0 آسرا یی آسپرگر آسپرگر X 0 آسپرگ ر آسهای آس X 0 آس ها ی آشتیجویانه آشتیجویانه X 0 آشتی جوی انه آشر آشر E 0 آشر آشوربانیپال آشوربانیپال E 0 آشوربانیپال آشوکا آشوکا E 0 آشوکا آشوکای آشوکای E 0 آشوکای آشکار آشکار X 0 آشکار آشکارا آشکارا X 0 آشکار ا آشکارتر آشکار X 0 آشکار تر آشکارترین آشکار X 0 آشکار تر ین آشکارساز آشکارساز X 0 آشکار ساز آشکارسازها آشکارساز X 0 آشکار ساز ها آشکارسازهای آشکارساز X 0 آشکار ساز ها ی آشکارسازی آشکارساز X 0 آشکار ساز ی آشکارشان آشکار X 0 آشکار شان آشکاری آشکار X 0 آشکار ی آشکارشده آشکار X 0 آشکار شد ه آشیانهیابی آشیانهیابی X 0 آشیان ه یاب ی آغا آغا E 0 آغا آغاباجی آغاباجی E 0 آغا باجی آغابیگم آغابیگم E 0 آغا بیگم آغاخان آغاخان X 0 آغا خان آغامحمدخان آغامحمدخان E 0 آغا محمد خان آفتابگردان آفتابگردان X 0 آفتاب گرد ان آفرین آفرین E 0 آفرین آفرینان آفرین X 0 آفرین ان آفرینش آفرینش X 0 آفرین ش آفرینشگر آفرینش X 0 آفرین ش گر آفرینشی آفرینش X 0 آفرین ش ی آفرینشهای آفرینش X 0 آفرین ش ها ی آفرینشگرایی آفرینش X 0 آفرین ش گرا یی آفریننده آفریننده X 0 آفرین ند ه آلکساندرا آلکساندرا E 0 آلکساندرا آلکین آلکین X 0 آلکین آلکینها آلکین X 0 آلکین ها آلی آلی E 0 آلی آلبویه آلبویه E 0 آل بویه آمار آمار X 0 آمار آمارها آمار X 0 آمار ها آمارهای آمار X 0 آمار ها ی آمارهایی آمار X 0 آمار ها یی آمارگیری . . .

