This is a new version of the repository. Do let us know (lindat-help at ufal.mff.cuni.cz) if you encounter any issues.

Persian Morphologically Segmented Lexicon 0.5

Please use the following text to cite this item or export to a predefined format:
Ansari, Ebrahim; Žabokrtský, Zdeněk; Haghdoost, Hamid and Nikravesh, Mahshid, 2019, Persian Morphologically Segmented Lexicon 0.5, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), http://hdl.handle.net/11234/1-3011.
Date issued
2019-06-27
Size
45300 words
Language(s)
Description
This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes.
Acknowledgement
 Files in this item
Name
readme.txt
Size
4.82 KB
Format
text/plain
Description
README
MD5
4f7fbb0bbb6dd0c19e9417ae325355b7
Preview
  File Preview
    This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes. Lemmas and some extra information about those words are also included. Words are separated by "\n" and in each line (for each word) we have this information:
    word lemma form ambiguity segments_1 segment_2 ... segment_n
    
    where "form" could be one of these:
    V: verb
    E: Name entity word
    I: Irregular plural
    X: none of the above
    
    and "ambiguity" field could be 0 which means the word has only one meaning and is 1 when the word has more than one meaning.
    
    For more information about this dataset, you can see [1].
     
    
    Methodology:
    We extracted our primary word list from a collection of three corpora. The first one contains sentences extracted from the Persian Wikipedia [2]. The second one is a popular Persian corpusBijanKhan [3], and the last one is Persian Named Entity corpus [4]. For all those corpora, we used the Hazm toolkit (Persian preprocessing and tokenization tools) [5] and the stemming tool presented by [6]. We extracted and normalized all sentences and lemmatized all words using our rule-based lemmatizer that uses the collection of Persian lemmas. Finally, all semi-spaces are automatically detected and fixed. Words with more than 10 occurrences in our corpus collection were selected for manual annotation, which resulted in a set of around 80K word forms. We distributed them among 16 annotators in the way that each word was checked and annotated by two persons independently. Annotators decided about the lemma of a word under question, segmentation parts, plurality, ambiguity (whether a word has more than one meaning). The manual annotation of segmentation was accelerated by predicting morpheme boundaries by our automatic segmenter and offering the most confident ones to the annotators. The annotators might indicate that the word is not a proper Persian word, which led to removing almost 30K words from the lexicon.
    The remaining 46000 words were sent for res . . .
Name
train.txt
Size
1.66 MB
Format
text/plain
Description
training set
MD5
2205b9ceb514b88431091893930cc4a3
Preview
  File Preview
    آرمیک آرمیک E 0 آرمیک
    آرنا آرنا E 0 آرنا
    آرناس آرناس E 0 آرناس
    آرنالدو آرنالدو E 0 آرنالدو
    آرنت آرنت E 0 آرنت
    آرنج آرنج X 0 آرنج
    آرنجش آرنج X 0 آرنج ش
    آرنج‌ها آرنج X 0 آرنج ها
    آرندت آرندت E 0 آرندت
    آرنلد آرنلد E 0 آرنلد
    آرنو آرنو E 0 آرنو
    آرنور آرنور E 0 آرنور
    آرنولف آرنولف E 0 آرنولف
    آرنی آرنی E 0 آرنی
    آرنیوس آرنیوس E 0 آرنیوس
    آرنیکه‌ها آرنیکه‌ X 0 آرنیکه ها
    آره آره X 0 آره
    آرواره آرواره X 0 آرواره
    آرواره‌ای آرواره X 0 آرواره ای
    آرواره‌ها آرواره X 0 آرواره ها
    آرواره‌های آرواره X 0 آرواره ها ی
    آروزی آروز X 0 آروز ی
    آروس آروس E 0 آروس
    آروشا آروشا E 0 آروشا
    آروغ آروغ X 0 آروغ
    آروماتیک آروماتیک X 0 آرومات یک
    آروماتیکی آروماتیک X 0 آرومات یک ی
    آروماتیک‌ها آروماتیک X 0 آرومات یک ها
    آرونا آرونا E 0 آرونا
    آرونسون آرونسون E 0 آرونسون
    آرونوفسکی آرونوفسکی E 0 آرونوفسکی
    آروو آروو E 0 آروو
    آروین آروین E 0 آروین
    آرویو آرویو E 0 آرویو
    آرپ آرپ E 0 آرپ
    آرپا آرپا X 0 آرپا
    آرپانت آرپانت X 0 آرپا نت
    آرپاچای آرپاچای X 0 آرپا چای
    آرپژ آرپژ X 0 آرپژ
    آرپی آرپی E 0 آرپی
    آرپی‌جی آرپی‌جی X 0 آر پی جی
    آرچ آرچ E 0 آرچ
    آرچر آرچر E 0 آرچر
    آرچی آرچی E 0 آرچی
    آرچیبالد آرچیبالد E 0 آرچیبالد
    آرژانتین آرژانتین E 0 آرژانتین
    آرژانتینی آرژانتین X 0 آرژانتین ی
    آرژانتینی‌ها آرژانتینی X 0 آرژانتین ی ها
    آرکادی آرکادی E 0 آرکادی
    آرکادیوس آرکادیوس E 0 آرکادیوس
    آرکانجلو آرکانجلو E 0 آرکانجلو
    آرکت آرکت E 0 آرکت
    آرکتیک آرکتیک E 0 آرکتیک
    آرکید آرکید E 0 آرکید
    آرگو آرگو X 0 آرگو
    آرگومان آرگومان X 0 آرگومان
    آرگومانی آرگومان X 0 آرگومان ی
    آرگومان‌ها آرگومان X 0 آرگومان ها
    آرگومان‌های آرگومان X 0 آرگومان ها ی
    آرگومان‌هایی آرگومان X 0 آرگومان ها یی
    آرگون آرگون X 0 آرگون
    آرگونات آرگون X 0 آرگون ات
    آرگونات‌ها آرگون X 0 آرگون ات ها
    آرگونوت‌ها آرگونوت‌ X 0 آرگون وت ها
    آرگیشتی آرگیشتی E 0 آرگیشتی
    آری آری E 0 آری
    آریا آریا E 0 آریا
    آریائی آریا X 0 آریا ئی
    آریائیان آریا X 0 آریا ئی ان
    آریائی‌ها آریا X 0 آریا ئی ها
    آریابهاتا آریابهاتا E 0 آریابهاتا
    آریادنا آریادنا E 0 آریادنا
    آریاس آریاس E 0 آریاس
    آریامنش آریامنش X 0 آریا منش
    آریامهر آریامهر E 0 آریا مهر
    آریان آریان E 0 آریان
    آریانا آریانا E 0 آریانا
    آریانی آریانی X 0 آ . . .
Name
test.txt
Size
199.96 KB
Format
text/plain
Description
test set
MD5
57d71429e62a0534ac06fff9be734465
Preview
  File Preview
    آرنس آرنس E 0 آرنس
    آرواره‌داران آرواره‌دار X 0 آرواره دار ان
    آرودا آرودا E 0 آرودا
    آرکین آرکین E 0 آرکین
    آریاشهر آریاشهر X 0 آریا شهر
    آزادشهر آزادشهر E 0 آزاد شهر
    آزادماهی آزادماهی X 0 آزاد ماهی
    آزادماهیان آزادماهی X 0 آزاد ماهی ان
    آزادوار آزادوار X 0 آزاد وار
    آزادواری آزادواری E 0 آزاد وار ی
    آزرم آزرم E 0 آزرم
    آزرمیدخت آزرمیدخت E 0 آزر می دخت
    آزمودنی آزمودن X 0 آزمود نی
    آزمودنی‌ها آزمودن X 0 آزمود نی ها
    آسانژ آسانژ E 0 آسانژ
    آستانه‌اشرفیه آستانه‌اشرفیه E 0 آستان ه اشرف یه
    آسفالت آسفالت X 0 آسفالت
    آسفالته آسفالت X 0 آسفالت ه
    آسفالته‌است آسفالته‌است V 0 آسفالت ه است
    آسفالته‌ای آسفالت X 0 آسفالت ه ای
    آسفالتی آسفالت X 0 آسفالت ی
    آسمان‌نما آسمان‌نما X 0 آسمان نما
    آسوس آسوس X 0 آسوس
    آشام آشام X 0 آشام
    آشامی آشامی X 0 آشام ی
    آشامیدن آشامیدن X 0 آشام ید ن
    آشامیدنی آشامیدن X 0 آشام ید نی
    آشام‌ها آشام‌ X 0 آشام ها
    آشنایی‌زدایی آشنایی‌زدایی X 0 آشنا یی زدا یی
    آشور آشور E 0 آشور
    آشوراده آشوراده X 0 آشورا ده
    آشورشناسی آشورشناسی X 0 آشور شناس ی
    آشوری آشور E 0 آشور ی
    آشوریان آشور E 0 آشور ی ان
    آشوریه آشوریه X 0 آشور یه
    آشوری‌تبار آشوری‌تبار X 0 آشور ی تبار
    آشوری‌ها آشوری E 0 آشور ی ها
    آشوری‌های آشوری X 0 آشور ی ها ی
    آغل آغل X 0 آغل
    آغچه آغچه X 0 آغ چه
    آلونک آلونک X 0 آلونک
    آلونک‌های آلونک X 0 آلونک ها ی
    آلوچه آلوچه X 0 آلو چه
    آلیسا آلیسا E 0 آلیسا
    آمدنیوز آمدنیوز X 0 آمد نیوز
    آمریکا آمریکا E 0 آمریکا
    آمریکائی آمریکائی X 0 آمریکا ئی
    آمریکائیان آمریکائی X 0 آمریکا ئی ان
    آمریکائی‌ها آمریکائی X 0 آمریکا ئی ها
    آمریکااست آمریکا X 0 آمریکا است
    آمریکاستیزی آمریکا X 0 آمریکا ستیز ی
    آمریکای آمریکا X 0 آمریکا ی
    آمریکایی آمریکایی X 0 آمریکا یی
    آمریکاییان آمریکا X 0 آمریکا یی ان
    آمریکاییست آمریکایی V 0 آمریکا یی ست
    آمریکایی‌اش آمریکایی X 0 آمریکا یی اش
    آمریکایی‌ها آمریکایی X 0 آمریکا یی ها
    آمریکایی‌های آمریکایی X 0 آمریکا یی ها ی
    آمریکایی‌هایی آمریکایی X 0 آمریکا یی هایی
    آمریکن آمریکن X 0 آمریکن
    آموختنی آموختنی X 0 آموخت نی
    آمیدها آمید X 0 آمید ها
    آناتومی آناتومی X 0 آناتومی
    آناتومیست آناتومیست X 0 آناتومی ست
    آناتومیک آناتومیک X 0 آناتومی ک
    آناتومیکی آناتومیک X 0 آناتومی ک ی
    آنته آنته E . . .
Name
dev.txt
Size
197.25 KB
Format
text/plain
Description
development set
MD5
ad5227aa79f421a109c90447b672d6d1
Preview
  File Preview
    آرنه آرنه E 0 آرنه
    آرنولد آرنولد E 0 آرنولد
    آرورا آرورا E 0 آرورا
    آرون آرون E 0 آرون
    آرونیان آرونیان E 0 آرون ی ان
    آریستید آریستید E 0 آریستید
    آزاداسلامی آزاداسلامی X 0 آزاد اسلام ی
    آزادانه آزادانه X 0 آزاد انه
    آزادانه‌ای آزادانه X 0 آزاد انه ای
    آزادانه‌تر آزادانه X 0 آزاد انه تر
    آزادی‌بخش آزادی‌بخش E 0 آزاد ی بخش
    آزادی‌خواهانه آزادی‌خواه X 0 آزاد ی خواه انه
    آزوریت آزوریت X 0 آز ور یت
    آس آس E 0 آس
    آسانسور آسانسور X 0 آسانسور
    آسانسورها آسانسور X 0 آسانسور ها
    آسانسورهای آسانسور X 0 آسانسور ها ی
    آسانسوری آسانسور X 0 آسانسور ی
    آسایش آسایش E 0 آسای ش
    آسایشگاه آسایشگاه X 0 آسای ش گاه
    آسایشگاهی آسایشگاه X 0 آسای ش گاه ی
    آسایشگاه‌های آسایشگاه X 0 آسای ش گاه ها ی
    آسایشی آسایش X 0 آسای ش ی
    آستنیت آستنیت X 0 آستن یت
    آستیاگ آستیاگ E 0 آستیاگ
    آسرایی آسرایی E 0 آسرا یی
    آسپرگر آسپرگر X 0 آسپرگ ر
    آس‌های آس‌ X 0 آس ها ی
    آشتی‌جویانه آشتی‌جویانه X 0 آشتی جوی انه
    آشر آشر E 0 آشر
    آشوربانیپال آشوربانیپال E 0 آشوربانیپال
    آشوکا آشوکا E 0 آشوکا
    آشوکای آشوکای E 0 آشوکای
    آشکار آشکار X 0 آشکار
    آشکارا آشکارا X 0 آشکار ا
    آشکارتر آشکار X 0 آشکار تر
    آشکارترین آشکار X 0 آشکار تر ین
    آشکارساز آشکارساز X 0 آشکار ساز
    آشکارسازها آشکارساز X 0 آشکار ساز ها
    آشکارسازهای آشکارساز X 0 آشکار ساز ها ی
    آشکارسازی آشکارساز X 0 آشکار ساز ی
    آشکارشان آشکار X 0 آشکار شان
    آشکاری آشکار X 0 آشکار ی
    آشکار‌شده آشکار X 0 آشکار شد ه
    آشیانه‌یابی آشیانه‌یابی X 0 آشیان ه یاب ی
    آغا آغا E 0 آغا
    آغاباجی آغاباجی E 0 آغا باجی
    آغابیگم آغابیگم E 0 آغا بیگم
    آغاخان آغاخان X 0 آغا خان
    آغامحمدخان آغامحمدخان E 0 آغا محمد خان
    آفتابگردان آفتابگردان X 0 آفتاب گرد ان
    آفرین آفرین E 0 آفرین
    آفرینان آفرین X 0 آفرین ان
    آفرینش آفرینش X 0 آفرین ش
    آفرینشگر آفرینش X 0 آفرین ش گر
    آفرینشی آفرینش X 0 آفرین ش ی
    آفرینش‌های آفرینش X 0 آفرین ش ها ی
    آفرینش‌گرایی آفرینش X 0 آفرین ش گرا یی
    آفریننده آفریننده X 0 آفرین ند ه
    آلکساندرا آلکساندرا E 0 آلکساندرا
    آلکین آلکین X 0 آلکین
    آلکین‌ها آلکین‌ X 0 آلکین ها
    آلی آلی E 0 آلی
    آل‌بویه آل‌بویه E 0 آل بویه
    آمار آمار X 0 آمار
    آمارها آمار X 0 آمار ها
    آمارهای آمار X 0 آمار ها ی
    آمارهایی آمار X 0 آمار ها یی
    آمارگیری  . . .