 2.05 MB
4.82 KB
This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes. Lemmas and some extra information about those words are also included. Words are separated by "\n" and in each line (for each word) we have this information:
word lemma form ambiguity segments_1 segment_2 ... segment_n

where "form" could be one of these:
V: verb
E: Name entity word
I: Irregular plural
X: none of the above

and "ambiguity" field could be 0 which means the word has only one meaning and is 1 when the word has more than one meaning.

For more information about this dataset, you can see [1].

We extracted our primary word list from a collection of three corpora. The first one contains sentences extracted from the Persian Wikipedia [2]. The second one is a popular Persian corpusBijanKhan [3], and the last one is Persian Named Entity corpus [4]. For all those corpora, we used the Hazm toolkit (Persian preprocessing and tokenization tools) [5] and the stemm . . .
1.66 MB
آرمیک آرمیک E 0 آرمیک
آرنا آرنا E 0 آرنا
آرناس آرناس E 0 آرناس
آرنالدو آرنالدو E 0 آرنالدو
آرنت آرنت E 0 آرنت
آرنج آرنج X 0 آرنج
آرنجش آرنج X 0 آرنج ش
آرنج‌ها آرنج X 0 آرنج ها
آرندت آرندت E 0 آرندت
آرنلد آرنلد E 0 آرنلد
آرنو آرنو E 0 آرنو
آرنور آرنور E 0 آرنور
آرنولف آرنولف E 0 آرنولف
آرنی آرنی E 0 آرنی
آرنیوس آرنیوس E 0 آرنیوس
آرنیکه‌ها آرنیکه‌ X 0 آرنیکه ها
آره آره X 0 آره
آرواره آرواره X 0 آرواره
آرواره‌ای آرواره X 0 آرواره ای
آرواره‌ها آرواره X 0 آرواره ها
آرواره‌های آرواره X 0 آرواره ها ی
آروزی آروز X 0 آروز ی
آروس آروس E 0 آروس
آروشا آروشا E 0 آروشا
آروغ آروغ X 0 آروغ
آروماتیک آروماتیک X 0 آرومات یک
آروماتیکی آروماتیک X 0 آرومات یک ی
آروماتیک‌ها آروماتیک X 0 آرومات یک ها
آرونا آرونا E 0 آرونا
آرونسون آرونسون E 0 آرونسون
آرونوفسکی آرونوفسکی E 0 آرونوفسکی
آروو آروو E 0 آروو
آروین آروین E 0 آروین
آرویو آرویو E 0 آرویو
آرپ آرپ E 0 آرپ
آرپا آرپا X 0 آرپا
آرپانت آرپانت X 0 آرپا نت
آرپاچای آرپاچای X 0 آرپا چای
آرپژ آرپژ X 0 آرپژ
آرپی آرپی E 0 آرپی
آرپی‌جی آرپی‌جی X 0 آر پی جی
آرچ آرچ E . . .
197.25 KB
آرنه آرنه E 0 آرنه
آرنولد آرنولد E 0 آرنولد
آرورا آرورا E 0 آرورا
آرون آرون E 0 آرون
آرونیان آرونیان E 0 آرون ی ان
آریستید آریستید E 0 آریستید
آزاداسلامی آزاداسلامی X 0 آزاد اسلام ی
آزادانه آزادانه X 0 آزاد انه
آزادانه‌ای آزادانه X 0 آزاد انه ای
آزادانه‌تر آزادانه X 0 آزاد انه تر
آزادی‌بخش آزادی‌بخش E 0 آزاد ی بخش
آزادی‌خواهانه آزادی‌خواه X 0 آزاد ی خواه انه
آزوریت آزوریت X 0 آز ور یت
آس آس E 0 آس
آسانسور آسانسور X 0 آسانسور
آسانسورها آسانسور X 0 آسانسور ها
آسانسورهای آسانسور X 0 آسانسور ها ی
آسانسوری آسانسور X 0 آسانسور ی
آسایش آسایش E 0 آسای ش
آسایشگاه آسایشگاه X 0 آسای ش گاه
آسایشگاهی آسایشگاه X 0 آسای ش گاه ی
آسایشگاه‌های آسایشگاه X 0 آسای ش گاه ها ی
آسایشی آسایش X 0 آسای ش ی
آستنیت آستنیت X 0 آستن یت
آستیاگ آستیاگ E 0 آستیاگ
آسرایی آسرایی E 0 آسرا یی
آسپرگر آسپرگر X 0 آسپرگ ر
آس‌های آس‌ X 0 آس ها ی
آشتی‌جویانه آشتی‌جویانه X 0 آشتی جوی انه
آشر آشر E 0 آشر
آشوربانیپال آشوربانیپال E 0 آشوربانیپال
آشوکا آشوکا E 0 آشوکا
آشوکای آشوکای E 0 آشوکای
آشکار آشکار X 0 آشکار
آشکارا آشکارا X 0 آ . . .
199.96 KB
آرنس آرنس E 0 آرنس
آرواره‌داران آرواره‌دار X 0 آرواره دار ان
آرودا آرودا E 0 آرودا
آرکین آرکین E 0 آرکین
آریاشهر آریاشهر X 0 آریا شهر
آزادشهر آزادشهر E 0 آزاد شهر
آزادماهی آزادماهی X 0 آزاد ماهی
آزادماهیان آزادماهی X 0 آزاد ماهی ان
آزادوار آزادوار X 0 آزاد وار
آزادواری آزادواری E 0 آزاد وار ی
آزرم آزرم E 0 آزرم
آزرمیدخت آزرمیدخت E 0 آزر می دخت
آزمودنی آزمودن X 0 آزمود نی
آزمودنی‌ها آزمودن X 0 آزمود نی ها
آسانژ آسانژ E 0 آسانژ
آستانه‌اشرفیه آستانه‌اشرفیه E 0 آستان ه اشرف یه
آسفالت آسفالت X 0 آسفالت
آسفالته آسفالت X 0 آسفالت ه
آسفالته‌است آسفالته‌است V 0 آسفالت ه است
آسفالته‌ای آسفالت X 0 آسفالت ه ای
آسفالتی آسفالت X 0 آسفالت ی
آسمان‌نما آسمان‌نما X 0 آسمان نما
آسوس آسوس X 0 آسوس
آشام آشام X 0 آشام
آشامی آشامی X 0 آشام ی
آشامیدن آشامیدن X 0 آشام ید ن
آشامیدنی آشامیدن X 0 آشام ید نی
آشام‌ها آشام‌ X 0 آشام ها
آشنایی‌زدایی آشنایی‌زدایی X 0 آشنا یی زدا یی
آشور آشور E 0 آشور
آشوراده آشوراده X 0 آشورا ده
آشورشناسی آشورشناسی X 0 آشور شناس ی
آشوری آشور E 0 آشور ی
آشوریان آشور E 0 آشور ی ان
آشوری . . .