این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
دوشنبه 1 دی 1404
پردازش علائم و داده ها
، جلد ۱۴، شماره ۲، صفحات ۵۹-۷۴
عنوان فارسی
روشی جدید جهت استخراج موجودیتهای اسمی در عربی کلاسیک
چکیده فارسی مقاله
تشخیص واحدهای اسمی به عنوان یکی از سامانههای پردازش زبان طبیعی عبارت است از تشخیص اسامی خاص و طبقهبندی آنها به یکی از گروههای شخص، مکان، سازمان و زمان. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزههای پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشهبندی نتایج جستجو و پرسش و پاسخ، در سالهای اخیر مورد توجه محققان در زبان عربی نیز قرار گرفته است. گرچه بیشتر تحقیقات در این حوزه روی عربی استاندارد امروزی انجامشده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه میگردد. در این تحقیق یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از 130 هزار کلمه برچسبگذاری شده توسط متخصصین، معرفی میگردد. همچنین از یک فرهنگ لغات شامل 18000 اسم شخص که از کتب حدیثی استخراج شده است به عنوان منابع خارجی استفاده میشود. مدل پیشبینی، بر اساس مجمع ردهبندها و یک روش دو-مرحلهای پیشنهاد شده است بهطوریکه در مرحله اول تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقهبندی آنها به گروههای از پیش تعیینشده توسط الگوریتم آدابوست M2 انجام میگیرد. بهمنظور غلبه بر چالشهای زبان عربی عملیات نشانهگذاری، برچسبگذاری ادات سخن و قطعهکردن عبارت پایه به کار گرفتهشده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه بهدستآمده از مدل پیشنهادی در ارزیابی F-measure معادل 85/86 درصد است که بیانگر عملکرد مطلوب مدل میباشد. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شدهاند.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
A New Approach for Extracting Named Entity in Classical Arabic
چکیده انگلیسی مقاله
In Natural Language Processing (NLP) studies, developing resources and tools makes a contribution to extension and Effectiveness of researches in each language. In recent years, Arabic Named Entity Recognition (ANER) has been considered by NLP researchers. While most of these researches are based on Modern Standard Arabic (MSA), in this paper, we focus on Classical Arabic (CA) literature. We propose a corpus called NoorCorp with 200k labeled words for research purposes which is annotated by expert human resources manually. We also collected about 18k proper names from old Hadith books as gazetteer which is called NoorGazet. Using ensemble learning, we develop a new approach for extraction of named entities (NEs) including person, location and organization. Adaboost.M2 algorithm, as implementation of multiclass Boosting method, is applied to train the prediction model. Results show that performance of the method is better than decision tree as the base classifier. We have used tokenizing, part of speech (POS) tagging, and base phrase chunking (BPC) to overcome linguistic obstacles in Arabic. An overall F-measure value of 86.85 is obtained. Finally, the proposed approach is applied on ANERCorp as MSA corpus and we have compared the results with NoorCorp.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
سید محمد باقر سجادی | seyed mohamad bagher sajadi
islamic azad university central tehran branch
دانشگاه آزاد واحد تهران مرکز
سازمان اصلی تایید شده
: دانشگاه آزاد اسلامی تهران مرکز (Islamic azad university of tehran central)
حسن رشیدی | hassan rashidi
allameh tabataba amp;apos;i university
دانشگاه علامه طباطبایی
سازمان اصلی تایید شده
: دانشگاه علامه طباطبایی (Allameh tabatabaii university)
بهروز مینایی بیدگلی | behrooz minaei bidgoli
iran university of science and technology
دانشگاه علم و صنعت
سازمان اصلی تایید شده
: دانشگاه علم و صنعت ایران (Iran university of science and technology)
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-654-3&slc_lang=fa&sid=fa
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-474285.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش متن
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات