این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۴، شماره ۲، صفحات ۵۹-۷۴

عنوان فارسی روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک
چکیده فارسی مقاله تشخیص واحدهای اسمی به عنوان یکی از سامانه‌های پردازش زبان طبیعی عبارت است از تشخیص اسامی خاص و طبقه‌بندی آن‌ها به یکی از گروه‌های شخص، مکان، سازمان و زمان. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزه‌های پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشه‌بندی نتایج جستجو و پرسش و پاسخ، در سال‌های اخیر مورد توجه محققان در زبان عربی نیز قرار گرفته است. گرچه بیشتر تحقیقات در این حوزه روی عربی استاندارد امروزی انجام‌شده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه می‌گردد. در این تحقیق یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از 130 هزار کلمه برچسب‌گذاری شده توسط متخصصین، معرفی می‌گردد. همچنین از یک فرهنگ لغات شامل 18000 اسم شخص که از کتب حدیثی استخراج شده است به عنوان منابع خارجی استفاده می‌شود. مدل پیش‌بینی، بر اساس مجمع رده‌بندها و یک روش دو-مرحله‌ای پیشنهاد شده است به‌طوری‌که در مرحله اول تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقه‌بندی آن‌ها به گروه‌های از پیش تعیین‌شده توسط الگوریتم آدابوست M2 انجام می‌گیرد. به‌منظور غلبه بر چالش‌های زبان عربی عملیات نشانه‌گذاری، برچسب‌گذاری ادات سخن و قطعه‌کردن عبارت پایه به کار گرفته‌شده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه به‌دست‌آمده از مدل پیشنهادی در ارزیابی F-measure‌ معادل 85/86 درصد است که بیانگر عملکرد مطلوب مدل می‌باشد. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شده‌اند.
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی A New Approach for Extracting Named Entity in Classical Arabic
چکیده انگلیسی مقاله In Natural Language Processing (NLP) studies, developing resources and tools makes a contribution to extension and Effectiveness of researches in each language. In recent years, Arabic Named Entity Recognition (ANER) has been considered by NLP researchers. While most of these researches are based on Modern Standard Arabic (MSA), in this paper, we focus on Classical Arabic (CA) literature. We propose a corpus called NoorCorp with 200k labeled words for research purposes which is annotated by expert human resources manually. We also collected about 18k proper names from old Hadith books as gazetteer which is called NoorGazet. Using ensemble learning, we develop a new approach for extraction of named entities (NEs) including person, location and organization. Adaboost.M2 algorithm, as implementation of multiclass Boosting method, is applied to train the prediction model. Results show that performance of the method is better than decision tree as the base classifier. We have used tokenizing, part of speech (POS) tagging, and base phrase chunking (BPC) to overcome linguistic obstacles in Arabic. An overall F-measure value of 86.85 is obtained. Finally, the proposed approach is applied on ANERCorp as MSA corpus and we have compared the results with NoorCorp.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله سید محمد باقر سجادی | seyed mohamad bagher sajadi
islamic azad university central tehran branch
دانشگاه آزاد واحد تهران مرکز
سازمان اصلی تایید شده: دانشگاه آزاد اسلامی تهران مرکز (Islamic azad university of tehran central)

حسن رشیدی | hassan rashidi
allameh tabataba amp;apos;i university
دانشگاه علامه طباطبایی
سازمان اصلی تایید شده: دانشگاه علامه طباطبایی (Allameh tabatabaii university)

بهروز مینایی بیدگلی | behrooz minaei bidgoli
iran university of science and technology
دانشگاه علم و صنعت
سازمان اصلی تایید شده: دانشگاه علم و صنعت ایران (Iran university of science and technology)


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-654-3&slc_lang=fa&sid=fa
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-474285.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات