سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

دوشنبه 1 دی 1404


پردازش علائم و داده ها، جلد ۱۴، شماره ۲، صفحات ۵۹-۷۴


عنوان فارسی	روشی جدید جهت استخراج موجودیت‌های اسمی در عربی کلاسیک

چکیده فارسی مقاله	تشخیص واحدهای اسمی به عنوان یکی از سامانه‌های پردازش زبان طبیعی عبارت است از تشخیص اسامی خاص و طبقه‌بندی آن‌ها به یکی از گروه‌های شخص، مکان، سازمان و زمان. این عملیات به دلیل تأثیر قابل توجه در بهبود کارایی دیگر حوزه‌های پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشه‌بندی نتایج جستجو و پرسش و پاسخ، در سال‌های اخیر مورد توجه محققان در زبان عربی نیز قرار گرفته است. گرچه بیشتر تحقیقات در این حوزه روی عربی استاندارد امروزی انجام‌شده است، اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا، روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه می‌گردد. در این تحقیق یک پیکره متنی عربی کلاسیک به نام نورکورپ، متشکل از 130 هزار کلمه برچسب‌گذاری شده توسط متخصصین، معرفی می‌گردد. همچنین از یک فرهنگ لغات شامل 18000 اسم شخص که از کتب حدیثی استخراج شده است به عنوان منابع خارجی استفاده می‌شود. مدل پیش‌بینی، بر اساس مجمع رده‌بندها و یک روش دو-مرحله‌ای پیشنهاد شده است به‌طوری‌که در مرحله اول تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقه‌بندی آن‌ها به گروه‌های از پیش تعیین‌شده توسط الگوریتم آدابوست M2 انجام می‌گیرد. به‌منظور غلبه بر چالش‌های زبان عربی عملیات نشانه‌گذاری، برچسب‌گذاری ادات سخن و قطعه‌کردن عبارت پایه به کار گرفته‌شده است. با استفاده از یک روش آماری، برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه به‌دست‌آمده از مدل پیشنهادی در ارزیابی F-measure‌ معادل 85/86 درصد است که بیانگر عملکرد مطلوب مدل می‌باشد. در آخر، روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شده‌اند.

کلیدواژه‌های فارسی مقاله

عنوان انگلیسی	A New Approach for Extracting Named Entity in Classical Arabic

چکیده انگلیسی مقاله	In Natural Language Processing (NLP) studies, developing resources and tools makes a contribution to extension and Effectiveness of researches in each language. In recent years, Arabic Named Entity Recognition (ANER) has been considered by NLP researchers. While most of these researches are based on Modern Standard Arabic (MSA), in this paper, we focus on Classical Arabic (CA) literature. We propose a corpus called NoorCorp with 200k labeled words for research purposes which is annotated by expert human resources manually. We also collected about 18k proper names from old Hadith books as gazetteer which is called NoorGazet. Using ensemble learning, we develop a new approach for extraction of named entities (NEs) including person, location and organization. Adaboost.M2 algorithm, as implementation of multiclass Boosting method, is applied to train the prediction model. Results show that performance of the method is better than decision tree as the base classifier. We have used tokenizing, part of speech (POS) tagging, and base phrase chunking (BPC) to overcome linguistic obstacles in Arabic. An overall F-measure value of 86.85 is obtained. Finally, the proposed approach is applied on ANERCorp as MSA corpus and we have compared the results with NoorCorp.

کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله	سید محمد باقر سجادی \| seyed mohamad bagher sajadi islamic azad university central tehran branch دانشگاه آزاد واحد تهران مرکز سازمان اصلی تایید شده: دانشگاه آزاد اسلامی تهران مرکز (Islamic azad university of tehran central) حسن رشیدی \| hassan rashidi allameh tabataba amp;apos;i university دانشگاه علامه طباطبایی سازمان اصلی تایید شده: دانشگاه علامه طباطبایی (Allameh tabatabaii university) بهروز مینایی بیدگلی \| behrooz minaei bidgoli iran university of science and technology دانشگاه علم و صنعت سازمان اصلی تایید شده: دانشگاه علم و صنعت ایران (Iran university of science and technology)

نشانی اینترنتی	http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-654-3&slc_lang=fa&sid=fa
فایل مقاله	اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-474285.pdf
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده	مقالات پردازش متن
نوع مقاله منتشر شده	پژوهشی

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 523

بازدید امروز 54700

بازدید کل 39620658

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق