سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

یکشنبه 23 آذر 1404


پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۸، شماره ۳، صفحات ۸۲۵-۹۰۰


عنوان فارسی	دسته‌بندی پیکره‌بنیاد هم‌نگاره‌های فارسی

چکیده فارسی مقاله	ابهام، یکی از چالش‌های بزرگ در پردازش زبان طبیعی است. در پردازش رایانه‌ای متون، هم‌نگاره‌ها و چگونگی رفع ابهام از آن‌ها از اهمیت بالایی برخوردار است. در زبان‌هایـی ماننـد زبـان فارسـی که سـاخت‌واژه پیچیـده‌ای دارنـد، هم‌نگاره‌هـای بســیاری ســاخته می‌شــوند. در این راستا شناخت هم‌نگاره‌ها و دسته‌بندی انواع آن‌ها بسیار مهم است. در پژوهش حاضر به‌منظور بررسی پیکره-بنیاد هم‌نگاره‌های فارسی، واژه‌هایی که بیش از یک برچسب اجزای واژگانی کلام داشتند، از پیکره متنی فارسی استخراج شدند که شامل 10978 واژه است. سپس، فراوانی برچسب‌های هر هم‌نگاره مورد بررسی قرار گرفت و فهرست دیگری استخراج شد که شامل هم‌نگاره‌هایی است که افزون ‌بر فراوانی بالای برچسب اول آن‌ها (بیش از 20)، فراوانی برچسب‌ دوم آن‌ها نیز در پیکره متنی فارسی بیش از 10 بوده است. این فهرست شامل 1675 هم‌نگاره است. ماهیت ساخت‌واژی، آوایی یا معنایی هم‌نگاره‌های استخراج‌شده در این مرحله مورد بررسی قرار گرفت و بر اساس آن، هم‌نگاره‌های استخراج‌شده در یازده دسته طبقه‌بندی شد که از میان آن‌ها، تنها هم‌نگاره‌های موجود در یک دسته بر اساس معیار معنایی طبقه‌بندی شده‌اند و بقیه بر اساس ویژگی‌های ساخت‌واژی و تفاوت‌های آوایی آن‌ها در دسته‌های گوناگون قرار گرفته‌اند. نتایج این پژوهش شامل فهرست گسترده‌ای از هم‌نگاره‌های فارسی استخراج‌شده از پیکره متنی فارسی است که هر کدام بر اساس معیارهای ساخت‌واژی و آوایی در یک یا بیش از یک دسته از مجموع یازده دسته قرار گرفته‌اند. این فهرست و دسته‌بندی مربوط به هم‌نگاره‌ها می‌تواند در سیستم‌های رفع ابهام معنایی از واژگان مورد استفاده قرار گیرد

کلیدواژه‌های فارسی مقاله	ابهام، هم‌نگاره‌، برچسب اجزای واژگانی کلام، ویژگی‌های ساخت‌واژی هم‌نگاره‌ها،

عنوان انگلیسی	Corpus-based classification of Persian homographs

چکیده انگلیسی مقاله	One of the big challenges in natural language processing is ambiguity. Homographs and homograph sense disambiguation is highly important in computational processing of texts. In languages with complex morphology, there exists lots of homographs, which are worth studying and classifying. In present study, in order to study Persian homographs extracted from the corpus, first words with more than one POS tag were extracted from an annotated corpus, 10978 words. Then, the frequency of each POS tag pertaining to every homograph was studied and another list of homographs was extracted from the first one, which include homographs with high frequency of the first tag (more than 20) and considerable frequency of the second tag (more than 10); the mentioned list include 1675 homographs. Morphological, phonological as well as semantic structures of homographs were studied based on which all homographs were classified into 11 categories. From 11 categories only homographs in one category were chosen based on semantic criteria and the rest were classified based on morphological as well as phonological criteria. The output of the present study includes a big list of homographs extracted from Persian text corpus, each of which are categorized in one or more than one category based on morphological and phonological characteristics of homographs. Such list and the related categorization could be used in word sense disambiguation systems.

کلیدواژه‌های انگلیسی مقاله	ابهام, هم‌نگاره‌, برچسب اجزای واژگانی کلام, ویژگی‌های ساخت‌واژی هم‌نگاره‌ها

نویسندگان مقاله	الهام علایی ابوذر \| پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران

نشانی اینترنتی	https://jipm.irandoc.ac.ir/article_698610_e4c2e936952be9fdebb73723fd9b047d.pdf
فایل مقاله	فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 791

بازدید امروز 9882

بازدید کل 39113845

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق