سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

سه شنبه 25 آذر 1404


پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۴، شماره ۲، صفحات ۸۹۷-۹۲۲


عنوان فارسی	بررسی پیکره-بنیاد هم‌نگاره‌های اسمی و صفتی فارسی جهت کمک به برچسب‌گذاری صحیح اجزای کلام

چکیده فارسی مقاله	در تهیه سامانه های برچسب گذاری اجزای کلام در زبان فارسی، بررسی ساختواژی اسم ها و صفت ها از دو نظر حائز اهمیت است: 1- اگر کلمه ای قبلاً در پیکره آموزشی ظاهر نشده باشد، نمی توان از پیکره آموزشی اطلاعات دقیقی راجع به آن کلمه به دست آورد . بنابراین، اگر در یک پیکره متنی فارسی، کلمه ای در واژگان حضور نداشته باشد (کلمه خارج از واژگان)، نمی توان برچسب های مربوط به کلمه را بازیابی کرد. در این صورت، برچسب کلمه را تنها می توان با توجه به شکل کلمه (انواع پیشوندها و پسوندهایی که به کلمات متصل می شوند) یا بافتی که کلمه در آن ظاهر میشود، یا هر دو، حدس زد. 2- زبان فارسی ظرفیت بالایی برای ساخت هم نگاره های جدید که از ساختواژه فارسی نشأت میگیرند، را نیز دارد بنابراین، بررسی ساختواژی اسم ها و صفت ها، به منظور تفکیک آنها از هم ضروری به نظر میرسد، زیرا اکثر صفت ها در بافت های گوناگون، با صورت نوشتاری یکسان، می توانند برچسب «اسم» بگیرند. در تحقیق حاضرساختواژه اسم ها و صفت ها در فارسی بررسی شده است. نظام نوشتاری زبان فارسی نیز مورد بررسی قرار گرفته است تا از این رهگذر بتوان به شناسایی انواع هم نگاره ها در زبان فارسی پرداخت. سپس، انواع هم نگاره ها در زبان فارسی مورد مطالعه قرار گرفته است و در نهایت از طریق جستجو به دو روش ماشینی و دستی، فهرست مبسوطی از هم نگاره ها از پیکره های "پیکره متنی زبان فارسی"، "پایگاه دادگان زبان فارسی" و "پیکره وابستگی نحوی زبان فارسی" تهیه شده است. بررسی کلی هم نگاره ها در پیکره های مورد مطالعه نشان میدهد که بیشتر هم نگاره ها، فراوانی بالایی در پیکره های متنی فارسی دارند و اکثر آنها در اثر یکسان بودن نمود نوشتاری تکواژ یاء نکره، یاء اسمساز، شناسه دوم شخص مفرد، یاء صفت ساز و یاء متصل به گروه اسمی، ایجاد شده اند.

کلیدواژه‌های فارسی مقاله

عنوان انگلیسی	A Corpus-based study of Persian noun and adjective homographs to help right POS tagging

چکیده انگلیسی مقاله	Present research studies morphological structure of nouns and adjectives; there are two main reasons for studying them in the process of making any POS tagger system for tagging nouns: 1. If the system faces an out of vocabulary word (OOV word), one way to identify its tag would be considering its morphological structure. 2. In Persian, lots of homographs are made due to Persian complex morphology; studying morphological structure of nouns in order to distinguish them from adjectives seems to be necessary, since many adjectives, having the same orthographic forms of nouns, would be wrongly tagged as "noun" or vice versa. After studying morphological structure of nouns and adjectives in present study, Persian writing system is studied; then definition of homographs and the related classifications are presented. Finally, the study uses different famous Persian corpora (including Bijankhan, and syntactical dependency corpus (vabastegi ye nahvi) for searching for homographs (using search tools) and Data center for Persian language (Paygah e Dadegan) whose non-tagged file was available (the homographs are searched and tagged manually)) to make a list of homographs. The result of studying the mentioned list showed that the frequency of homographs, especially those which are made due to identical orthographic form of indefinite morpheme, adjective-maker morpheme and second person inflectional morpheme is high is Persian corpora which makes POS tagging difficult.

کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله	الهام علایی ابوذر \| Elham Alayiaboozar Iranian Research Institute for Information Science and Technology (IranDoc) پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

نشانی اینترنتی	http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-3228-3&slc_lang=fa&sid=1
فایل مقاله	اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-1364751.pdf
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده	فناوری اطلاعات
نوع مقاله منتشر شده	پژوهشی

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 683

بازدید امروز 3917

بازدید کل 39264901

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق