این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
یکشنبه 23 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۸، شماره ۳، صفحات ۸۲۵-۹۰۰
عنوان فارسی
دستهبندی پیکرهبنیاد همنگارههای فارسی
چکیده فارسی مقاله
ابهام، یکی از چالشهای بزرگ در پردازش زبان طبیعی است. در پردازش رایانهای متون، همنگارهها و چگونگی رفع ابهام از آنها از اهمیت بالایی برخوردار است. در زبانهایـی ماننـد زبـان فارسـی که سـاختواژه پیچیـدهای دارنـد، همنگارههـای بســیاری ســاخته میشــوند. در این راستا شناخت همنگارهها و دستهبندی انواع آنها بسیار مهم است. در پژوهش حاضر بهمنظور بررسی پیکره-بنیاد همنگارههای فارسی، واژههایی که بیش از یک برچسب اجزای واژگانی کلام داشتند، از پیکره متنی فارسی استخراج شدند که شامل 10978 واژه است. سپس، فراوانی برچسبهای هر همنگاره مورد بررسی قرار گرفت و فهرست دیگری استخراج شد که شامل همنگارههایی است که افزون بر فراوانی بالای برچسب اول آنها (بیش از 20)، فراوانی برچسب دوم آنها نیز در پیکره متنی فارسی بیش از 10 بوده است. این فهرست شامل 1675 همنگاره است. ماهیت ساختواژی، آوایی یا معنایی همنگارههای استخراجشده در این مرحله مورد بررسی قرار گرفت و بر اساس آن، همنگارههای استخراجشده در یازده دسته طبقهبندی شد که از میان آنها، تنها همنگارههای موجود در یک دسته بر اساس معیار معنایی طبقهبندی شدهاند و بقیه بر اساس ویژگیهای ساختواژی و تفاوتهای آوایی آنها در دستههای گوناگون قرار گرفتهاند. نتایج این پژوهش شامل فهرست گستردهای از همنگارههای فارسی استخراجشده از پیکره متنی فارسی است که هر کدام بر اساس معیارهای ساختواژی و آوایی در یک یا بیش از یک دسته از مجموع یازده دسته قرار گرفتهاند. این فهرست و دستهبندی مربوط به همنگارهها میتواند در سیستمهای رفع ابهام معنایی از واژگان مورد استفاده قرار گیرد
کلیدواژههای فارسی مقاله
ابهام، همنگاره، برچسب اجزای واژگانی کلام، ویژگیهای ساختواژی همنگارهها،
عنوان انگلیسی
Corpus-based classification of Persian homographs
چکیده انگلیسی مقاله
One of the big challenges in natural language processing is ambiguity. Homographs and homograph sense disambiguation is highly important in computational processing of texts. In languages with complex morphology, there exists lots of homographs, which are worth studying and classifying. In present study, in order to study Persian homographs extracted from the corpus, first words with more than one POS tag were extracted from an annotated corpus, 10978 words. Then, the frequency of each POS tag pertaining to every homograph was studied and another list of homographs was extracted from the first one, which include homographs with high frequency of the first tag (more than 20) and considerable frequency of the second tag (more than 10); the mentioned list include 1675 homographs. Morphological, phonological as well as semantic structures of homographs were studied based on which all homographs were classified into 11 categories. From 11 categories only homographs in one category were chosen based on semantic criteria and the rest were classified based on morphological as well as phonological criteria. The output of the present study includes a big list of homographs extracted from Persian text corpus, each of which are categorized in one or more than one category based on morphological and phonological characteristics of homographs. Such list and the related categorization could be used in word sense disambiguation systems.
کلیدواژههای انگلیسی مقاله
ابهام, همنگاره, برچسب اجزای واژگانی کلام, ویژگیهای ساختواژی همنگارهها
نویسندگان مقاله
الهام علایی ابوذر |
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران
نشانی اینترنتی
https://jipm.irandoc.ac.ir/article_698610_e4c2e936952be9fdebb73723fd9b047d.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات