این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
یکشنبه 30 آذر 1404
پردازش علائم و داده ها
، جلد ۸، شماره ۱، صفحات ۱۷-۲۴
عنوان فارسی
بررسی تأثیرات ریشهیابی در بازیابی اطلاعات در زبان فارسی
چکیده فارسی مقاله
یکی از مهمترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات یافتن ریشه کلمات میباشد. ریشه کلمه جزئی از کلمه است که پس از حذف وندهای کلمه (پیشوند، پسوند و میانوند) باقی میماند. یکی از روش¬های افزایش کارایی سیستمهای بازیابی اطلاعات استفاده از ریشهیابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آن کلمه تبدیل می¬شوند. در نتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش مییابد. در این مقاله الگوریتمی برای بدست آوردن ریشه کلمات در زبان فارسی ارائه شده است و سپس نتیجه آن در بازیابی اطلاعات با الگوریتمهای متفاوت رتبهبندی مورد ارزیابی قرار گرفته است. الگوریتم ارائه شده با استفاده از قواعد ساختواژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشههای نادرست به ریشهیابی کلمات میپردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوریتم ارائه شده اندازه ساختار ایندکس 5 درصد کاهش یافته است و همچنین میزان میانگین متوسط دقت (mean average precision) در سیستم بازیابی اطلاعات حدود 5 درصد افزایش یافته است.
کلیدواژههای فارسی مقاله
ریشهیابی، پردازش زبان طبیعی، بازیابی اطلاعات
عنوان انگلیسی
Using Persian Stemmer in Information Retrieval System
چکیده انگلیسی مقاله
Using the language-specific behavior in information retrieval systems can improve the quality of the retrieved results significantly. Part of the word that remains after removing its affixes is called stem. Stemming process can be used for improving the relevancy of the results in information retrieval system. Different morphological variants of words (plural, past tense…) will be mapped into their stem which can be used in the searching process of information retrieval tasks. Using the stem instead of the surface of the word reduces the size of the index file significantly. In this paper, an algorithm for stemming Persian words is described and its effect on information retrieval system is evaluated with different ranking methods. By using Persian Porter stemmer with just 43 rules, the size of index file reduced about 5% while the mean average precision of the retrieval information system improved about 5%.
کلیدواژههای انگلیسی مقاله
Stemmer, Natural language processing, Information retrieval
نویسندگان مقاله
نوا احسان |
هشام فیلی | Heshaam Faili
دانشگاه تهران
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-82-2&slc_lang=fa&sid=1
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-600137.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش گفتار
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات