این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۸، شماره ۱، صفحات ۱۷-۲۴

عنوان فارسی بررسی تأثیرات ریشه‌یابی در بازیابی اطلاعات در زبان فارسی
چکیده فارسی مقاله یکی از مهمترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات یافتن ریشه کلمات می‌باشد. ریشه کلمه جزئی از کلمه است که پس از حذف وندهای کلمه (پیشوند، پسوند و میانوند) باقی می‌ماند. یکی از روش¬های افزایش کارایی سیستم‌های بازیابی اطلاعات استفاده از ریشه‌یابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آن کلمه تبدیل می¬شوند. در نتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش می‌یابد. در این مقاله الگوریتمی برای بدست آوردن ریشه کلمات در زبان فارسی ارائه شده است و سپس نتیجه آن در بازیابی اطلاعات با الگوریتم‌های متفاوت رتبه‌بندی مورد ارزیابی قرار گرفته است. الگوریتم ارائه شده با استفاده از قواعد ساختواژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشه‌های نادرست به ریشه‌یابی کلمات می‌پردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوریتم ارائه شده اندازه ساختار ایندکس 5 درصد کاهش یافته است و همچنین میزان میانگین متوسط دقت (mean average precision) در سیستم بازیابی اطلاعات حدود 5 درصد افزایش یافته است.
کلیدواژه‌های فارسی مقاله ریشه‌یابی، پردازش زبان طبیعی، بازیابی اطلاعات

عنوان انگلیسی Using Persian Stemmer in Information Retrieval System
چکیده انگلیسی مقاله Using the language-specific behavior in information retrieval systems can improve the quality of the retrieved results significantly. Part of the word that remains after removing its affixes is called stem. Stemming process can be used for improving the relevancy of the results in information retrieval system. Different morphological variants of words (plural, past tense…) will be mapped into their stem which can be used in the searching process of information retrieval tasks. Using the stem instead of the surface of the word reduces the size of the index file significantly. In this paper, an algorithm for stemming Persian words is described and its effect on information retrieval system is evaluated with different ranking methods. By using Persian Porter stemmer with just 43 rules, the size of index file reduced about 5% while the mean average precision of the retrieval information system improved about 5%.
کلیدواژه‌های انگلیسی مقاله Stemmer, Natural language processing, Information retrieval

نویسندگان مقاله نوا احسان |


هشام فیلی | Heshaam Faili
دانشگاه تهران


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-82-2&slc_lang=fa&sid=1
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-600137.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش گفتار
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات