سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

چهارشنبه 26 آذر 1404


پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۷، شماره ۱، صفحات ۱۹۷-۲۲۸


عنوان فارسی	بهبود الگوریتم RAKE برای استخراج کلیدواژه از متون علمی فارسی؛ مطالعه موردی: پایان‌نامه‌ها و رساله‌های فارسی

چکیده فارسی مقاله	کلمات کلیدی زیر‌مجموعه‌ای از کلمات یا عبارات یک سند هستند که می‌توانند معنای سند را توصیف‌کنند و در فرایند بازیابی اطلاعات نقش مهمی ایفا کنند. از آنجا که عملیات استخراج کلیدواژه یا عبارات کلیدی از متون تخصصی و علمی کاری تخصصی و زمان‌بر بوده و حجم اسناد علمی که نیاز به کلیدواژه دارند روزافزون است، الگوریتم‌های مختلفی برای استخراج تخصصی و خودکار کلیدواژه و عبارات کلیدی به اسناد طراحی و پیاده‌سازی شده‌اند. RAKE یک الگوریتم پرکاربرد برای استخراج کلمات کلیدی از متون است. اساس کار الگوریتم RAKE، کلمات کلیدی و عموماً حاوی چندین کلمه (یعنی عبارت کلیدی) هستند، ولی علائم نگارشی یا کلمات بی‌معنا یا ایست‌واژه‌ها را شامل نمی‌شوند. در این الگوریتم از برچسب‌گذاری دستوری کلمات به‌عنوان ابزاری برای تعیین ضریب اهمیت آن‌ها در جملات استفاده‌ می‌شود. کلید‌واژه‌ها مجموعه‌ای از توالی‌های چندکلمه‌ای یا تک‌کلمه‌ای هستند که طبق معیار‌های خاصی امتیاز‌دهی می‌شوند. در این پژوهش، یک نسخه بهبود‌یافته از الگوریتم استخراج خودکار کلیدواژه (RAKE) ارائه شده است. در نسخه بهبودیافته سعی شده با ایجاد تغییراتی در معیارهای امتیازدهی عبارات کاندید، دقت و بازخوانی عبارات کلیدی استخراج‌شده افزایش یابد. راهکار ارائه‌شده برای بهبود الگوریتم RAKE با در نظر گرفتن ضعف‌های موجود در رویکرد‌های وزن‌دهی دراین الگوریتم به‌ویژه برای زبان فارسی و مستندات علمی پیشنهاد شده است. برای بررسی نقاط ضعف الگوریتم RAKE و ارائه راهکار پیشنهادی از مجموعه‌ای از فراداده‌های پایان‌نامه و رساله‌های فارسی استفاده شده است. راهکار پیشنهادی روی این داده‌ها آزمایش و ارزیابی شده و باعث افزایش دقت، بازخوانی و معیار F شده است.

کلیدواژه‌های فارسی مقاله	استخراج ‌کلید‌واژه، الگوریتم RAKE، برچسب‌گذاری دستوری، پردازش زبان طبیعی، مستندات علمی فارسی.

عنوان انگلیسی	Improved Keyword Extraction for Persian Academic Texts Using RAKE Algorithm; Case Study: Persian Theses and Dissertations

چکیده انگلیسی مقاله	Keywords and key phrases are subsets of most relevant words or phrases that summarize contents of a document while they play a critical role in information and document retrieval. Keyword extraction from scientific text is challenging and time-consuming due to the technical and multi-subject nature of the text, while the number of documents requiring keywords is increasing. There are various algorithms and methods developed for automatic keyword extraction. Rapid Automatic Keyword Extraction (RAKE) is a popular algorithm in this domain. RAKE's decisions are based on the observation that keywords generally contain multiple words and they rarely include stopwords and words with minimum lexical meanings. Candidate keywords are a set of single-word or multi-word sequences selected based on the scores assigned to them by some scoring criteria in RAKE. In this research, a new modified version of RAKE algorithm is proposed in which candidate keyword scoring scheme is improved to increase precision and recall in the keyword extraction process. The proposed algorithm is to cover some of the main weaknesses of RAKE algorithm, especially in Persian scientific documents. To study the weaknesses of RAKE algorithm and evaluating the proposed modified version of RAKE, a set of metadata of Persian theses and dissertations are used. The result of test and evaluation of the proposed algorithm confirm improvement in precision, recall and F-measure. We study effectiveness of RAKE in extracting keywords from Persian texts. We find that RAKE algorithm often extracts long phrases with redundant words on Persian texts, leading to low accuracy. In this paper, we study sources of scoring inefficiency of RAKE algorithm and propose an improved version of RAKE algorithm with a novel scoring mechanism. Our scoring mechanism overcomes some of the weaknesses in RAKE's original scoring for Persian texts and yields better results. Our evaluations on Persian corpus demonstrate that our improved RAKE algorithm outperforms original RAKE algorithm by extracting more accurate keyword. Our results show that improved RAKE achieves more than 20% higher precision and recall on average compared to original RAKE.

کلیدواژه‌های انگلیسی مقاله	Keyword Extraction, RAKE Algorithm, Part of Speech Tagging, Natural Language Processing, Persian Scientific Document

نویسندگان مقاله	الهه محرابی \| Elaheh Mehrabi Amirkabir University of Technology; Tehran, Iran دانشگاه صنعتی امیرکبیر آزاده محبی \| Azadeh Mohebi Faculty of Information Technology; Iranian Research Institute for Information Science and Technology (IranDoc); Tehran, Iran پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)؛ تهران، ایران؛ عباس احمدی \| Abbas Ahmadi Department of Industrial Engineering and Management Systems; Amirkabir University of Technology; Tehran, Iran دانشگاه صنعتی امیرکبیر؛ تهران، ایران

نشانی اینترنتی	http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-3174-2&slc_lang=fa&sid=1
فایل مقاله	فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده	سازمان‌دهی
نوع مقاله منتشر شده	پژوهشی

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 437

بازدید امروز 11913

بازدید کل 39333805

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق