این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۸، شماره ۴، صفحات ۱۳۶۹-۱۳۹۳

عنوان فارسی مقایسه عملکرد رویکردهای کشف و استخراج موضوعات کتاب‌های الکترونیکی
چکیده فارسی مقاله استخراج کلمات کلیدی از مسائل مهم در زمینه پردازش و تحلیل متن بوده و خلاصه‌ای سطح بالا و دقیق از متن ارائه می‌دهد. بنابراین، انتخاب روش مناسب برای استخراج کلمات کلیدی متن حائز اهمیت است. هدف پژوهش حاضر، مقایسه عملکرد سه رویکرد درکشف و استخراج کلیدواژه‌های موضوعی کتاب‌های الکترونیک با استفاده از تکنیک‌های متن‌کاوی و یادگیری ماشین است. در این راستا سه رویکرد آزمایشی شامل، 1) اجرای متوالی فرایند خوشه‌بندی، ارتقای کیفیت خوشه‌ها از نظر معنایی و غنی‌سازی کلمات توقف حوزه خاص، 2) استفاده از الگوی کلیدواژه‌های تخصصی، 3) استفاده از بخش‌های مهم متن در کشف و استخراج واژگان کلیدی و موضوعات مهم متن معرفی و مقایسه شده است. جامعه آماری شامل 1000 عنوان کتاب الکترونیک از زیرشاخه‌های موضوعی حوزه علم اطلاعات و دانش‌شناسی بر اساس نظام رده‌بندی کنگره است که بعد از کسب اطلاعات کتابشناختی آن از پایگاه کتابخانه کنگره، اقدام به تهیه متن اصلی گردید. استخراج کلیدواژه‌های موضوعی و خوشه‌بندی داده‌های آموزش به ‌کمک الگوریتم تجزیه نامنفی ماتریس و با سه رویکرد آزمایشی انجام شد و کیفیت و عملکرد خوشه‌های موضوعی حاصل از اجرای سه رویکرد در بخش دسته‌بندی خودکار داده‌های آزمایشی به ‌کمک ماشین بردار پشتیبان مقایسه شد. یافته‌ها نشان داد که افت همینگ (020/0) یا میزان خطا در دسته‌بندی صحیح متون آزمایشی در رویکرد سوم یعنی بهره‌گیری از بخش‌های مهم متن در استخراج کلیدواژه‌های موضوعی، از دو رویکرد دیگر کمتر است. همچنین امتیازF1  (82/0) که میانگین دو معیار دقت (87/0) و بازخوانی (78/0) و بازتابی از عملکرد درست فرایند دسته‌بندی در برچسب‌گذاری موضوعی متون است، در رویکرد سوم بهتر از نتایج دو رویکرد دیگر است. نتایج تحلیل‌ها نشان داد که کیفیت و انسجام معنایی خوشه‌های موضوعی حاصل از رویکرد سوم، یعنی استفاده از بخش‌های مهم متن در کشف و استخراج موضوع، در مقایسه با دو رویکرد دیگر بهتر بود. افزون ‌بر این، کلیدواژه‌های به‌دست‌آمده از خوشه‌های موضوعی رویکرد سوم را می‌توان در مجموعه‌های توصیف‌نشده و ناشناخته به‌منظور استخراج محتوای موضوعی ناآشکار کل مجموعه به‌کار برد.
کلیدواژه‌های فارسی مقاله کتاب الکترونیک، استخراج، کلیدواژه‌های موضوعی، متن‌کاوی، مدل‌سازی موضوعی،

عنوان انگلیسی Comparison of the performance of approaches in discovering and extracting e-book topics
چکیده انگلیسی مقاله Keyword extraction is one of the most important issues in text processing and analysis and provides a high-level and accurate summary of the text. Therefore, choosing the right method to extract keywords from the text is important. The aim of the present study was to compare the performance of three approaches in discovering and extracting the subject keywords of e-books using text mining and machine learning techniques. In this regard, three experimental approaches have been introduced and compared including the successive implementation of the clustering process, improving the quality of clusters in terms of semantics and enriching the stop words of a specific field, use of specialized keyword template, finally, the use of important parts of the text in discovering and extracting key words and important topics of the text. The statistical population includes 1000 e-book titles from the subject fields of library and information science based on the congress classification system. Bibliographic information of e-books was obtained from the Congress Library database, then the original text was prepared. The extraction of topic keywords and clustering of training data was performed using the non-negative matrix factorization algorithm with three experimental approaches. The quality and performance of the subject clusters resulting from the implementation of three approaches in the automatic classification of experimental data were compared using a support vector machine. The findings showed that the Hamming loss (0.020) and in other words the error rate in the correct classification of experimental texts in the third approach is far less than the other two approaches. Also, the F1 score (0.82), which is the average of the two criteria of precision (0.87) and recall (0.78) and is a reflection of the correct performance of the classification process in topic labeling of texts, is better in the third approach than the other two approaches. The results showed that the quality and semantic coherence of the subject clusters obtained from the third approach, i.e. the use of important parts of the text in discovering and extracting the subject, was better compared to other two approaches. In this approach, by focusing on the main parts of the data, which represent the main content and theme of the text, more meaningful topic clusters were obtained. In addition, the keywords obtained from the topic cluster of the third approach can be used in unspecified and unknown collections in order to extract the unknown thematic content of the whole collection. The results of third approach also was better in terms of accuracy and readability (0.79) and the rate of classification error (0.020) of texts, in comparison of other two approaches.
کلیدواژه‌های انگلیسی مقاله کتاب الکترونیک, استخراج, کلیدواژه‌های موضوعی, متن‌کاوی, مدل‌سازی موضوعی

نویسندگان مقاله فاطمه زرمهر |
دانشگاه اصفهان، اصفهان، ایران

علی منصوری |
دانشکده علوم تربیتی و روان‌شناسی، دانشگاه اصفهان، اصفهان، ایران

جسین کارشناس |
گروه هوش مصنوعی، دانشکده مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان، ایران


نشانی اینترنتی https://jipm.irandoc.ac.ir/article_698598_928dd7d1d3f697a3d7c5d2a3c4173e31.pdf
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات