این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
چهارشنبه 26 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۸، شماره ۴، صفحات ۱۳۶۹-۱۳۹۳
عنوان فارسی
مقایسه عملکرد رویکردهای کشف و استخراج موضوعات کتابهای الکترونیکی
چکیده فارسی مقاله
استخراج کلمات کلیدی از مسائل مهم در زمینه پردازش و تحلیل متن بوده و خلاصهای سطح بالا و دقیق از متن ارائه میدهد. بنابراین، انتخاب روش مناسب برای استخراج کلمات کلیدی متن حائز اهمیت است. هدف پژوهش حاضر، مقایسه عملکرد سه رویکرد درکشف و استخراج کلیدواژههای موضوعی کتابهای الکترونیک با استفاده از تکنیکهای متنکاوی و یادگیری ماشین است. در این راستا سه رویکرد آزمایشی شامل، 1) اجرای متوالی فرایند خوشهبندی، ارتقای کیفیت خوشهها از نظر معنایی و غنیسازی کلمات توقف حوزه خاص، 2) استفاده از الگوی کلیدواژههای تخصصی، 3) استفاده از بخشهای مهم متن در کشف و استخراج واژگان کلیدی و موضوعات مهم متن معرفی و مقایسه شده است. جامعه آماری شامل 1000 عنوان کتاب الکترونیک از زیرشاخههای موضوعی حوزه علم اطلاعات و دانششناسی بر اساس نظام ردهبندی کنگره است که بعد از کسب اطلاعات کتابشناختی آن از پایگاه کتابخانه کنگره، اقدام به تهیه متن اصلی گردید. استخراج کلیدواژههای موضوعی و خوشهبندی دادههای آموزش به کمک الگوریتم تجزیه نامنفی ماتریس و با سه رویکرد آزمایشی انجام شد و کیفیت و عملکرد خوشههای موضوعی حاصل از اجرای سه رویکرد در بخش دستهبندی خودکار دادههای آزمایشی به کمک ماشین بردار پشتیبان مقایسه شد. یافتهها نشان داد که افت همینگ (020/0) یا میزان خطا در دستهبندی صحیح متون آزمایشی در رویکرد سوم یعنی بهرهگیری از بخشهای مهم متن در استخراج کلیدواژههای موضوعی، از دو رویکرد دیگر کمتر است. همچنین امتیازF1 (82/0) که میانگین دو معیار دقت (87/0) و بازخوانی (78/0) و بازتابی از عملکرد درست فرایند دستهبندی در برچسبگذاری موضوعی متون است، در رویکرد سوم بهتر از نتایج دو رویکرد دیگر است. نتایج تحلیلها نشان داد که کیفیت و انسجام معنایی خوشههای موضوعی حاصل از رویکرد سوم، یعنی استفاده از بخشهای مهم متن در کشف و استخراج موضوع، در مقایسه با دو رویکرد دیگر بهتر بود. افزون بر این، کلیدواژههای بهدستآمده از خوشههای موضوعی رویکرد سوم را میتوان در مجموعههای توصیفنشده و ناشناخته بهمنظور استخراج محتوای موضوعی ناآشکار کل مجموعه بهکار برد.
کلیدواژههای فارسی مقاله
کتاب الکترونیک، استخراج، کلیدواژههای موضوعی، متنکاوی، مدلسازی موضوعی،
عنوان انگلیسی
Comparison of the performance of approaches in discovering and extracting e-book topics
چکیده انگلیسی مقاله
Keyword extraction is one of the most important issues in text processing and analysis and provides a high-level and accurate summary of the text. Therefore, choosing the right method to extract keywords from the text is important. The aim of the present study was to compare the performance of three approaches in discovering and extracting the subject keywords of e-books using text mining and machine learning techniques. In this regard, three experimental approaches have been introduced and compared including the successive implementation of the clustering process, improving the quality of clusters in terms of semantics and enriching the stop words of a specific field, use of specialized keyword template, finally, the use of important parts of the text in discovering and extracting key words and important topics of the text. The statistical population includes 1000 e-book titles from the subject fields of library and information science based on the congress classification system. Bibliographic information of e-books was obtained from the Congress Library database, then the original text was prepared. The extraction of topic keywords and clustering of training data was performed using the non-negative matrix factorization algorithm with three experimental approaches. The quality and performance of the subject clusters resulting from the implementation of three approaches in the automatic classification of experimental data were compared using a support vector machine. The findings showed that the Hamming loss (0.020) and in other words the error rate in the correct classification of experimental texts in the third approach is far less than the other two approaches. Also, the F1 score (0.82), which is the average of the two criteria of precision (0.87) and recall (0.78) and is a reflection of the correct performance of the classification process in topic labeling of texts, is better in the third approach than the other two approaches. The results showed that the quality and semantic coherence of the subject clusters obtained from the third approach, i.e. the use of important parts of the text in discovering and extracting the subject, was better compared to other two approaches. In this approach, by focusing on the main parts of the data, which represent the main content and theme of the text, more meaningful topic clusters were obtained. In addition, the keywords obtained from the topic cluster of the third approach can be used in unspecified and unknown collections in order to extract the unknown thematic content of the whole collection. The results of third approach also was better in terms of accuracy and readability (0.79) and the rate of classification error (0.020) of texts, in comparison of other two approaches.
کلیدواژههای انگلیسی مقاله
کتاب الکترونیک, استخراج, کلیدواژههای موضوعی, متنکاوی, مدلسازی موضوعی
نویسندگان مقاله
فاطمه زرمهر |
دانشگاه اصفهان، اصفهان، ایران
علی منصوری |
دانشکده علوم تربیتی و روانشناسی، دانشگاه اصفهان، اصفهان، ایران
جسین کارشناس |
گروه هوش مصنوعی، دانشکده مهندسی کامپیوتر، دانشگاه اصفهان، اصفهان، ایران
نشانی اینترنتی
https://jipm.irandoc.ac.ir/article_698598_928dd7d1d3f697a3d7c5d2a3c4173e31.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات