این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
چهارشنبه 26 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۴، شماره ۴، صفحات ۱۸۷۹-۱۹۰۴
عنوان فارسی
جستاری بر فرایند سازماندهی و بازیابی متون وبی مبتنی بر تجمیع مفاهیم معنایی در راستای سازماندهی دانش
چکیده فارسی مقاله
سازماندهی و بازیابی دانش منتشرشده در محیط وب بهعنوان یکی از مهمترین کاربردهای متنکاوی مطرح است. از جمله چالشهای سازماندهی مجموعه عظیمی از متون در قالب یک پیکره متنی، ابعاد زیاد ویژگیها و خلوت بودن ماتریس ویژگیهاست. نحوه انتخاب ویژگیها و کاهش آنها در این مسئله تأثیر بهسزایی در بالاتر رفتن دقت سازماندهی و بازیابی متون دارد. در بسیاری از پژوهشها به بررسی جداگانه این دو چالش پرداخته شده است. این پژوهش با رویکرد توجه همزمان به این دو چالش انجام گرفته است. پس از تعیین متون مرتبط با 20 گروه خبری وبی و پس از فاز پیشپردازش متون با استفاده از الگوریتم الگوسازی عنوان «الدیاِی»، کیسهای (تجمیعی) از مفاهیم معنایی برای پیکره متنی مورد نظر ساخته شد. بهمنظور بررسی میزان تأثیر واژههای پیکره متون در هر مفهوم پنهان، به بررسی نحوه وزندهی واژگان یک پیکره، در مفاهیم استخراجشده توسط الگوریتم «الدیاِی» پرداخته شد. از این رو، برای هر متن یک توزیع احتمال رخداد حول هر عنوان استخراج گردید که برای سازماندهی و بازیابی دانش موجود در آن مورد استفاده قرار گرفت. برای سازماندهی آن از الگوریتم نزدیکترین K همسایه با معیار شباهت واگرای «کولبک لیبلر» که میزان فاصله دو توزیع احتمال را میسنجد؛ استفاده شد. نتایج آزمونها نشان داد که میزان صحت سازماندهی روش پیشنهادی در صورتی که از معیار وزندهی واکشی اطلاعات متقابل نقطهای و الگوریتم KL-KNN استفاده شده باشد، 5/82 درصد است. نتایج تحلیلها نشان داد که این روش دارای دقتی مشابه با روشهایی است که از فنون یادگیری عمیق استفاده مینمایند. افزون بر این، روش بهکاررفته در این پژوهش نشاندهنده پیچیدگی کمتر در فرایند سازماندهی و بازیابی متون مورد مطالعه پژوهش بود.
کلیدواژههای فارسی مقاله
متنکاوی، طبقهبندی متن، الگوسازی عنوان، بازیابی، سازماندهی دانش، واکشی اطلاعات متقابل نقطهای،
عنوان انگلیسی
An Investigation into the Process of Organizing and Retrieving Web Texts based on the Integration of Semantic Concept in order to Organize Knowledge
چکیده انگلیسی مقاله
Improvement in information retrieval performance relates to the method of knowledge extraction from large amounts of text information on web. Text classification is a way of knowledge extraction with supervised machine learning methods. This paper proposed Kullback-Leibler divergence KNN for classifying extracted features based on term weighting with Latent Dirichlet Allocation algorithm. LDA is Non-Negative matrix factorization method proposed for topic modeling and dimension reduction of high dimensional feature space. In traditional LDA, each component value is assigned using the information retrieval Term Frequency measure. While this weighting method seems very appropriate for information retrieval, it is not clear that it is the best choice for text classification problems. Actually, this weighting method does not leverage the information implicitly contained in the categorization task to represent documents. In this paper, we introduce a new weighting method based on Point wise Mutual Information for accessing the importance of a word for a specific latent concept, then each document classified based on probability distribution over the latent topics. Experimental result investigated when we used Pointwise Mutual Information measure for term weighing and K Nearest Neighbor with Kullback-Leibler distance for classification, accuracy has been 82.5%, with the same accuracy versus probabilistic deep learning methods.
کلیدواژههای انگلیسی مقاله
متنکاوی, طبقهبندی متن, الگوسازی عنوان, بازیابی, سازماندهی دانش, واکشی اطلاعات متقابل نقطهای
نویسندگان مقاله
سعیده انبایی فریمانی |
گروه مهندسی کامپیوتر؛ واحد مشهد؛ دانشگاه آزاد اسلامی؛ مشهد، ایران
حمید طباطبایی |
گروه مهندسی کامپیوتر؛ واحد قوچان؛ دانشگاه آزاد اسلامی؛ قوچان، ایران؛
مجتبی کفاشان کاخکی |
گروه علم اطلاعات و دانششناسی؛ دانشگاه فردوسی مشهد؛ ایران
نشانی اینترنتی
https://jipm.irandoc.ac.ir/article_699569_64eb5f1cf52ec4b1926ff938d87771d7.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات