سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

دوشنبه 1 دی 1404


پردازش علائم و داده ها، جلد ۱۴، شماره ۳، صفحات ۶۵-۸۲


عنوان فارسی	روش جدید متن‌کاوی برای استخراج اطلاعات زمینه کاربر به‌منظور بهبود رتبه‌بندی نتایج موتور جستجو

چکیده فارسی مقاله	یکی از بزرگ‌ترین مشکلات پیشروی موتورهای جستجو، رفع ابهاماتی است که در جستار کاربران وجود دارد. این ابهامات میتواند دلایل متعددی داشته باشد که از جمله آنها تعدد معانی و مفاهیم مرتبط با یک جستار یا کاربردهای مختلف آن جستار است. اگر موتور جستجو نتواند این ابهام را به شکل صحیح برطرف کند، در ارائه نتایج خود به کاربر دچار اختلال و خطا خواهد شد و نیاز کاربر را برطرف نخواهد کرد. این موضوع نقش مهمی در تعیین میزان کارایی موتور جستجو خواهد داشت. در این مقاله هدف آن است تا با جمع‌آوری اطلاعات زمینه کاربر در طول زمان، به تفسیر جستار کاربر کمک کرده و درنتیجه آن رتبه‌بندی نتایج موتور جستجو را بهبود بخشیم. زمینه کاربر به هر اطلاعاتی گفته میشود که به شناخت ویژگیها و خصوصیات کاربر کمک کند. در این مقاله متن صفحات وبی که کاربر از آن‌ها بازدید میکند، مورد پردازش قرار میگیرند تا مفاهیم اصلی و کلیدی آن‌ها استخراج شود. استخراج این مفاهیم (زمینه کاربر) که در سمت کاربر و بر روی سیستم وی اتفاق خواهد افتاد، با افزونهای خواهد بود که به همین منظور تولید و بر روی مرورگر نصب میشود؛ سپس زمینه کاربر، در ساختاری خاص در سمت کاربر و برای هر کاربر به‌صورت خصوصی نگهداری میشوند. هنگامی که جستجویی انجام میشود (با توجه به خلاصهای که موتور جستجو در ازای معرفی هر پیوند ارائه میدهد)، میزان شباهت نتایج موتور جستجو با زمینه کاربر مورد محاسبه قرار گرفته و به‌ازای هر نتیجه میزان شباهت آن با زمینه کاربر محاسبه می‌شود؛ سپس آن نتایجی به کاربر پیشنهاد می‌شوند (در مرورگر پررنگ‌ میشوند) که با زمینه وی تطبیق بیشتری داشته باشند. همان‌طور‌که از نتایج آزمایش‌های پایان مقاله مشهود است، استفاده از زمینه کاربر در رتبه‌بندی نتایج موتور جستجو تاثیر قابل توجهی دارد. بررسیها نشان میدهد که در ارائه 10 نتیجه اول مربوط به 30 جستار دارای ابهام، به طور میانگین روش پیشنهادی 43% و موتور جستجوی گوگل 16% از نتایج خود را مرتبط با مفهوم اصلی جستار مورد نظر ارائه کردهاند.

کلیدواژه‌های فارسی مقاله

عنوان انگلیسی	A Novel Text Mining Method for User Context Extraction to Improve Search Engine Results Ranking

چکیده انگلیسی مقاله	Today, the importance of text processing and its usages is well known among researchers and students. The amount of textual, documental materials increase day by day. So we need useful ways to save them and retrieve information from these materials. For example, search engines such as Google, Yahoo, Bing and etc. need to read so many web documents and retrieve the most similar ones to the user query. In this example, necessity of real time ability should be mentioned. Keyphrase extraction and some other fields like Information extraction, natural language processing, text summarization, query understanding, machine translation, and text similarity are subsets of text processing. So many efforts in text processing have been established, but there are still many open problems, especially in semantically document understanding subjects. Although these subjects seem not to be very hard for humankind but they are very complex and confusing for a computer, because there is no standard structure to save documents so that computers be able to extract semantics and contents. Document understanding and keyphrase extraction are some of the most important text processing goals. Many statistical and linguistic approaches are proposed in order to address these complex goals. Some methods work based on multi documents and some others on single document which all are generally more difficult than multi documents methods. Some methods use learning algorithms with training data and some others do not. Using natural language processing tools or resources -like ontologies- are effective ways to improve results, but these tools are not reliable for all languages. There are some articles for keyphrase extraction based on co-occurrence and also some statistical methods. Moreover, sometimes it is an important feature for a method to make real time outputs. Based on these characteristics, many approaches have been proposed in the literature. In this paper, we present a new approach for keyphrase extraction from a single document. We present a language-independent approach based on combination of statistical information extracted from document and some logical rules named fundamental text rules. In this approach, there is no need to any natural language processing, nor to ontology and nor to any document corpus. We illustrate a real time method to understand each document focuses by extracting its phrases from segmented document without using any learning algorithm. Then, the Score for each phrase is calculated based on its occurrence and its related phrases occurrences. Then, fundamental text rules omit some phrases based on their scores and their places in text. Remained phrases shows the document focuses. Evaluation shows that our approach takes a high recall and precision in key phrase extraction with very good accuracy in text focuses understanding. These keyphrases extracted of a text presents the most important concepts of that text and it is used to retrieve documents in search engines more efficiently.

کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله	جواد داودی مقدم \| دانشگاه صنعتی خواجه نصیرالدین طوسی سازمان اصلی تایید شده: دانشگاه صنعتی خواجه نصیرالدین طوسی (Khajeh nasir toosi university of technology) علی احمدی \| ali ahmadi دانشکده مهندسی کامپیوتر ، دانشگاه صنعتی خواجه نصیرالدین طوسی سازمان اصلی تایید شده: دانشگاه صنعتی خواجه نصیرالدین طوسی (Khajeh nasir toosi university of technology)

نشانی اینترنتی	http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-913-1&slc_lang=fa&sid=fa
فایل مقاله	اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-570066.pdf
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده	مقالات پردازش متن
نوع مقاله منتشر شده	پژوهشی

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 543

بازدید امروز 8712

بازدید کل 39574670

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق