این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
پنجشنبه 27 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۹، شماره ۳، صفحات ۱۱۰۹-۱۱۳۷
عنوان فارسی
مجموعه دادهی چند سطحی فارسی برای بازیابی اطلاعات
چکیده فارسی مقاله
یک سامانهی بازیابی اطلاعات وظیفه دارد با دریافت یک پرسش یا پرسه ، اسناد مرتبط با آن پرسه را بازیابی کند؛ که این بازیابی از میان مجموعهای بزرگ از هزاران تا میلیونها سند انجام میشود. در سالهای اخیر، پژوهشهای زیادی برای توسعهی سامانههای بازیابی اطلاعات با استفاده از مدلهای زبان انجام شده است؛ اما در این زمینه، پژوهشی برای زبان فارسی یافت نشد. یکی از علتهای اصلی این امر، وجود نداشتن یک مجموعهدادهی فارسی مناسب برای آموزش مدلهای زبان میباشد. در این پژوهش، ابتدا یک مجموعهدادهی بازیابی اطلاعات فارسی ارائه شده است. پس از آن، روشهایی برای غنیسازی این مجموعهی داده مورد بحث قرار گرفته است. این غنیسازی با کمک چند سطحی کردن ارتباط میان پرسه و سند انجام میشود؛ به نحوی که مجموعهدادهی جدید میتواند رابطه بین پرسه و سند را بجای دو سطح (کاملا نامرتبط – کاملا مرتبط) در چهار سطح (نامرتبط - مرتبط - بسیار مرتبط - کاملا مرتبط) نشان دهد. مجموعهداده ایجاد شده PersianMLIR نام دارد . آزمایشها بیانگر بهبود عملکرد سامانه هم برای زبان فارسی و هم برای زبان انگلیسی است که این میزان بهبود برای زبان فارسی 1.87% میباشد.
کلیدواژههای فارسی مقاله
بازیابی اطلاعات،مدلهای زبان،مجموعه داده بازیابی اطلاعات،مجموعه داده فارسی،
عنوان انگلیسی
Multi-level Persian Dataset for Information Retrieval
چکیده انگلیسی مقاله
An information retrieval system tries to retrieve documents related to a question/query. The retrieval is done from a large collection of documents, and the size of this collection can be from a few thousand documents to millions of documents. In recent years, a lot of research has been done to develop information retrieval systems using language models. However, in this research field, no research has been done for the Persian language. One of its main reasons is the lack of a suitable Persian dataset for training language models. In this research, first, a Persian dataset for information retrieval is presented. After that, methods for enriching this data set are investigated. This enrichment is done by defining multi-level relationships between a document and a question. In this regard, the new dataset can show the relationship between question and document in four levels (unrelated - related - highly related - completely related) instead of two levels (completely unrelated - completely related). The name of the generated dataset is PersianMLIR. Experiments show that by using multi-level relationships, the performance of the system improves for both Persian and English languages, where the improvement is 1.87% for the Persian language.
کلیدواژههای انگلیسی مقاله
بازیابی اطلاعات,مدلهای زبان,مجموعه داده بازیابی اطلاعات,مجموعه داده فارسی
نویسندگان مقاله
علی عابدزاده |
کارشناسی ارشد مهندسی کامپیوتر؛ دانشکده مهندسی کامپیوتر؛ دانشگاه اصفهان.
رضا رمضانی |
دکتری تخصصی مهندسی کامپیوتر دانشیار؛ دانشکده مهندسی کامپیوتر؛ دانشگاه اصفهان.
افسانه فاطمی خوراسگانی |
دکتری تخصصی مهندسی کامپیوتر دانشیار؛ دانشکده مهندسی کامپیوتر؛ دانشگاه اصفهان.
نشانی اینترنتی
https://jipm.irandoc.ac.ir/article_710246_c2050662817e22fc1b81b88be7a9c457.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات