این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
رایانش نرم و فناوری اطلاعات، جلد ۶، شماره ۲، صفحات ۱-۱۲

عنوان فارسی ارائه یک مدل جدید از فاصله بین کلمات پرس و جو براساس حداقل جابجایی
چکیده فارسی مقاله براساس تحقیقات انجام شده روی موتورهای جستجو،‌ اکثر پرس‌وجوهای کاربران بیش از یک کلمه می‌باشد. برای پرس‌وجوها با بیش از یک کلمه دو مدل می‌توان ارائه کرد. در مدل اول فرض می‌شود کلمات پرس‌وجو مستقل از یکدیگر هستند و در مدل دوم محل و ترتیب کلمات وابسته فرض می‌شود. آزمایش‌ها نشان می‌دهد که در اکثر پرس‌وجوها بین کلمات وابستگی وجود دارد. یکی از پارامترهایی که می‌تواند وابستگی بین کلمات پرس‌وجو را مشخص کند فاصله‌ی بین کلمات پرس‌وجو در سند است. در این مقاله تعریف جدیدی از فاصله براساس حداقل جابجایی کلمات سند به‌منظور تطبیق بر پرس‌وجو ارائه می‌گردد. همچنین با توجه به این‌که اکثر الگوریتم‌های رتبه‌بندی از فرکانس رخداد یک کلمه در سند (Term Frequency) برای امتیازدهی به اسناد استفاده می‌کنند و برای پرس‌وجو با بیش از یک کلمه تعریف روشنی از این پارامتر وجود ندارد؛ در این مقاله پارامترهای  ‌فرکانس رخداد یک عبارت (Phrase Frequency) و معکوس فرکانس سند (Inverted Document Frequency) با توجه به مفهوم جدید فاصله تعریف شده است و الگوریتم‌هایی برای محاسبه آن‌ها ارائه ‌گردیده است. همچنین نتایج الگوریتم پیشنهادی با الگوریتم پیاده‌سازی شده توسط نمایه‌ساز متن‌باز لوسین مقایسه شده است که افزایش خوبی را در میانگین دقت نشان می‌دهد.
کلیدواژه‌های فارسی مقاله موتور جستجو، رتبه‌بندی، فاصله، وابستگی کلمات،

عنوان انگلیسی Providing a new model for the distance between query words based on the minimal displacement
چکیده انگلیسی مقاله Based on the researches performed on search engines, most user queries contain more than one word. For queries with more than one word, two models can be presented. In the first model, query words are assumed to be independent of each other, and in the second model, the place and the order of words are assumed to be dependent. Experiments show that there are dependencies among most query words. One of the parameters that can determine the dependency between query words is the distance between the query words in the document. In this paper, a new distance definition based on the minimum displacement of the document words in order to match the query is presented. Also, given that most ranking algorithms use the word frequency in the documents (Term Frequency) to score the documents and since there is no clear definition for this parameter for queries with more than one word; in this paper, the frequency of the occurrence of a phrase (Phrase Frequency) and Inverted Document Frequency are defined according to the new concept of distance and the proper algorithms are presented to calculate them. Also, the results of the proposed algorithm are compared with the algorithm implemented by the open source Lucene indexer, which shows a good increase in the mean accuracy.
کلیدواژه‌های انگلیسی مقاله Search engine, Ranking, Distance, Proximity

نویسندگان مقاله جواد پاک سیما |
گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور، ایران

علی‌محمد زارع بیدکی |
دانشکده برق و کامپیوتر، دانشگاه یزد، یزد، ایران

ولی درهمی |
دانشکده برق و کامپیوتر، دانشگاه یزد، یزد، ایران


نشانی اینترنتی http://jscit.nit.ac.ir/article_61694_ebd00b96e5351c0e63c6daaa4f36e9ef.pdf
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/834/article-834-818152.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات