این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
سه شنبه 25 آذر 1404
هوش محاسباتی در مهندسی برق
، جلد ۱۲، شماره ۴، صفحات ۱-۱۲
عنوان فارسی
تبانی ضمنی در بازی های غیر مشارکتی مکرر با استفاده از الگوریتم یادگیری تقویت N گام جلوتر
چکیده فارسی مقاله
در تئوری بازی، راه حل شناخته شده برای به دست آوردن حداکثر سود در بازی های تکرار نشده تا حد ممکن، تعادل نش است. با این حال، در برخی از بازی های غیر مشارکتی مکرر، بازیگران می توانند با تبانی ضمنی به سود بیشتری از تعادل نش برسند. یکی از روشهای دستیابی به سود بیش از تعادل نش در تبانی ضمنی ، یادگیری تقویتی است. با این حال، روش های مبتنی بر یادگیری تقویتی تنها یک مرحله در فرایند یادگیری را در نظر می گیرند. برای دستیابی و بهبود سود از تعادل نش در این بازیها ، می توان بیش از یک مرحله استفاده کرد. در این راستا، الگوریتم N مرحله به جلوبه نام (ForSts) در این مقاله ارائه شده است. ایده اصلی ForSts بهبود عملکرد بازیگران در بازی های غیر مشارکتی با مشاهده آخرین جوایز N مرحله ای است. از آنجا که ForSts در تئوری بازی برای یادگیری تبانی ضمنی استفاده می شود، توسط مسئله زندانیان به صورت مکرر و بازار برق ارزیابی می شود. نتایج نشان می دهد که درمسئله زندانیان به صورت مکرر و بازار برق، بازیگران با استفاده از روش ارائه شده سود بهتری نسبت به نمایش های عامل در تعادل نش به دست می آورند.
کلیدواژههای فارسی مقاله
بازار برق، بازیهای مکرر غیر مشارکتی، تعادل نش، دو راهی زندانیان، مدل کورنات، یادگیری تقویتی،
عنوان انگلیسی
ForSts: Tacit Collusion in the Repeated Non-Cooperative Games Using Forwarding N-Steps Reinforcement Learning Algorithm
چکیده انگلیسی مقاله
In the game theory, the well-known solution to obtain the best profit in non-repeated games as much as possible is the Nash equilibrium. However, in some repeated non-cooperative games, agents can achieve more profit than the Nash equilibrium by tacit collusion. One of the methods to achieve profit more than Nash equilibriums in tacit collusion is reinforcement learning. However, reinforcement learning-based methods consider only one step in the learning process. To achieve and improve profit in these games, more than one step can be used. In this regard, a learning-based forwarding N-steps algorithm called Forwarding Steps (ForSts) is proposed in this paper. The main idea behind ForSts is to improve the performance of agents in non-cooperative games by observing the last N-step rewards. As ForSts is used in the game theory to learn tacit collusion, it is evaluated by the iterated prisoner’s dilemma and the Cournot market. Prisoner’s Dilemma is an example of a traditional game. The results show that in the iterated prisoner’s dilemma, the agents using ForSts achieve better profit than the agents playing in the Nash equilibrium. Also, in the Cournot electricity market, sum of the profit of agents using ForSts is 3.614% more than the sum of profit of agents` playing in the Nash equilibrium.
کلیدواژههای انگلیسی مقاله
بازار برق, بازیهای مکرر غیر مشارکتی, تعادل نش, دو راهی زندانیان, مدل کورنات, یادگیری تقویتی
نویسندگان مقاله
امین گلزاری هرمزی |
دانشکده مهندسی کامپیوتر - دانشگاه خواجه نصیرالدین طوسی - تهران - ایران
سید حسین خواسته |
دانشکده مهندسی کامپیوتر - دانشگاه خواجه نصیرالدین طوسی - تهران- ایران
امیرحسین نیکوفرد |
دانشکده برق، دانشگاه خواجه نصیرالدین طوسی، تهران، ایران
زهرا شیرمحمدی |
دانشکده مهندسی کامپیوتر - دانشگاه شهید رجایی - تهران- ایران
نشانی اینترنتی
https://isee.ui.ac.ir/article_25732_0603af87c20e0b32da349e9ba2c8efb2.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات