Journal of Control

fa افزایش سرعت فرایند یادگیری DQN با مکانیزم آثار شایستگی Increase the speed of the DQN learning process with the Eligibility Traces عمومى General پژوهشي Research paper <div style="text-align: justify;">برای سرعت بخشیدن به فرآیند یادگیری در مسائل یادگیری تقویتی با ابعاد بالا، معمولا از ترکیب روش‌های TD، مانند یادگیری Q یا سارسا، با مکانیزم آثار شایستگی، استفاده می‌شود. در الگوریتم شبکه عمیق Q (DQN)، که به تازگی معرفی شده، تلاش شده است که با استفاده از شبکه‌های عصبی عمیق در یادگیری Q، الگوریتم‌های یادگیری تقویتی را قادر سازد که به درک بالاتری از دنیای بصری رسیده و به مسائلی گسترش یابند که در گذشته رام‌نشدنی تلقی می‌شدند. DQN که یک الگوریتم یادگیری تقویتی عمیق خوانده می‌شود، از سرعت یادگیری پایینی برخوردار است. در این مقاله سعی می‌شود که از مکانیزم آثار شایستگی که یکی از روش‌های پایه‌ای در یادگیری تقویتی به حساب می‌آید، در یادگیری تقویتی در ترکیب با شبکه‌های عصبی عمیق استفاده شود تا سرعت فرایند یادگیری بهبود بخشیده شود. همچنین برای مقایسه کارایی با الگوریتم DQN، روی تعدادی از بازی‌های آتاری 2600، آزمایش انجام شد و نتایج تجربی به دست آمده در آنها نشان می‌دهند که روش ارائه شده، زمان یادگیری را در مقایسه با الگوریتم DQN، به طرز قابل توجهی کاهش داده و سریعتر به مدل مطلوب همگرا می‌شود.</div> <div style="text-align: justify;">To accelerate the learning process in high-dimensional learning problems, the combination of TD techniques, such as Q-learning or SARSA, is usually used with the mechanism of Eligibility Traces. In the newly introduced DQN algorithm, it has been attempted to using deep neural networks in Q learning, to enable reinforcement learning algorithms to reach a greater understanding of the visual world and to address issues Spread in the past that was considered unbreakable. DQN, which is called a deep reinforcement learning algorithm, has a low learning speed. In this paper, we try to use the mechanism of Eligibility Traces, which is one of the basic methods in reinforcement learning, in combination with deep neural networks to improve the learning process speed. Also, for comparing the efficiency with the DQN algorithm, a number of Atari 2600 games were tested and the experimental results obtained showed that the proposed method significantly reduced learning time compared to the DQN algorithm and converges faster to the optimal model.</div> شبکه‌های عصبی عمیق, Deep Q Network (DQN), آثار شایستگی, یادگیری تقویتی عمیق. Deep Neural Networks, Deep Q Networks (DQN), Eligibility Traces, Deep Reinforcement Learning. 13 23 http://joc.kntu.ac.ir/browse.php?a_code=A-10-181-1&slc_lang=fa&sid=1 Seyed Ali Khoshroo سید علی خوشرو alimsi@gmail.com 10031947532846008166 10031947532846008166 No K. N. Toosi University of Technology گروه هوش مصنوعی،دانشکده برق و کامپیوتر، دانشگاه صنعتی خواجه نصیرالدین طوسی،تهران، ایران Seyed Hossein Khasteh سید حسین خواسته khasteh@kntu.ac.ir 10031947532846008167 10031947532846008167 Yes K. N. Toosi University of Technology گروه هوش مصنوعی،دانشکده برق و کامپیوتر، دانشگاه صنعتی خواجه نصیرالدین طوسی،تهران، ایران