Journal of Control

fa کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی Distributed Optimal Control of Nonlinear Differential Graphical Games based on Reinforcement Learning تخصصي Special پژوهشي Research paper این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی را به صورت برخط انجام می دهد. در این الگوریتم که بر مبنای یادگیری تقویتی طراحی شده، هر یک از بازیکنان از ساختار شبکه عصبی نقاد-کنترلر استفاده می کند و تنظیم وزن های شبکه های عصبی نقاد و کنترلر به صورت همزمان انجام می شود. در حالی که تمام شبکه های عصبی نقاد-کنترلر در حال یادگیری هستند، پایداری حلقه بسته و همگرایی به قوانین کنترل بهینه تضمین می گردد. در انتها، نتایج به دست آمده از شبیه سازی، عملکرد و صحت الگوریتم پیشنهادی را نشان می دهد. This paper introduces continuous time nonlinear differential graphical games and proposes an online distributed optimal control algorithm to solve them. In differential graphical games, each agent error dynamics and performance index depend on its neighbors’ information. The proposed online distributed policy iteration algorithm solves the cooperative coupled Hamilton-Jacobi equations. In this algorithm which is based on reinforcement learning, each agent uses an actor-critic neural network structure where the weights of these neural networks are tuned synchronously. While all actor-critic networks are learning, closed loop stability and convergence to optimal control laws are guaranteed. Finally simulation results demonstrate the validity and performance of the proposed algorithm. بازی های گرافی دیفرانسیلی غیرخطی, شبکه های عصبی, کنترل بهینه, یادگیری تقویتی Artificial neural networks, Nonlinear differential graphical games, Optimal control, Reinforcement learning. 15 30 http://joc.kntu.ac.ir/browse.php?a_code=A-10-178-1&slc_lang=fa&sid=1 Farzaneh Tatari فرزانه تاتاری fa_tatari@yahoo.com 10031947532846001166 10031947532846001166 Yes Ferdowsi university of Mashhad دانشگاه فردوسی مشهد Mohammad-B Naghibi-S محمد باقر نقیبی سیستانی mb-naghibi@um.ac.ir 10031947532846001167 10031947532846001167 No Ferdowsi university of Mashhad دانشگاه فردوسی مشهد