Journal of Control

fa یادگیری تکرار سیاست حداقل مربعات عصبی با معماری نقاد- تنها Neural Least Square Policy Iteration learning with Critic-only architecture تخصصي Special پژوهشي Research paper <div style="text-align: justify;">کنترل هوشمند مسائل کنترلی واقعی بر پایه یادگیری تقویتی اغلب نیاز به تصمیم گیری در فضای حالت– عمل بزرگ و یا پیوسته دارد. از آنجا که تعداد پارامترهای قابل تنظیم در یادگیری تقویتی گسسته، رابطه مستقیمی با عدد اصلی فضای متغیرهای حالت– عمل مسأله دارد، لذا در چنین مسائلی مشکل تنگنای ابعاد، سرعت کم یادگیری و راندمان پایین وجود دارد. استفاده از روشهای آموزش تقویتی پیوسته برای حل این مشکلات مورد توجه محققان است. در همین راستا، در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد– تنها برای حل مسائل کنترلی معرفی میگردد. روش ارائه شده یک روش مستقل از مدل و نرخ یادگیری است و از ترکیب روش "تکرار سیاست کمترین مربعات" (LSPI) با شبکه توابع پایه شعاعی (RBF) به عنوان یک تقریب زننده ی تابعی حاصل شده است. الگوریتم پیشنهادی "تکرار سیاست کمترین مربعات عصبی" (NLSPI) نامیده می شود. در این روش، با استفاده از توابع پایه تعریف شده در ساختار شبکه عصبی RBF، راهکاری برای رفع چالشِ تعریف توابع پایه حالت- عمل در LSPI ارائه شده است. ورودی های شبکه جفت حالت و عمل های مسأله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. هدف، به روز رسانی برخط وزن های شبکه عصبی با استفاده از روش ارائه شده به صورتی است که بهترین تقریب از تابع ارزش عمل صورت گیرد. به منظور اعتبارسنجی روش ارائه شده، عملکرد الگوریتم پیشنهادی در مورد حل دو مسأله کنترلی با روش های دیگر مقایسه شده است. نتایج بدست آمده، برتری روش در یادگیری سیاست شبه بهینه را بخوبی نشان می دهد.</div> <div style="text-align: justify;">Intelligent control of real control problems based on reinforcement learning often requires decision-making in a large or continuous state-action space. Since the number of adjustable parameters in discrete reinforcement learning has a direct relationship with cardinality of the state-action space of the problem, so in such problems, we are faced with the curse of dimensiality, low learning speed and low efficiency. The use of continuous reinforcement learning methods to overcome these problems have attracted many research interests. In this paper a novel Neural Reinforcement Learning (NRL) scheme is proposed. The presented method is model free and learning rate independent, and is obtained by combining Least Squares Policy Iteration (LSPI) with Radial Basis Functions (RBF) as a function approximator, and we call it "Neural Least Squares Policy Iteration" (NLSPI). In this method, by using the basis functions defined in the RBF neural network structure, we have provided a solution to solve the challenge of defining the state-action basis functions in LSPI. In order to validate the presented method, the performance of the proposed algorithm in solving two control problems has been compared with other methods. The overall results show the superiority of our method in learning the pseudo-optimal policy.</div> یادگیری تقویتی عصبی, معماری نقاد- تنها, تکرار سیاست کمترین مربعات, شبکه توابع پایه شعاعی Neural reinforcement learning, Critic-only architecture, Least Square Policy Iteration, RBF network. 61 76 http://joc.kntu.ac.ir/browse.php?a_code=A-10-566-3&slc_lang=fa&sid=1 Omid Mehrabi امید محرابی o.mehrabi62@gmail.com 10031947532846009308 10031947532846009308 No Islamic Azad University واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران Ahmad Fakharian احمد فخاریان ahmad.fakharian@qiau.ac.ir 10031947532846009309 10031947532846009309 Yes Islamic Azad University گروه مهندسی برق، واحد قزوین، دانشگاه آزاد اسلامی، قزوین، ایران Mehdi Siahi مهدی سیاهی mehdi_siahi@yahoo.com 10031947532846009310 10031947532846009310 No Islamic Azad University دانشکده مهندسی برق و کامپیوتر، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران Amin Ramezani امین رمضانی ramezani@modares.ac.ir 10031947532846009311 10031947532846009311 No Tarbiat Modares University دانشکده مهندسی برق و کامپیوتر، دانشگاه تربیت مدرس، تهران، ایران