Journal of Control

fa یک روش ترکیبی جدید یادگیری تقویتی فازی A Novel approach in Fuzzy Reinforcement Learning تخصصي Special پژوهشي Research paper در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه می‌شود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، یافتن مناسب‌ترین عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و عمل‌های نامزد مربوط به قواعد، توابع پایه حالت –عمل به گونه‌ای تعریف شده‌اند که شرایط قضایای روش تکرار سیاست کمترین مربعات را برآورده می‌نمایند. با استفاده از توابع پایه حالت- عمل تعریف شده و بهره‌گیری از الگوریتم تکرار سیاست کمترین مربعات، یک روش جدید برای تازه‌سازی پارامترهای وزن تالی قواعد ارائه می‌شود. تحلیل ریاضی که برای این الگوریتم آورده می‌شود، کران خطایی برای اختلاف تابع مقدار ارزش حالت-عمل واقعی و تخمین تابع ارزش حالت-عمل حاصل از الگوریتم ارائه شده، تعریف می‌کند. نتایج شبیه‌سازی در مساله معروف قایق، حاکی از سرعت آموزش بالاتر و نیز کیفیت عملکرد بهترِ روش پیشنهادی نسبت به دو روش یادگیری کیوی فازی و یادگیری سارسای فازی است. از مزایای دیگر روش ارائه شده، عدم نیاز به تعیین نرخ آموزش است. In this paper, we present a novel continuous reinforcement learning approach. The proposed approach, called "Fuzzy Least Squares Policy Iteration (FLSPI)", is obtained from combination of "Least Squares Policy Iteration (LSPI)" and a zero order Takagi Sugeno fuzzy system. We define state-action basis function based on fuzzy system so that LSPI conditions are satisfied. It is proven that there is an error bound for difference of the exact state-action value function and approximated state-action value function obtained by FLSPI. Simulation results show that learning speed and operation quality for FLSPI are higher than two previous critic-only fuzzy reinforcement learning approaches i.e. fuzzy Q-learning and fuzzy Sarsa learning. Another advantage of this approach is needlessness to learning rate determination. یادگیری تقویتی, تکرار سیاست کمترین مربعات , تقریب تابع ارزش حالت-عمل, سیستم فازی Reinforcement learning, least square policy iteration, state-action function approximation, fuzzy system 11 20 http://joc.kntu.ac.ir/browse.php?a_code=A-10-91-1&slc_lang=fa&sid=1 farzaneh Ghorbani فرزانه قربانی f.ghorbani@stu.yazd.ac.ir 1003194753284600663 1003194753284600663 No Yazd University دانشگاه یزد Vali Derhami ولی درهمی vderhami@yazd.ac.ir 1003194753284600664 1003194753284600664 Yes Yazd University دانشگاه یزد Hossein NezamAbadi pour حسین نظام آبادی پور nezam@uk.ac.ir 1003194753284600665 1003194753284600665 No university of Kerman دانشگاه باهنر کرمان