[صفحه اصلی ]   [Archive] [ English ]  
:: صفحه اصلي :: درباره نشريه :: آخرين شماره :: تمام شماره‌ها :: جستجو :: ثبت نام :: ارسال مقاله :: تماس با ما ::
:: دوره 5، شماره 1 - ( مجله کنترل، جلد 5، شماره 1، بهار 1390 ) ::
جلد 5 شماره 1,1390 صفحات 50-63 برگشت به فهرست نسخه ها
تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی
دکتر ولی درهمی* 1، آقای امید محرابی
1- استادیار دانشگاه یزد
چکیده:   (6452 مشاهده)
مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرفی میگردد. الگوریتم مذکور از ترکیب الگوریتم یادگیری سارسا با شبکه عصبیRBF به عنوان یک تقریب زننده ی تابعی حاصل شده است و ما آن را "یادگیری سارسای عصبی" (NSL) می نامیم. ورودی های شبکه جفت حالت و عمل های مسأله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. وزن های شبکه به صورت بر خط با توجه به الگوریتم ارائه شده تنظیم میگردند. به عنوان یک شرط لازم همگرایی ما همچنین وجود نقاط ایستای منطبق بر نقاط ثابت الگوریتم "تکرار تقریب ارزش عمل" برای NSLرا اثبات می نماییم. نتایج شبیه سازی ارائه شده در مورد مسائل خودرو در کوهستان و آکروبات حاکی از عملکرد مناسب تر روش ارائه شده از لحاظ سرعت آموزش و کیفیت عملکرد میباشد.
واژه‌های کلیدی: یادگیری تقویتی عصبی، معماری نقاد-تنها، شبکه عصبی RBF، یادگیری سارسا، نقاط ایستا
متن کامل [PDF 538 kb]   (976 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: تخصصي
دریافت: ۱۳۹۳/۳/۲۶ | پذیرش: ۱۳۹۳/۳/۲۶ | انتشار: ۱۳۹۳/۳/۲۶
ارسال پیام به نویسنده مسئول

ارسال نظر درباره این مقاله
نام کاربری یا پست الکترونیک شما:

کد امنیتی را در کادر بنویسید >


XML   English Abstract   Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Derhami V, Mehrabi O. Action Value Function Approximation Based on Radial Basis Function Network for Reinforcement Learning. JoC. 2011; 5 (1) :50-63
URL: http://joc.kntu.ac.ir/article-1-95-fa.html

درهمی ولی، محرابی امید. تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی. مجله کنترل. 1390; 5 (1) :50-63

URL: http://joc.kntu.ac.ir/article-1-95-fa.html



دوره 5، شماره 1 - ( مجله کنترل، جلد 5، شماره 1، بهار 1390 ) برگشت به فهرست نسخه ها
مجله کنترل Journal of Control
Persian site map - English site map - Created in 0.06 seconds with 31 queries by YEKTAWEB 3708