1- دانشگاه یزد
2- دانشگاه صنعتی اصفهان
چکیده: (894 مشاهده)
این مقاله روشی جدید در استفاده از دادههای جمع آوری شده از حرکت تصادفی عامل در محیط برای تنظیم اولیهی پارامترهای یک کنترلگر با ساختار یادگیری تقویتی فازی ارائه میدهد. کندی سرعت آموزش و تعداد شکست بالا در زمان آموزش دو چالش مهم در این قبیل ساختارها هستند. مقداردهی اولیهی پارامترهای سیستم فازی میتواند راهکار مناسبی برای رفع این چالشها باشد. در این مقاله با تعمیم روش تکرار ارزش گسسته به پیوسته بدون بهرهگیری از روشهای مبتنی بر مشتق، پارامترهای سیستم فازی مقدار دهی اولیه میشوند. ابتدا با تعامل تصادفی عامل با محیط دادههای مرتبط جمعآوری میشود. با توجه به آنکه فضای حالت پیوسته است، دادهها به طور مناسب خوشه بندی شده و هر خوشه به عنوان یک حالت لحاظ میگردد. آنگاه با تعمیم روش تکرار ارزش استاندارد به پیوسته ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه میشود. با استفاده از نتایج این مرحله پارامترهای ساختار یادگیری تقویتی فازی مقدار دهی اولیه میشوند. پس آز آن پارامترهای این ساختار به صورت برخط با روش یادگیری تقویتی تنظیم نهایی میگردند. روش ارایه شده "یادگیری تقویتی فازی مبتنی بر تکرار ارزش" نامیده میشود و در مسئلهی ربات تعقیب کنندهی هدف مورد استفاده قرار میگیرد. نتایج آزمایشها حاکی از بهبود قابل توجه عملکرد روش ارائه شده در مسئلهی ربات تعقیب کنندهی هدف است.
این مقاله روشی جدید در استفاده از دادههای جمع آوری شده از حرکت تصادفی عامل در محیط برای تنظیم اولیهی پارامترهای یک کنترلگر با ساختار یادگیری تقویتی فازی ارائه میدهد. کندی سرعت آموزش و تعداد شکست بالا در زمان آموزش دو چالش مهم در این قبیل ساختارها هستند. مقداردهی اولیهی پارامترهای سیستم فازی میتواند راهکار مناسبی برای رفع این چالشها باشد. در این مقاله با تعمیم روش تکرار ارزش گسسته به پیوسته بدون بهرهگیری از روشهای مبتنی بر مشتق، پارامترهای سیستم فازی مقدار دهی اولیه میشوند. ابتدا با تعامل تصادفی عامل با محیط دادههای مرتبط جمعآوری میشود. با توجه به آنکه فضای حالت پیوسته است، دادهها به طور مناسب خوشه بندی شده و هر خوشه به عنوان یک حالت لحاظ میگردد. آنگاه با تعمیم روش تکرار ارزش استاندارد به پیوسته ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه میشود. با استفاده از نتایج این مرحله پارامترهای ساختار یادگیری تقویتی فازی مقدار دهی اولیه میشوند. پس آز آن پارامترهای این ساختار به صورت برخط با روش یادگیری تقویتی تنظیم نهایی میگردند. روش ارایه شده "یادگیری تقویتی فازی مبتنی بر تکرار ارزش" نامیده میشود و در مسئلهی ربات تعقیب کنندهی هدف مورد استفاده قرار میگیرد. نتایج آزمایشها حاکی از بهبود قابل توجه عملکرد روش ارائه شده در مسئلهی ربات تعقیب کنندهی هدف است.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
تخصصي دریافت: 1402/9/10 | پذیرش: 1403/3/27 | انتشار الکترونیک پیش از انتشار نهایی: 1403/5/7