مقالات پذیرفته شده                   برگشت به فهرست مقالات | برگشت به فهرست نسخه ها

XML English Abstract Print


1- دانشگاه صنعتی خواجه نصیرالدین طوسی
چکیده:   (232 مشاهده)
برای سرعت بخشیدن به فرآیند یادگیری در مسائل یادگیری تقویتی با ابعاد بالا، معمولا از ترکیب روش­های TD، مانند یادگیری Q یا سارسا، با مکانیزم آثار شایستگی، استفاده می­شود. در الگوریتم شبکه عمیق Q (DQN)، که به تازگی معرفی شده، تلاش شده است که با استفاده از شبکه­های عصبی عمیق در یادگیری Q، الگوریتم­های یادگیری تقویتی را قادر سازد که به درک بالاتری از دنیای بصری رسیده و به مسائلی گسترش یابند که در گذشته رام­نشدنی تلقی می­شدند. DQN که یک الگوریتم یادگیری تقویتی عمیق خوانده می­شود، از سرعت یادگیری پایینی برخوردار است. در این مقاله سعی می­شود که از مکانیزم آثار شایستگی که یکی از روش­های پایه­ای در یادگیری تقویتی به حساب می­آید، در یادگیری تقویتی در ترکیب با شبکه­های عصبی عمیق استفاده شود تا سرعت فرایند یادگیری بهبود بخشیده شود. همچنین برای مقایسه کارایی با الگوریتم DQN، روی تعدادی از بازی­های آتاری 2600، آزمایش انجام شد و نتایج تجربی به دست آمده در آنها نشان می­دهند که روش ارائه شده، زمان یادگیری را در مقایسه با الگوریتم DQN، به طرز قابل توجهی کاهش داده و سریعتر به مدل مطلوب همگرا می­شود
     
نوع مطالعه: پژوهشي | موضوع مقاله: عمومى
دریافت: ۱۳۹۸/۲/۲۳ | پذیرش: ۱۳۹۸/۱۰/۱۹

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


کلیه حقوق این وب سایت متعلق به مجله کنترل می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2020 All Rights Reserved | Journal of Control

Designed & Developed by : Yektaweb