1- دانشگاه صنعتی خواجه نصیرالدین طوسی
چکیده: (1128 مشاهده)
برای سرعت بخشیدن به فرآیند یادگیری در مسائل یادگیری تقویتی با ابعاد بالا، معمولا از ترکیب روشهای TD، مانند یادگیری Q یا سارسا، با مکانیزم آثار شایستگی، استفاده میشود. در الگوریتم شبکه عمیق Q (DQN)، که به تازگی معرفی شده، تلاش شده است که با استفاده از شبکههای عصبی عمیق در یادگیری Q، الگوریتمهای یادگیری تقویتی را قادر سازد که به درک بالاتری از دنیای بصری رسیده و به مسائلی گسترش یابند که در گذشته رامنشدنی تلقی میشدند. DQN که یک الگوریتم یادگیری تقویتی عمیق خوانده میشود، از سرعت یادگیری پایینی برخوردار است. در این مقاله سعی میشود که از مکانیزم آثار شایستگی که یکی از روشهای پایهای در یادگیری تقویتی به حساب میآید، در یادگیری تقویتی در ترکیب با شبکههای عصبی عمیق استفاده شود تا سرعت فرایند یادگیری بهبود بخشیده شود. همچنین برای مقایسه کارایی با الگوریتم DQN، روی تعدادی از بازیهای آتاری 2600، آزمایش انجام شد و نتایج تجربی به دست آمده در آنها نشان میدهند که روش ارائه شده، زمان یادگیری را در مقایسه با الگوریتم DQN، به طرز قابل توجهی کاهش داده و سریعتر به مدل مطلوب همگرا میشود
نوع مطالعه:
پژوهشي |
موضوع مقاله:
عمومى دریافت: 1398/2/23 | پذیرش: 1398/10/19 | انتشار الکترونیک پیش از انتشار نهایی: 1399/7/14 | انتشار: 1398/5/24