در این مقاله، یک روش عددی برای حل مساله کنترل بهینه تصادفی با استفاده از زنجیرهای مارکوف ارائه شدهاست. بدین ترتیب که، ابتدا فرایند پخش کنترلی وضعیت سیستم با استفاده از یک زنجیر مارکوف کنترلی روی یک فضای وضعیت متناهی تقریب زده میشود. سپس تقریبی از تابع هزینه اولیه با استفاده از این زنجیر مارکوف تقریبی، بهدست میآید. برای اثبات همگرایی روش و یافتن یک زنجیر مارکوف تقریبی مناسب برای فرایند پخش، باید دو معیار مورد بررسی قرار گیرد. به عبارتی باید امید ریاضی و کوواریانس شرطی تغییرات وضعیت زنجیر مارکوف با میانگین و کوواریانس موضعی فرایند پخش اولیه متناسب باشند. با استفاده از تقریبات تفاضلات متناهی میتوان احتمالات انتقال و بازههای زمانی تغییر وضعیت زنجیر مارکوف را به گونهای تعیین کرد که زنجیر مارکوف در دو ویژگی سازگاری موضعی فوق صدق کند. در ادامه معادله برنامهریزی پویا با زنجیر مارکوفی که بدین ترتیب بهدست آمده و دارای این ویژگیهای میباشد، تقریب زده میشود. نهایتاً، با میل دادن پارامتر گسسته سازی زنجیر مارکوف به صفر، مشاهده میشود که جواب مسئله کنترل تصادفی تقریبی زنجیر مارکوف، به جواب مسئله کنترل بهینه تصادفی اولیه همگرا میباشد. در پایان یک الگوریتم تکراری برای حل مساله کنترل بهینه تصادفی پیشنهاد شده و از آن برای حل یک مثال استفاده شده است.
بازنشر اطلاعات | |
این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است. |