<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Journal of Control</title>
<title_fa>مجله کنترل</title_fa>
<short_title>JoC</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://joc.kntu.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2008-8345</journal_id_issn>
<journal_id_issn_online>2538-3752</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61186/joc</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid></journal_id_sid>
<journal_id_nlai></journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1393</year>
	<month>12</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2015</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<volume>8</volume>
<number>4</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی</title_fa>
	<title>Distributed Optimal Control of Nonlinear Differential Graphical Games based on Reinforcement Learning</title>
	<subject_fa>تخصصي</subject_fa>
	<subject>Special</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research paper</content_type>
	<abstract_fa>این مقاله به معرفی بازی های گرافی  دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی را به صورت برخط انجام می دهد. در این الگوریتم که بر مبنای یادگیری تقویتی طراحی شده، هر یک از بازیکنان از ساختار شبکه عصبی نقاد-کنترلر استفاده می کند و تنظیم وزن های شبکه های عصبی نقاد و کنترلر به صورت همزمان انجام می شود. در حالی که تمام شبکه های عصبی نقاد-کنترلر در حال یادگیری هستند، پایداری حلقه بسته و همگرایی به قوانین کنترل بهینه تضمین می گردد. در انتها، نتایج به دست آمده از شبیه سازی، عملکرد و صحت الگوریتم پیشنهادی را نشان می دهد.</abstract_fa>
	<abstract>This paper introduces continuous time nonlinear differential graphical games and proposes an online distributed optimal control algorithm to solve them. In differential graphical games, each agent error dynamics and performance index depend on its neighbors’ information. The proposed online distributed policy iteration algorithm solves the cooperative coupled Hamilton-Jacobi equations. In this algorithm which is based on reinforcement learning, each agent uses an actor-critic neural network structure where the weights of these neural networks are tuned synchronously. While all actor-critic networks are learning, closed loop stability and convergence to optimal control laws are guaranteed. Finally simulation results demonstrate the validity and performance of the proposed algorithm.</abstract>
	<keyword_fa>بازی های گرافی دیفرانسیلی غیرخطی, شبکه های عصبی, کنترل بهینه, یادگیری تقویتی</keyword_fa>
	<keyword>Artificial neural networks, Nonlinear differential graphical games, Optimal control, Reinforcement learning.</keyword>
	<start_page>15</start_page>
	<end_page>30</end_page>
	<web_url>http://joc.kntu.ac.ir/browse.php?a_code=A-10-178-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Farzaneh</first_name>
	<middle_name></middle_name>
	<last_name>Tatari</last_name>
	<suffix></suffix>
	<first_name_fa>فرزانه</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>تاتاری</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>fa_tatari@yahoo.com</email>
	<code>10031947532846001166</code>
	<orcid>10031947532846001166</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Ferdowsi university of Mashhad</affiliation>
	<affiliation_fa>دانشگاه فردوسی مشهد</affiliation_fa>
	 </author>


	<author>
	<first_name>Mohammad-B</first_name>
	<middle_name></middle_name>
	<last_name>Naghibi-S</last_name>
	<suffix></suffix>
	<first_name_fa>محمد باقر</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>نقیبی سیستانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mb-naghibi@um.ac.ir</email>
	<code>10031947532846001167</code>
	<orcid>10031947532846001167</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Ferdowsi university of Mashhad</affiliation>
	<affiliation_fa>دانشگاه فردوسی مشهد</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
