<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Journal of Control</title>
<title_fa>مجله کنترل</title_fa>
<short_title>JoC</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://joc.kntu.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2008-8345</journal_id_issn>
<journal_id_issn_online>2538-3752</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61186/joc</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid></journal_id_sid>
<journal_id_nlai></journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1397</year>
	<month>3</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2018</year>
	<month>6</month>
	<day>1</day>
</pubdate>
<volume>12</volume>
<number>2</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>حل زیربهینه بازی های گرافی دیفرانسیلی غیر خطی با استفاده از برنامه ریزی پویای تقریبی تک-شبکه</title_fa>
	<title>Suboptimal Solution of Nonlinear Graphical Games Using Single Network Approximate Dynamic Programming </title>
	<subject_fa>تخصصي</subject_fa>
	<subject>Special</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research paper</content_type>
	<abstract_fa>&lt;p dir=&quot;RTL&quot; style=&quot;text-align: justify;&quot;&gt;در ایﻦ ﻣﻘﺎﻟﻪ یﮏ اﻟﮕﻮریﺘﻢ یﺎدﮔﯿﺮی ﺑﺮﺧﻂ ﺑﺮﻣﺒﻨﺎی ﺑﺮﻧﺎﻣﻪ ریﺰی ﭘﻮیﺎی ﺗﻘﺮیﺒﯽ ﺗﮏ-ﺷﺒﮑﻪ ﺑﺮای ﺣﻞ ﺗﻘﺮیﺒﯽ ﺑﺎزی ﻫﺎی ﮔﺮاﻓﯽ دیﻔﺮاﻧﺴﯿﻠﯽ زﻣﺎن ﭘﯿﻮﺳﺘﻪ ﻏﯿﺮﺧﻄﯽ ﺑﺎ ﺗﺎﺑﻊ ﻫﺰیﻨﻪ زﻣﺎن ﻧﺎﻣﺤﺪود و دیﻨﺎﻣﯿﮏ ﻣﻌﯿﻦ ﭘﯿﺸﻨﻬﺎد ﺷﺪه اﺳﺖ. در ﺑﺎزی ﻫﺎی ﮔﺮاﻓﯽ دیﻔﺮاﻧﺴﯿﻠﯽ، ﻫﺪف ﻋﺎﻣﻞ ﻫﺎ ردیﺎﺑﯽ ﺣﺎﻟﺖ رﻫﺒﺮ ﺑﻪ ﺻﻮرت ﺑﻬﯿﻨﻪ ﻣﯽ ﺑﺎﺷﺪ، ﺑﻪ ﻃﻮری ﮐﻪ دیﻨﺎﻣﯿﮏ ﺧﻄﺎ و اﻧﺪیﺲ ﻋﻤﻠﮑﺮد ﻫﺮ ﻋﺎﻣﻞ ﺑﺴﺘﮕﯽ ﺑﻪ ﺗﻮﭘﻮﻟﻮژی ﮔﺮاف ﺗﻌﺎﻣﻠﯽ ﺑﺎزی دارد. در اﻟﮕﻮریﺘﻢ ﭘﯿﺸﻨﻬﺎدی، ﻫﺮ ﻋﺎﻣﻞ ﺗﻨﻬﺎ از یﮏ ﺷﺒﮑﻪ ﻋﺼﺒﯽ ﻧﻘﺎد ﺑﺮای ﺗﻘﺮیﺐ ارزش و ﺳﯿﺎﺳﺖ ﮐﻨﺘﺮﻟﯽ ﺑﻬﯿﻨﻪ ﺧﻮد اﺳﺘﻔﺎده ﻣﯽ ﮐﻨﺪ و از ﻗﻮاﻧﯿﻦ ﺗﻨﻈﯿﻢ وزن ﭘﯿﺸﻨﻬﺎد ﺷﺪه ﺑﺮای ﺑﻪ روزرﺳﺎﻧﯽ ﺑﺮﺧﻂ وزن ﻫﺎی ﺷﺒﮑﻪ ﻋﺼﺒﯽ ﻧﻘﺎد ﺧﻮد ﺑﻬﺮه ﻣﯽ ﺟﻮیﺪ. در ایﻦ ﻣﻘﺎﻟﻪ، ﺑﺎ ﻣﻌﺮﻓﯽ ﺳﻮﺋﯿﭻ ﻫﺎی ﭘﺎیﺪار ﺳﺎز ﻣﺤﻠﯽ در ﻗﻮاﻧﯿﻦ ﺗﻨﻈﯿﻢ وزن ﻫﺎی ﺷﺒﮑﻪ ﻋﺼﺒﯽ ﮐﻪ ﭘﺎیﺪاری ﺳﯿﺴﺘﻢ ﺣﻠﻘﻪ ﺑﺴﺘﻪ و ﻫﻤﮕﺮایﯽ ﺑﻪ ﺳﯿﺎﺳﺖ ﻫﺎی ﺗﻌﺎدل ﻧﺶ را ﺗﻀﻤﯿﻦ ﻣﯽ ﮐﻨﻨﺪ، دیﮕﺮ ﻧﯿﺎزی ﺑﻪ ﻣﺠﻤﻮﻋﻪ ﺳﯿﺎﺳﺖ ﻫﺎی ﮐﻨﺘﺮﻟﯽ ﭘﺎیﺪار ﺳﺎز اوﻟﯿﻪ وﺟﻮد ﻧﺪارد. ﺑﻌﻼوه در ایﻦ ﻣﻘﺎﻟﻪ از ﺗﺌﻮری ﻟﯿﺎﭘﺎﻧﻮف ﺑﺮای اﺛﺒﺎت ﭘﺎیﺪاری ﺳﯿﺴﺘﻢ ﺣﻠﻘﻪ ﺑﺴﺘﻪ اﺳﺘﻔﺎده ﻣﯽ ﺷﻮد. در ﭘﺎیﺎن، ﻣﺜﺎل ﺷﺒﯿﻪ ﺳﺎزی، ﻣﻮﺛﺮ ﺑﻮدن اﻟﮕﻮریﺘﻢ ﭘﯿﺸﻨﻬﺎدی را ﻧﺸﺎن ﻣﯽ دﻫﺪ&lt;/p&gt;
</abstract_fa>
	<abstract>&lt;p style=&quot;text-align: justify;&quot;&gt;In this paper, an online learning algorithm based on approximate dynamic programming is proposed to approximately solve the nonlinear continuous time differential graphical games with infinite horizon cost functions and known dynamics. In the proposed algorithm, every agent employs a critic neural network (NN) to approximate its optimal value and control policy and utilizes the proposed weight tuning laws to learn its critic NN optimal weights in an online fashion. Critic NN weight tuning laws containing a stabilizer switch guarantees the closed-loop system stability and the control policies convergence to the Nash equilibrium. In this algorithm, there is no requirement for any set of initial stabilizing control policies anymore. Furthermore, Lyapunov theory is employed to show uniform ultimate boundedness of the closedloop system. Finally, a simulation example is presented to illustrate the efficiency of the proposed algorithm.&amp;nbsp;&lt;br&gt;
&amp;nbsp;&lt;/p&gt;
</abstract>
	<keyword_fa>برنامه ریزی پویای تقریبی, شبکه های عصبی, کنترل بهینه, یادگیری تقویتی</keyword_fa>
	<keyword>Approximate Dynamic Programming, Neural Networks, Optimal Control, Reinforcement learning</keyword>
	<start_page>13</start_page>
	<end_page>25</end_page>
	<web_url>http://joc.kntu.ac.ir/browse.php?a_code=A-10-502-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Majid</first_name>
	<middle_name></middle_name>
	<last_name>Mazouchi</last_name>
	<suffix></suffix>
	<first_name_fa>مجید</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>مازوچی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>Mazouchi.Majid@stu.um.ac.ir</email>
	<code>10031947532846005157</code>
	<orcid>10031947532846005157</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Ferdowsi University of Mashhad</affiliation>
	<affiliation_fa>دانشگاه فردوسی مشهد</affiliation_fa>
	 </author>


	<author>
	<first_name>Mohammad Bagher</first_name>
	<middle_name></middle_name>
	<last_name>Naghibi Sistani</last_name>
	<suffix></suffix>
	<first_name_fa>محمد باقر</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>نقیبی سیستانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>Mb-naghibi@um.ac.ir</email>
	<code>10031947532846005158</code>
	<orcid>10031947532846005158</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>Ferdowsi University of Mashhad</affiliation>
	<affiliation_fa>دانشگاه فردوسی مشهد</affiliation_fa>
	 </author>


	<author>
	<first_name>Seyed Kamal</first_name>
	<middle_name></middle_name>
	<last_name>Hosseini Sani</last_name>
	<suffix></suffix>
	<first_name_fa>سید کمال</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>حسینی ثانی</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>k.hosseini@um.ac.ir</email>
	<code>10031947532846005159</code>
	<orcid>10031947532846005159</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Ferdowsi University of Mashhad</affiliation>
	<affiliation_fa>دانشگاه فردوسی مشهد</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
