<?xml version="1.0" encoding="utf-8"?>
<journal>
<title>Journal of Control</title>
<title_fa>مجله کنترل</title_fa>
<short_title>JoC</short_title>
<subject>Engineering &amp; Technology</subject>
<web_url>http://joc.kntu.ac.ir</web_url>
<journal_hbi_system_id>1</journal_hbi_system_id>
<journal_hbi_system_user>admin</journal_hbi_system_user>
<journal_id_issn>2008-8345</journal_id_issn>
<journal_id_issn_online>2538-3752</journal_id_issn_online>
<journal_id_pii></journal_id_pii>
<journal_id_doi>10.61186/joc</journal_id_doi>
<journal_id_iranmedex></journal_id_iranmedex>
<journal_id_magiran></journal_id_magiran>
<journal_id_sid></journal_id_sid>
<journal_id_nlai></journal_id_nlai>
<journal_id_science></journal_id_science>
<language>fa</language>
<pubdate>
	<type>jalali</type>
	<year>1399</year>
	<month>10</month>
	<day>1</day>
</pubdate>
<pubdate>
	<type>gregorian</type>
	<year>2021</year>
	<month>1</month>
	<day>1</day>
</pubdate>
<volume>14</volume>
<number>4</number>
<publish_type>online</publish_type>
<publish_edition>1</publish_edition>
<article_type>fulltext</article_type>
<articleset>
	<article>


	<language>fa</language>
	<article_id_doi></article_id_doi>
	<title_fa>یادگیری تقویتی چندعاملی مشارکتی در محیط‌های پویا بر اساس انتقال دانش برای مسأله گله‌داری</title_fa>
	<title>Collaborative Multi-Agent Reinforcement Learning in Dynamic Environments using Knowledge Transfer for Herding Problem</title>
	<subject_fa>تخصصي</subject_fa>
	<subject>Special</subject>
	<content_type_fa>پژوهشي</content_type_fa>
	<content_type>Research paper</content_type>
	<abstract_fa>&lt;div style=&quot;text-align: justify;&quot;&gt;&lt;span dir=&quot;RTL&quot;&gt;امروزه، برای حل بسیاری از مسائل، از سیستم&amp;shy;های چندعاملی مشارکتی استفاده می&amp;shy;شود که در آن گروهی از عامل&amp;shy;ها &lt;/span&gt;&lt;span dir=&quot;RTL&quot;&gt;برای رسیدن به یک هدف مشترک&lt;/span&gt;&lt;span dir=&quot;RTL&quot;&gt; همکاری می&#8204;کنند. همکاری میان عامل&amp;shy;ها، فوایدی همچون کاهش هزینه&amp;shy;های عملیاتی، مقیاس&amp;shy;پذیری بالا و سازگاری قابل&#8204;توجه را به ارمغان خواهد آورد. برای آموزش این عامل&amp;shy;ها در رسیدن به یک سیاست بهینه، از یادگیری تقویتی بهره می&amp;shy;جویند. یادگیری در محیط&amp;shy;های چندعاملی مشارکتی پویا، غیرقطعی و با اندازه فضای حالت بزرگ به یک چالش بسیار مهم در برنامه&amp;shy;های کاربردی تبدیل&#8204;شده است. ازجمله این چالش&amp;shy;ها می&#8204;توان به تأثیر اندازه فضای حالت بر مدت زمان یادگیری و همچنین همکاری ناکارآمد میان عامل&amp;shy;ها و عدم وجود هماهنگی مناسب در تصمیم&#8204;گیری عامل&amp;shy;ها اشاره کرد. همچنین هنگام استفاده از الگوریتم&amp;shy;های یادگیری تقویتی نیز با چالش&amp;shy;هایی نظیر&lt;/span&gt; &lt;span dir=&quot;RTL&quot;&gt;دشواری تعیین هدف یادگیری مناسب و زمان طولانی همگرایی ناشی از یادگیری مبتنی بر آزمایش و خطا مواجه خواهیم بود. در این مقاله، با معرفی یک چارچوب ارتباطی برای سیستم&amp;shy;های چندعاملی مشارکتی، تلاش شده چالش&amp;shy;های فوق تا حدی برطرف شود. در راستای حل مشکلات مربوط به همگرایی، انتقال دانش به کار برده شده است که می&#8204;تواند به شکل قابل&#8204;توجهی در افزایش کارایی الگوریتم&#8204;های یادگیری تقویتی موثر واقع شود. همکاری میان عامل&#8204;ها با استفاده از عامل سرگروه و هماهنگی میان آنان توسط یک عامل هماهنگ&#8204;کننده صورت می&#8204;پذیرد. چارچوب پیشنهادی برای حل مسأله گله&#8204;داری به کار رفته است و نتایج تجربی افزایش کارایی عامل&#8204;ها را نشان می&#8204;دهند.&lt;/span&gt;&lt;/div&gt;</abstract_fa>
	<abstract>&lt;div style=&quot;text-align: justify;&quot;&gt;Nowadays, collaborative multi-agent systems in which a group of agents work together to reach a common goal, are used to solve a wide range of problems. Cooperation between agents will bring benefits such as reduced operational costs, high scalability and significant adaptability. Usually, reinforcement learning is employed to achieve an optimal policy for these agents. Learning in collaborative multi-agent dynamic environments with large and stochastic state spaces has become a major challenge in many applications. These challenges include the effect of size of state space on learning time, ineffective collaboration between agents and the lack of appropriate coordination between decisions of agents. On the other hand, using reinforcement learning has challenges such as the difficulty of determination the appropriate learning goal or reward and the longtime of convergence due to the trial and error in learning. This paper, by introducing a communication framework for collaborative multi-agent systems, attempts to address some of these challenges in herding problem. To handle the problems of convergence, knowledge transfer has been utilized that can significantly increase the efficiency of reinforcement learning algorithms. Cooperation and Coordination and between the agents is carried out through the existence of a head agent in each group of agents and a coordinator agent respectively. This framework has been successfully applied to herding problem instances and experimental results have revealed a significant improvement in the performance of agents.&lt;/div&gt;</abstract>
	<keyword_fa>سیستم‌های چندعامله مشارکتی, یادگیری تقویتی, انتقال دانش, مساله گله‌داری</keyword_fa>
	<keyword>Collaborative multi-agent system, Reinforcement learning, Knowledge transfer, Herding problem.</keyword>
	<start_page>55</start_page>
	<end_page>66</end_page>
	<web_url>http://joc.kntu.ac.ir/browse.php?a_code=A-10-253-1&amp;slc_lang=fa&amp;sid=1</web_url>


<author_list>
	<author>
	<first_name>Amin</first_name>
	<middle_name></middle_name>
	<last_name>Nikanjam</last_name>
	<suffix></suffix>
	<first_name_fa>امین</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>نیک انجام</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>nikanjam@kntu.ac.ir</email>
	<code>10031947532846008206</code>
	<orcid>10031947532846008206</orcid>
	<coreauthor>Yes
</coreauthor>
	<affiliation>K. N. Toosi University of Technology</affiliation>
	<affiliation_fa>گروه هوش مصنوعی،دانشکده‌ی مهندسی کامپیوتر،دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Monireh</first_name>
	<middle_name></middle_name>
	<last_name>Abdoos</last_name>
	<suffix></suffix>
	<first_name_fa>منیره</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>عبدوس</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>M_Abdoos@sbu.ac.ir</email>
	<code>10031947532846008207</code>
	<orcid>10031947532846008207</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>Shahid Beheshti University</affiliation>
	<affiliation_fa>گروه هوش مصنوعی، رباتیک و رایانش شناختی،دانشکده‌ی مهندسی و علوم کامپیوتر،دانشگاه شهید بهشتی،تهران، ایران</affiliation_fa>
	 </author>


	<author>
	<first_name>Mahnoosh</first_name>
	<middle_name></middle_name>
	<last_name>Mahdavi Moghadam</last_name>
	<suffix></suffix>
	<first_name_fa>ماهنوش</first_name_fa>
	<middle_name_fa></middle_name_fa>
	<last_name_fa>مهدوی مقدم</last_name_fa>
	<suffix_fa></suffix_fa>
	<email>mahnooshmahdavi2012@gmail.com</email>
	<code>10031947532846008208</code>
	<orcid>10031947532846008208</orcid>
	<coreauthor>No</coreauthor>
	<affiliation>K. N. Toosi University of Technology</affiliation>
	<affiliation_fa>گروه هوش مصنوعی،دانشکده‌ی مهندسی کامپیوتر،دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران</affiliation_fa>
	 </author>


</author_list>


	</article>
</articleset>
</journal>
