多主体的研究与应用是近年来备受关注的热点领域,多主体强化学习理论与方法、多主体协作策略的研究是该领域重要研究方向,其理论和应用价值极为广泛,备受广大从事计算机应用、人工智能、自动控制、以及经济管理等领域研究者的关注。本书清晰地介绍了多主体、强化学习及多主体协作等基本概念和基础内容,明确地阐述了有关多主体强化学习、协作策略研究的发展过程及*新动向,深入地探讨了多主体强化学习与协作策略的理论与方法,具体地分析了多主体强化学习与协作策略在相关研究领域的应用方法。全书系统脉络清晰、基本概念清楚、图表分析直观,注重内容的体系化和实用性。通过本书的阅读和学习,读者即可掌握多主体强化学习及协作策略的理论和方法,更可了解在实际工作中应用这些研究成果的手段。 本书可作为从事计算机应用、人工智能、自动控制、以及经济管理等领域研究者的学习和阅读参考,同时高等院校相关专业研究生以及人工智能爱好者也可从中获得借鉴。
多主体的研究与应用是近年来备受关注的热点领 域,多主体强化学习理论与方法、多主体协作策略的 研究是该领域重要研究方向,其理论和应用价值极为 广泛,备受广大从事计算机应用、人工智能、自动控 制、以及经济管理等领域研究者的关注。孙若莹、赵 刚所著的《多主体强化学习协作策略研究》清晰地介 绍了多主体、强化学习及多主体协作等基本概念和基 础内容,明确地阐述了有关多主体强化学习、协作策 略研究的发展过程及*新动向,深入地探讨了多主体 强化学习与协作策略的理论与方法,具体地分析了多 主体强化学习与协作策略在相关研究领域的应用方法 。 全书系统脉络清晰、基本概念清楚、图表分析直 观,注重内容的体系化和实用性。通过本书的阅读和 学习,读者即可掌握多主体强化学习及协作策略的理 论和方法,更可了解在实际工作中应用这些研究成果 的手段。本书可作为从事计算机应用、人工智能、自 动控制、以及经济管理等领域研究者的学习和阅读参 考,同时高等院校相关专业研究生以及人工智能爱好 者也可从中获得借鉴。
chapter 1introduction1.1reinforcement learning1.1.1generality of reinforcement learning1.1.2reinforcement learning on markov decision processes1.1.3integrating reinforcement learning into agent architecture1.2multiagent reinforcement learning1.2.1multiagent systems1.2.2reinforcement learning in multiagent systems1.2.3learning and coordination in multiagent systems1.3ant system for stochastic combinatorial optimization1.3.1ants forage behavior1.3.2ant colony optimization1.3.3max-min ant system1.4motivations and consequences1.5book summarybibliographychapter 2reinforcement learning and its combination with ant colony system2.1introduction2.2investigation into reinforcement learning and swarm intelligence2.2.1temporal differences learning method2.2.2active exploration and experience replay in reinforcement learning2.2.3ant colony system for traveling salesman problem2.3the q-acs multiagent learning method2.3.1the q-acs learning algorithm2.3.2some properties of the q-acs learning method2.3.3relation with ant-q learning method2.4simulations and results2.5conclusionsbibliographychapter 3multiagent learning methods based on indirect media information sharing3.1introduction3.2the multiagent learning method considering statistics features3.2.1accelerated k-certainty exploration3.2.2the t-acs learning algorithm3.3the heterogeneous agents learning3.3.1the d-acs learning algorithm3.3.2some discussions about the d-acs learning algorithm3.4comparisons with related state-of-the-arts3.5simulations and results3.5.1experimental results on hunter game3.5.2experimental results on traveling salesman problem3.6conclusionsbibliographychapter 4action conversion mechanism in multiagent reinforcement learning4.1introduction4.2model-based reinforcement learning4.2.1dyna-q architecture4.2.2prioritized sweeping method4.2.3minimax search and reinforcement learning4.2.4rtp-q learning4.3the q-ac multiagent reinforcement learning4.3.1task model4.3.2converting action4.3.3multiagent cooperation methods4.3.4q-value update4.3.5the q-ac learning algorithm4.3.6using adversarial action instead o{ ~ probability exploration4.4simulations and results4.5conclusionsbibliographychapter 5multiagent learning approaches applied to vehicle routing problems5.1introduction5.2related state-of-the-arts5.2.1some heuristic algorithms5.2.2the vehicle routing problem with time windows5.3the multiagent learning applied to cvrp and vrptw5.4simulations and results5.5conclusionsbibliographychapter 6multiagent learning methods applied to multicast routing problems6.1introduction6.2multiagent q-learning applied to the network routing6.2.1investigation into q-routing6.2.2antnet investigation6.3some multicast routing in mobile ad hoc networks6.4the multiagent q-learning in the q-map multicast routing method6.4.1overview of the q-map multicast routing6.4.2join query packet, join reply packet and membership maintenance6.4.3convergence proof of q-map method6.5simulations and results6.6conclusionsbibliographychapter 7multiagent reinforcement learning for supply chain management7.1introduction7.2related issues of supply chain management7.3scm network scheme with multiagent reinforcement learning7.3.1scm with multiagent7.3.2the rl agents in scm network7.4application of the q-acs method to scm7.4.1the application model in scm7.4.2the q-acs learning applied to the scm system7.5conclusionbibliographychapter 8multiagent learning applied in supply chain ordering management8.1introduction8.2supply chain management model8.3the multiagent learning model for sc ordering management8.4simulations and results8.5conclusionsbibliography
《或然世界:谁是人工智能画家小冰?》内容简介:本书是部人工智能绘画作品集。人工智能小冰通过对过往400年艺术史上的236位知名人
《中风偏瘫家庭康复》内容简介:吴镇阳主编的《中风偏瘫家庭康复》简要介绍了中风防治的基本知识,详细阐述了中风偏瘫康复的基本知
《来世》内容简介:★2021年诺奖得主古尔纳2020年重磅新作,代表着他最新的创作成就 ★一片失落大陆上的聚散与悲欢,一部几代人的传
本书是《QBasic语言程序设计教程》(第二版)一书的配套教材、本书第一部分以概要的形式,对全书进行了总结,以便学生复习。在第
《春秋:五霸迭兴》内容简介:本书在尊重史实的基础上,以诙谐、通俗的语言,描述了春秋近三百年间的历史演变。五霸的起落兴衰,诸
《C#入门经典》(第3版)将全面介绍C#编程的所有知识,共分为5篇:第1篇是C#语言:介绍了C#语言的所有内容,从基础知识到面向对象的
《Spring Cloud微服务:入门、实战与进阶》内容简介:本书主打的是与微服务相关的实战体系。第一部分是准备篇,可以帮助各位读者了
矿山水害空间数据挖掘与知识发现的支持向量机理论与方法 内容简介 本书分为理论与应用两大部分, 在理论部分对支持向量机的训练参数、核函数及核参数的选择进行了探讨,...
MarkRichards是一位造诣颇深的作者和会议演讲者,他是金融服务行业的实战型SOA和企业体系结构师。除了发表大量文章之外,他还是《
《落花生》内容简介:许地山散文是现代文学中的一方宝藏。《落花生》以他生前著作《空山灵雨》等为底稿,收集了许地山先生一生最菁
《从秦朝说起,到清朝结束(三):安邦定国》内容简介:一本书读懂从乱世到治世的阴谋与阳谋! 大汉王朝建立,刘邦登基后演绎了何为
《Web2.0动态网站开发:PHP技术与应用》以Web2.0网站开发的5种需求和28个重要元素为线索,从PHP开发Web2.0网站的三个理由出发,全
《军人常见心理问题解析及辅导》内容简介:本书选取军人在兵之初、日常工作、人际交往、个人生活(包括恋爱、婚姻、家庭等方面)常
ASP.NET是由Microsoft公司推出的新一代Web开发构架。开发人员可以通过ASP.NET实现动态网站的开发,包括开发Web应用程序和Web服务
图像分割的认知物理学方法 内容简介 《图像分割的认知物理学方法》在深入研究认知物理学理论的基础上,探索了图像分割的粒度原理,建立了图像分割的认知物理学粒计算框架...
ForKidsAged10+(AndTheirParents)Thecodeinthisbookrunsonalmostanything:Windows,Mac...
《语言系统、交际模式与话语语用理解研究》内容简介:语言是一个神奇而又极其复杂的交际工具,人类对语言的关注、讨论和研究已有相
Withthisbook,youcanbuildexciting,scalablewebapplicationsquicklyandconfidently,us...
Consideredoneofthemostintricatewritingsystemsinuse,Chinesecharactersholdapresenc...
ThisisanupdatedrevisionofTennisons"BeginningXSLT",updatedforthenewrevisionoftheX...