答辩博士:周通
指导老师:唐敦兵教授/博导
论文题目:基于强化学习的智能制造系统调度方法研究
答辩委员会:
主席:李东波 教授/博导 南京理工大学
委员:仇晓黎 教授/博导 东南大学
田 威 教授/博导 南京航空航天大学
陈蔚芳 教授/博导 南京航空航天大学
叶文华 教授/博导 南京航空航天大学
秘书:朱海华 副教授/硕导 南京航空航天大学
答辩时间:2022年5月21日10:00
答辩地点:南航科技港F栋202会议室
学位论文简介:
在经济全球化和市场多元化的影响下,多品种、小批量生产已逐渐成为主流的生产模式,生产过程出现了高并发、难预测等特征。因此,制造系统的运行过程充满了更多的不确定性,经常伴有不可预知的任务或事件,生产加工负载也呈现出动态的非线性特征。在处理动态的生产调度问题时,传统的调度方法以离线的方式重调度生产资源,通过不断地调整生产调度方案来适应动态变化的生产环境。然而,随着生产环境波动频率和程度的增加,周期性重调度会消耗大量的计算资源与时间,难以满足生产制造过程的实时性需求。此外,传统的制造系统多数在集中式的架构中分析数据、调度资源,过度依赖于中央控制器和有限的通信网络,往往效率低且可靠性差。随着物联网和云技术的发展,建立分布式的制造系统架构成为了可能,如多智能体系统。在包含多种异构设备的分布式制造系统中,数据维度高、变化快、结构复杂,很难有效地利用这些数据进行在线生产调度。针对上述问题,本文提出了新型的分布式智能制造系统架构并给出了实现方法,基于强化学习算法建立了具有学习与协作能力的分布式调度智能体模型,并通过一系列的实验案例验证模型的学习能力和调度效果。
主要研究工作:
(1)利用物联网相关技术构建智能制造系统架构,为实现制造系统的智能化及分布式控制提供了基础。分布式架构由云平台、车间监控端和离散制造单元构成,各组成元素经过物联网络互联互通。制造单元配有智能计算模块,具有独立处理数据的能力,不再依赖于中央控制设备。监控端负责执行对实时性要求不高的大数据处理任务,协调各制造单元提高系统整体的运行效果。云平台实现的功能主要包括个性化定制、工艺规划、数据分析及系统监控等。在该分布式系统架构中,各组成部分并联运行,更有针对性地处理不同类型的数据。
(2)基于强化学习建立制造系统调度模型,为智能调度算法的在线运行与学习过程提供了环境。针对智能制造系统中数据维度高、变化快的特点,建立具有实时决策能力的调度智能体,利用制造值网络输入与车间状态相关的高维动态数据,通过自主地学习不同调度动作的价值实现了动态调度决策。经过训练的调度智能体模型根据工序属性和车间环境状态实时给出调度方案,而且能够在线处理不可预知的任务或事件,使制造系统平稳高效地运行。
(3)根据实际的工况条件和生产需求,设计复合奖励值函数提升调度智能体的学习、决策能力。基于强化学习算法,复合奖励值函数帮助调度智能体高效地学习多个生产目标并进行动态调度决策。根据具体的生产工况及需求调整复合奖励值函数的结构形式,使调度智能体可以自主地学习新的知识、适应新的环境。在复合奖励值函数的作用下,不同的调度智能体可以共享经验并达到共同的生产目标,为分布式智能调度系统的建立提供了条件。
(4)基于多智能体强化学习建立分布式智能调度模型,使离散的制造单元能够在线地完成生产调度任务。为每个制造单元配备具有决策、协作、学习能力的调度智能体,它们根据自己观测到的工序属性及环境状态独立地进行调度决策。调度智能体之间相互协作,学习对方的运行交互数据,提升整体的调度决策能力。分布式决策方式使各调度智能体更有针对性地学习调度经验并处理扰动事件,减少了不同单元之间的数据传输,提升了制造系统运行的效率和稳定性。
(5)以实际的工业生产为背景,开发了信息物理集成的智能制造系统实验平台,为分布式智能调度算法的部署与验证提供了依据。利用物联网相关技术建立信息物理系统,连接异构的制造单元,并通过射频识别技术追溯工件生产进度。调度智能体运行在各制造单元的智能计算模块中,利用适配层连接所属的设备,经过交互通信层接入物联网络以获取制造环境的状态并与其他设备实现互联。
主要创新点:
(1)提出了“云-边-单元”协同运作的智能制造系统架构,实现了从云平台到边缘监控端、再到制造单元的分布式并联控制模式。
(2)利用物联网技术实时采集制造系统中不断变化的高维数据,为动态自适应生产调度提供依据。
(3)基于强化学习建立具有自组织生产、自适应决策、自学习优化等能力的调度智能体,根据车间的实时状态即时给出最优的调度方案。
(4)针对个性化定制的生产模式,建立智能制造系统综合评价体系,动态优化生产过程中的多重目标。
(5)结合边缘计算技术为每台设备配备独立的智能计算模块,构建了调度智能体的分布式运行环境。