基于增强学习的平行机调度研究

• 论文 •

基于增强学习的平行机调度研究

张智聪，　郑力，　翁小华

1 清华大学工业工程系，北京100084；2 南佛罗里达大学工业与管理系统工程系，美国佛罗里达坦帕33620

出版日期:2007-01-15 发布日期:2007-01-25

Parallel machines scheduling with reinforcement learning

ZHANG Zhi-cong, ZHENG Li, WENG Michael X.

1.Dep. of Industrial Eng., Tsinghua Univ., Beijing100084, China; 2.Dep. of Industrial & Management Systems Eng., Univ. of South Florida, Tampa33620, USA

Online:2007-01-15 Published:2007-01-25

摘要/Abstract

摘要： 尝试运用增强学习方法来研究平行机调度问题，通过定义系统状态、行为和报酬函数，把调度问题转化为平均报酬型半马尔可夫决策过程，并使用结合函数泛化器的R-Learning算法来解决。提出排名算法，并利用它和两种常用的调度规则（最短期望加工时间规则和先进先出规则）来定义增强学习的行为。实验结果表明，R-Learning算法通过仿真实验学习较优的调度策略，在不同的决策状态下选择最优或次优的行为，对每个测试问题的效果都优于以上任何一条调度规则。

关键词: 调度, 平行机, 增强学习, 马尔可夫决策过程

Abstract: A Reinforcement Learning (RL) method, R-Learning, was used to study parallel machines scheduling problems which was aimed to minimize mean flow time of jobs. The scheduling problem was converted into Semi-Markov Decision Process(SMDP) by defining system state, actions and reward function. It was solved by R-Learning functions. A heuristic, Ranking Algorithm (RA) was proposed and defined as RL as well as two commonly used dispatching rules: Shortest Expected Processing Time (SEPT) and First In First Out (FIFO). Experiment results demonstrated that R-Learning could learn a near-optimal scheduling policy through simulation, i.e. to select optimal or sub-optimal actions at different states. The conclusion was that R-Learning was superior to the above heuristic rules in all test problems.

Key words: scheduling, parallel machines, reinforcement learning, Markov decision process

中图分类号:

O223

张智聪，　郑力，　翁小华. 基于增强学习的平行机调度研究[J]. .

ZHANG Zhi-cong, ZHENG Li, WENG Michael X.. Parallel machines scheduling with reinforcement learning[J]. .

[1]	陈志远,伍章俊,童珊珊,刘晓. 基于改进双归档进化算法的多目标动态软件项目调度[J]. 计算机集成制造系统, 2021, 27(9): 2565-2574.
[2]	周博文,黄海军,徐怡,李学俊,高寒,陈天翔,刘晓,徐佳. 无人机配送系统中端边协同的并行任务调度算法[J]. 计算机集成制造系统, 2021, 27(9): 2575-2582.
[3]	文一凭,王志斌,刘建勋,许小龙,康国胜. 云际协作环境下能耗与成本感知的工作流调度方法[J]. 计算机集成制造系统, 2021, 27(9): 2583-2591.
[4]	秦旋,房子涵,张赵鑫. 考虑资源约束的预制构件多目标生产调度优化[J]. 计算机集成制造系统, 2021, 27(8): 2248-2259.
[5]	满君丰,赵龙乾,彭成,李倩倩. 云边协同计算架构下大规模工厂接入的任务调度[J]. 计算机集成制造系统, 2021, 27(8): 2282-2294.
[6]	顾九春,姜天华,朱惠琦. 多目标离散灰狼优化算法求解作业车间节能调度问题[J]. 计算机集成制造系统, 2021, 27(8): 2295-2306.
[7]	黎英杰,刘建军,陈庆新,毛宁. 多层级装配作业车间等量分批策略与调度算法[J]. 计算机集成制造系统, 2021, 27(8): 2307-2320.
[8]	黄晓冬,端木帅飞,毕敬,苑海涛. 服务延迟保障的混合绿色云数据中心成本最小化方法[J]. 计算机集成制造系统, 2021, 27(8): 2416-2425.
[9]	赵芮,顾幸生. 基于引力搜索算法的混合零空闲置换流水车间调度[J]. 计算机集成制造系统, 2021, 27(7): 1909-1917.
[10]	李林林,刘东梅,王显鹏. 基于改进MOEA/D的多目标置换流水车间调度问题[J]. 计算机集成制造系统, 2021, 27(7): 1929-1940.
[11]	陆志强,任逸飞,许则鑫. 基于深度学习的资源投入问题算法[J]. 计算机集成制造系统, 2021, 27(6): 1558-1568.
[12]	杨艳华,姚立纲. 基于时间递推建模及交叉熵算法求解柔性作业车间调度问题[J]. 计算机集成制造系统, 2021, 27(6): 1703-1713.
[13]	段建国,李豪晨,张青雷. 面向绿色制造的半组合式船用曲轴结构件生产车间多目标调度优化[J]. 计算机集成制造系统, 2021, 27(6): 1714-1727.
[14]	马丽萌,乔非,马玉敏,刘鹃. 基于SO-GP的智能车间组合调度规则挖掘[J]. 计算机集成制造系统, 2021, 27(5): 1351-1360.
[15]	胡金昌,刘紫薇,马文凯,吴耀华. 考虑学习效应的单人作业车间多目标调度算法[J]. 计算机集成制造系统, 2021, 27(5): 1361-1370.