Minimizing makespan in flow shops with a reinforcement learning like approach : A learning beam search for the no-wait flow shop scheduling problem with release times

Mayerhofer, Jonas

doi:10.34726/hss.2022.99461

DC Field

Value

Language

dc.contributor.advisor

Raidl, Günther

dc.contributor.author

Mayerhofer, Jonas

dc.date.accessioned

2022-05-10T13:22:30Z

dc.date.issued

2022

dc.date.submitted

2022-05

dc.identifier.citation

<div class="csl-bib-body"> <div class="csl-entry">Mayerhofer, J. (2022). <i>Minimizing makespan in flow shops with a reinforcement learning like approach : A learning beam search for the no-wait flow shop scheduling problem with release times</i> [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2022.99461</div> </div>

dc.identifier.uri

https://doi.org/10.34726/hss.2022.99461

dc.identifier.uri

http://hdl.handle.net/20.500.12708/20122

dc.description.abstract

Maschinenbelgungsplanungsprobleme (FSP) existieren in unterschiedlichen Varianten.Eine dieser Varianten ist das no-wait FSP with release times (NWFSP-RT). Es besteht aus einer Menge an Aufgaben und einer Menge an Maschinen. Beim NWFSP-RT müssen alle Aufgaben in derselben vordefinierten Reihenfolge auf allen Maschinen abgearbeitet werden.Zusätzlich dürfen Aufgaben auf der ersten Maschine erst nach einer gegebenen Release-Zeit beginnen. Anwendungen finden sich in der Stahl- und Lebensmittelproduktion zufinden. Hier können Wartezeiten zu einer Verschlechterung der Qualität führen.Wir verwenden eine Beam Search (BS), d.h. eine Breitensuche mit beschränkter Breite,zum Lösen des NWFSP-RT. Auf jeder Suchebene behält BS nur die besten Knoten. Umzu entscheiden, welche Knoten behalten werden, verwendet BS eine heuristische Funktion(GF). In dieser Arbeit verwenden wir das Learning Beamsearch (LBS) Framework von Huber und Raidl [HR21] um GFs zu lernen. Bei der LBS werden in jeder Iteration Trainingsdaten unter Verwendung der aktuell gelernten GF erzeugt und diese anschließend verwendet um das neuronale Netzwerk (NN) zu trainieren.Wir präsentieren zwei neuartige graphbasierte NN Typen inklusive Feature-Vektoren.Die NN Typen aggregieren Daten aller Aufgaben einer Instanz und der nähesten benachbarten Aufgaben jeder Aufgabe. Unter den Features ist eine neuartige Methode zur Berechnung unterer Schranken (ITLB) für das NWFSP-RT enthalten. Die beschriebenen Algorithmen und NN Typen wurden von uns implementiert und auf Vergleichsinstanzen,sowie zufälligen Instanzen evaluiert. Im Zuge der Evaluierung wurden auch statistische Signifikanztests durchgeführt. Die Ergebnisse zeigen, dass BS in Kombination mit den zwei neuartigen NN Typen in neun und zehn von 16 Konfigurationen signifikant bessere Ergebnisse erzielt als BS in Kombination mit ITLB verglichen auf Testinstanzen gleicher Größe, auf welcher die NN Typen trainiert wurden. Des Weitern generalisiert mindestens eine Konfiguration jedes der vier NN Typen gut über die Anzahl an Aufgaben, verglichen mit den besten bekannten Ergebnissen aus [Pou+20]. Während unserer Tests liefern die NN Typen für einzelne Instanzen bessere Ergebnisse als die besten bekannten Ergebnisse trotz der Einschränkung, dass die Tests mit einer kleineren maximalen Breite und ohne lokaler Suche durchgeführt wurden. Insgesamt war einer unserer Ansätze, evaluiert mit einer kleineren Breite als in [Pou+20], auf 11 von 46 getesteten Instanzklassen im Durchschnitt besser als die besten bekannten Ergebnisse und auf 43 von 46 Instanzklassen besser als BS ohne lokale Suche von [Pou+20].

dc.description.abstract

The flow shop problem (FSP) is a scheduling problem with many variants. One variantis the no-wait FSP with release times (NWFSP-RT). It consists of a set of jobs and a setof machines. It further imposes the constraints that jobs must pass all machines in apredefined order, the jobs are not allowed to wait on a machine until being processed, andjobs may only start processing on the first machine when their release time is exceeded.The goal is to find a schedule optimizing the desired objective, i.e., the makespan. TheNWFSP-RT has applications in steel or food production where the product is not allowedto wait before being further processed to avoid degradation.Beam search (BS), a limited width breadth-first search technique, has shown to be an effective heuristic in finding proper solutions to optimization problems within a limited time. Only the best nodes are kept and further branched on at every layer when the number of nodes exceeds a specific limit. To decide which nodes to keep, BS uses a guidance function (GF). We build upon the learning beam search (LBS) framework proposed by Huber and Raidl [HR21] to learn GFs. The LBS framework uses an iterative approach. In every iteration, training data is generated with a BS guided by the currentlylearned GF, and the neural network (NN) is trained to approximate the training data.We propose two novel NN types, inspired by graph neural networks, that aggregate data over all individual jobs in a problem instance and their nearest neighbors. Further, we present feature sets for the NN types, including a novel lower bound, called ITLB, for the NWFSP-RT. We implement the algorithms, evaluate them over benchmark setsand random test instances, and perform statistical tests. The results show that a BSguided by two of our NN types produces significantly better results in nine and ten outof 16 configurations, respectively, than a BS guided by ITLB alone when run on similar instance sizes as the NNs were trained. The evaluation of the generalization abilities ofthe NNs shows that for each of the four NN types, at least one configuration generalizes well over the number of jobs compared with the best-known results. Our approaches frequently improve the state-of-the-art on even though running with a smaller beam width and without local search compared to the BS from Pourhejazy et al. [Pou+20] that represented the state-of-the-art so far. Overall, one of our approaches, evaluated with smaller beam width than in [Pou+20], was able to outperform the state-of-the-art on 11out of 46 tested instance classes and to outperform the BS from [Pou+20] without local search on 43 out of 46 tested instance classes on average.

dc.language

English

dc.language.iso

dc.rights.uri

http://rightsstatements.org/vocab/InC/1.0/

dc.subject

learning beam search

dc.subject

no-wait flow shop scheduling problem

dc.title

Minimizing makespan in flow shops with a reinforcement learning like approach : A learning beam search for the no-wait flow shop scheduling problem with release times

dc.title.alternative

Minimierung der Produktionsdauer in Fabriken durch maschinelles Lernen

dc.type

Thesis

dc.type

Hochschulschrift

dc.rights.license

In Copyright

dc.rights.license

Urheberrechtsschutz

dc.identifier.doi

10.34726/hss.2022.99461

dc.contributor.affiliation

TU Wien, Österreich

dc.rights.holder

Jonas Mayerhofer

dc.publisher.place

Wien

tuw.version

vor

tuw.thesisinformation

Technische Universität Wien

dc.contributor.assistant

Huber, Marc

tuw.publication.orgunit

E192 - Institut für Logic and Computation

dc.type.qualificationlevel

Diploma

dc.identifier.libraryid

AC16521606

dc.description.numberOfPages

dc.thesistype

Diplomarbeit

dc.thesistype

Diploma Thesis

dc.rights.identifier

In Copyright

dc.rights.identifier

Urheberrechtsschutz

tuw.advisor.staffStatus

staff

tuw.assistant.staffStatus

staff

tuw.advisor.orcid

0000-0002-3293-177X

item.languageiso639-1

item.openairetype

master thesis

item.grantfulltext

open

item.fulltext

with Fulltext

item.cerifentitytype

Publications

item.mimetype

application/pdf

item.openairecristype

http://purl.org/coar/resource_type/c_bdcc

item.openaccessfulltext

Open Access

crisitem.author.dept

TU Wien

Appears in Collections:

Thesis

Fulltext (Version of Record (published version))

Adobe PDF

(4.95 MB)

In Copyright

Show simple item record

Page view(s)

350

checked on Nov 23, 2023

Download(s)

149

checked on Nov 23, 2023

Google Scholar^TM

Check

Page view(s)

Download(s)

Google ScholarTM

Google Scholar^TM