REINFORCE: Exploiting the potential of reinforcement learning for continuous optimisation of complex and dynamic systems

Ziel von REINFORCE ist es, das Potenzial von Reinforcement Learning zur Lösung von komplexen Steuerungsproblemen in dynamischen Systemen zu bewerten.

Kurzbeschreibung

Die Steuerung von immer komplexeren Systemen stellt für Unternehmen eine Herausforderung dar, vor allem dann, wenn sich die Anforderungen an die Systeme, sowie die Systeme selbst, häufig ändern. Mangels überzeugender Alternativen werden Entscheidungen häufig auf Grundlage einfacher Heuristiken getroffen. Von einer optimalen Steuerung kann in vielen Fällen keine Rede sein.

Im Projekt REINFORCE werden werden zwei komplementäre Anwendungsfälle im Bereich intelligenter Fahrzeugsysteme betrachtet. Sowohl bei der Steuerung von Hybridantrieben als auch beim Routing von fahrerlosen Transportsystemen stoßen etablierte Steuerungsansätze zunehmend an ihre Grenzen, wenn es darum geht, Optima im Hinblick auf voneinander abhängige wirtschaftliche und ökologische Ziele zu erreichen und aufrechtzuhalten.

REINFORCE konzentriert sich nicht nur auf technische Aspekte, wie die Entwicklung von Algorithmen, die auf die Herausforderungen realer Szenarien zugeschnitten sind, sondern auch auf Aspekte, die im Hinblick auf die Akzeptanz wichtig sind, wie die Erklärbarkeit und Vertrauenswürdigkeit von Ergebnissen und betriebliche Aspekte, wie die Einbettung von Reinforcement Learning in bestehende Systeme und Prozesse.

Ausgangssituation

Die Erwartungen der Verbraucher an Unternehmen steigen. Sie zwingen Unternehmen etwa dazu, eine höhere Anzahl an Produktvarianten zu produzieren oder führen zu kürzeren Produktlebenszyklen und sinkenden Stückzahlen.

Für Unternehmen bedeuten diese Entwicklungen oft eine zunehmende Komplexität in ihren Produkten sowie in ihren Produktions- und Logistiksystemen. Damit Unternehmen langfristig wettbewerbsfähig bleiben, darf sich die zunehmende Komplexität weder auf ihre Wirtschaftlichkeit noch auf ihre Nachhaltigkeit negativ auswirken.

Reinforcement Learning, eine Klasse von Verfahren des maschinellen Lernens, die auf das Prinzip von Versuch und Irrtum setzen, ist unter bestimmten Voraussetzungen dafür geeignet, optimale Strategien für die Steuerung komplexer Systeme zu finden.

Ziel

REINFORCE bewertet das Potenzial von Reinforcement Learning als Lösungsansatz für komplexe Steuerungsprobleme. Der Ansatz wird in zwei komplementären Anwendungsfällen im Bereich intelligenter Fahrzeugsysteme implementiert und evaluiert. Sowohl bei der Steuerung des Antriebsstrangs von Personenkraftwagen als auch beim Steuern von fahrerlosen Transportsystemen, stoßen etablierte Ansätze zunehmend an ihre Grenzen.

Einserseits beschäftigt sich REINFORCE mit den technischen Aspekten des Reinforcement Learning, also mit der Entwicklung von Algorithmen, die auf die Herausforderungen realer Szenarien zugeschnitten sind. Andererseits werden auch der Faktor Mensch sowie betriebliche Aspekte miteinbezogen.

Besondere Aufmerksamkeit kommt der Erklärbarkeit und Vertrauenswürdigkeit von Ergebnissen, dem für Menschen Nachvollziehbarmachen von Gelerntem und der Frage, wie die Technologie am besten in bestehende Steuerungsprozesse integriert werden kann, zu.

Vorgehen

Für die beiden Steuerungsprobleme, die im Rahmen der Anwendungsfälle behandelt werden, werden zunächst der entscheidungsrelevante Kontext, das Ziel, die zu treffenden Entscheidungen sowie Benchmarks definiert. Anschließend werden problemspezifische Lernumgebungen entwickelt, in denen Agenten Schritt für Schritt lernen können, wie sich bestimmte Entscheidungen auf den Kontext und die Erreichung des definierten Ziels auswirken.

Entscheidungen, die dazu beitragen das Ziel zu erreichen, werden belohnt. Die entwickelten Strategien werden in verschiedenen Szenarien mit zunehmender Komplexität und unterschiedlicher Belohnung getestet. Mithilfe von Dashboards werden die Entscheidungen und der Lernerfolg für Menschen nachvollzierbar gemacht.

In beiden Anwendungsfällen stellen die Dashboards zentrale Elemente der Lösungsansätze dar. Die Ansätze sowie die zugrundeliegenden Algorithmen werden nicht nur im Hinblick auf technische Kriterien bewertet, sondern auch aus der Perspektive verschiedener Interessensgruppen.

Angestrebte Ergebnisse

REINFORCE entwickelt auf Reinforcement Learning basierende Ansätze zur Steuerung komplexer Systeme und führt dabei menschliche und technische Elemente symbiotisch zusammen. Mit Fokus auf den Anwendungsbereich intelligente Fahrzeugsysteme werden zwei Pilotimplementierungen realisiert.

Neben einer höheren Leistungsfähigkeit des Systems wird eine Reduktion des manuellen Aufwands bei der Steuerung um bis zu 50% erwartet. Die Leistungsfähigkeit des Ansatzes wird mithilfe echter Systemdaten evaluiert und mit etablierten Ansätzen verglichen.

Die Erkenntnisse können als Leitlinie dienen und den Transfer von Reinforcement Learning in die Praxis erleichtern – nicht nur im Bereich intelligenter Fahrzeugsysteme, sondern allgemein zur Lösung herausfordernder Steuerungsprobleme.

Anbindung an strategische Vorhaben

Die Aufmerksamkeit für Reinforcement Learning hat in den letzten Jahren kontinuierlich zugenommen. In der Grundlagenforschung wurden wichtige Durchbrüche erzielt und die Anwendungsmöglichkeiten werden immer klarer.

Reinforcement Learning hat als wesentliches Element von Systemen wie AlphaGo zunächst die Spielewelt revolutioniert und ist nun drauf und dran weitere Bereiche, von der Robotik über die chemische Industrie und das Finanzwesen bis hin zu den in REINFORCE behandelten intelligenten Fahrzeugsystemen nachhaltig zu verändern.

Die am Projekt beteiligten Partner messen Reinforcement Learning disruptives Potenzial bei. Reinforcement Learning steht nicht länger nur auf strategischen Forschungsroadmaps weit oben, sondern spielt zunehmend auch in betrieblichen Digitalisierungsstrategien eine Rolle.

Über die RL Community von AI Austria, die von Catherine Laflamme geleitet wird, ist eine enge Abstimmung mit anderen Aktivitäten im Bereich Reinforcement Learning in Österreich gewährleistet.

Projektbeteiligte

Projektleitung

Fraunhofer Austria Research GmbH

Projektpartner:innen

Leopold-Franzens-Universität Innsbruck, Institut für Wirtschaftsinformatik, Produktionswirtschaft und Logistik
Institute for Computer Science and Control - SZTAKI
VRVis Zentrum für Virtual Reality und Visualisierung Forschungs-GmbH
ENGEL AUSTRIA GmbH
Robert Bosch AG

Kontaktadresse

Fraunhofer Austria Research GmbH
Catherine Laflamme, PhD
Tel.: +43 (676) 888 616 34
E-Mail: catherine.laflamme@fraunhofer.at