Motivationen, Möglichkeiten und Herausforderungen
Dr. N. Kemal Ure - Direktor für KI, Eatron Technologies

Teil 2: Beweggründe und Möglichkeiten

Im ersten Teil dieser Blogserie über Reinforcement Learning (RL) haben wir einen Überblick über RL gegeben und beschrieben, wie es zu einem der beliebtesten Teilgebiete der Künstlichen Intelligenz (KI) wurde. In diesem Teil gehen wir auf die Beweggründe und Möglichkeiten der Anwendung von RL auf das autonome Fahren ein.

1. Kontrolle/Entscheidungsfindung in lauten Umgebungen

Eine der größten Herausforderungen beim Entwurf von Steuerungssystemen ist der Umgang mit Unsicherheiten in der Dynamik des Modells und externen Störungen. Die klassischen Entwurfsverfahren sind gut geeignet, um mit Unsicherheiten umzugehen, die auf der Signalebene strukturiert sind, wie Sensorrauschen oder parametrische Unsicherheit in der Systemdynamik. Der Umgang mit unstrukturierten Unsicherheiten, wie z. B. Manöver des umgebenden Verkehrs, ist für diese Methoden hingegen nicht möglich. Diese Unfähigkeit führt zu konservativen Entwürfen, bei denen die Dynamik des umgebenden Verkehrs stark vereinfacht wird, was zu sicheren, aber leistungsschwachen autonomen Fahrsystemen führt. Da RL jedoch keine Annahmen über die Struktur des zugrunde liegenden Modells macht, kann es lernen, wie der Verkehr zu navigieren ist, indem es einfach mehr Daten beobachtet. Die Unabhängigkeit von Modellannahmen ermöglicht es uns, viel kompliziertere Verkehrsszenarien zu bewältigen, wie z. B. Staus mit hoher Verkehrsdichte, die Bewältigung von Verkehrsunfällen und die Navigation in städtischen Umgebungen mit komplexen Straßenführungen und Regeln.

2. Mehr als Heuristiken, Daumenregeln und Fachwissen

Fast jede Entscheidungsaufgabe kann durch Regeln und Heuristiken angegangen werden. So können wir beispielsweise die Entscheidung eines autonomen Fahrzeugs, die Fahrspur zu wechseln, automatisieren, indem wir das Problem in verschiedene Verkehrsszenarien unterteilen und dann das Expertenwissen nutzen, um jedes Szenario einer Entscheidung zuzuordnen. Dieser Ansatz ist in der Industrie sehr beliebt, da er kostengünstig ist und nur einen minimalen Algorithmusentwurf oder Datenverarbeitung erfordert. Andererseits ist die Leistung solcher regelbasierten Ansätze durch die Qualität und Tiefe der Erfahrung bei der Entwicklung eines solchen Systems streng begrenzt. Darüber hinaus wird es immer Randfälle geben, die nicht gut durch Regeln abgedeckt sind, sowie suboptimale Entscheidungen aufgrund der begrenzten Auflösung der betrachteten Szenarien. Der RL-Ansatz hingegen leidet nicht unter diesen Einschränkungen, da er keine fest kodierten Annahmen über die zu lösenden Probleme macht. Auf Kosten der Sammlung von Daten, entweder aus der realen Welt oder in Verbindung mit einem Simulator, erforscht RL den größten Teil des Lösungs- und Szenarienraums, was in der Regel zu Systemen führt, die einen deutlichen Vorteil gegenüber regelbasierten Systemen haben.

3. Anpassungsfähigkeit an Veränderungen der Problemdynamik

Es kommt häufig vor, dass sich die Dynamik/Parameter des Problems mit der Zeit/Aufgabe ändern. Zum Beispiel können die Verkehrsregeln und die Dynamik in einem bestimmten Teil der Welt nicht mit unseren bisherigen Erfahrungen übereinstimmen. Die Anpassung bestehender Entscheidungsfindungssysteme an diese neuen Aufgaben erfordert in der Regel einen beträchtlichen Aufwand an technischer und manueller Arbeit. Auch hier gilt: Da RL keine Annahmen über das zu lösende Problem macht, kann es sich an diese Veränderungen anpassen. Wenn ein vortrainierter RL-Agent auf eine neue Aufgabe trainiert wird, kann er sein Verhalten an diese neuen Dynamiken anpassen, und bei ausreichender Trainingserfahrung mit der neuen Umgebung kann der Agent sein Verhalten reibungslos ändern, um die Herausforderungen in der neuen Umgebung zu bewältigen.

Kurz gesagt, RL bietet eine Lösung für die Automatisierung kritischer Entscheidungsaufgaben, die mit Daten skalierbar ist, sich an Veränderungen anpassen lässt und das Potenzial hat, regelbasierte Basislösungen zu übertreffen. Im dritten Teil dieser Serie werden wir einen Blick auf die Herausforderungen bei der Anwendung von RL auf reale Szenarien des autonomen Fahrens werfen.