Ein Schritt hin zu sicheren und zuverlässigen Autopiloten für das Fliegen
Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.
Vorheriges Bild Nächstes Bild
Im Film „Top Gun: Maverick“ hat Maverick, gespielt von Tom Cruise, die Aufgabe, junge Piloten für eine scheinbar unmögliche Mission auszubilden – ihre Jets tief in eine felsige Schlucht zu fliegen und dabei so tief über dem Boden zu bleiben, dass sie nicht entdeckt werden können per Radar, dann schnell in einem extremen Winkel aus der Schlucht aufsteigen und dabei den Felswänden ausweichen. Spoiler-Alarm: Mit Mavericks Hilfe erfüllen diese menschlichen Piloten ihre Mission.
Eine Maschine hingegen würde Schwierigkeiten haben, die gleiche rasante Aufgabe zu bewältigen. Für ein autonomes Flugzeug beispielsweise steht der einfachste Weg zum Ziel im Widerspruch zu dem, was die Maschine tun muss, um eine Kollision mit den Canyonwänden zu vermeiden oder unentdeckt zu bleiben. Viele bestehende KI-Methoden sind nicht in der Lage, diesen Konflikt, das sogenannte Stabilisierungs-Vermeidungs-Problem, zu überwinden und würden ihr Ziel nicht sicher erreichen.
MIT-Forscher haben eine neue Technik entwickelt, die komplexe Stabilisierungs- und Vermeidungsprobleme besser lösen kann als andere Methoden. Ihr maschinell lernender Ansatz erreicht oder übertrifft die Sicherheit bestehender Methoden und sorgt gleichzeitig für eine zehnfache Steigerung der Stabilität, was bedeutet, dass der Agent seinen Zielbereich erreicht und dort stabil bleibt.
In einem Experiment, das Maverick stolz machen würde, steuerte ihre Technik ein simuliertes Düsenflugzeug effektiv durch einen engen Korridor, ohne auf den Boden zu krachen.
„Dies ist ein seit langem bestehendes, herausforderndes Problem. Viele Leute haben sich das angeschaut, wussten aber nicht, wie sie mit derart hochdimensionalen und komplexen Dynamiken umgehen sollen“, sagt Chuchu Fan, Wilson-Assistenzprofessor für Luft- und Raumfahrt und Mitglied des Laboratory for Information and Decision Systems (LIDS). ) und leitender Autor eines neuen Artikels zu dieser Technik.
Zu Fan gesellt sich Hauptautor Oswin So, ein Doktorand. Das Papier wird auf der Konferenz „Robotics: Science and Systems“ vorgestellt.
Die Stabilisierung-Vermeidung-Herausforderung
Viele Ansätze lösen komplexe Stabilisierungs-Vermeidungs-Probleme, indem sie das System vereinfachen, sodass sie es mit einfacher Mathematik lösen können, aber die vereinfachten Ergebnisse halten der Dynamik in der realen Welt oft nicht stand.
Effektivere Techniken nutzen Reinforcement Learning, eine Methode des maschinellen Lernens, bei der ein Agent durch Versuch und Irrtum lernt und für Verhalten, das ihn einem Ziel näher bringt, eine Belohnung erhält. Aber hier gibt es eigentlich zwei Ziele – stabil bleiben und Hindernissen ausweichen – und die richtige Balance zu finden ist mühsam.
Die MIT-Forscher haben das Problem in zwei Schritte unterteilt. Zunächst formulieren sie das Stabilisierungs-Vermeidungs-Problem in ein eingeschränktes Optimierungsproblem um. In diesem Setup ermöglicht die Lösung der Optimierung dem Agenten, sein Ziel zu erreichen und zu stabilisieren, was bedeutet, dass er innerhalb einer bestimmten Region bleibt. Durch die Anwendung von Einschränkungen stellen sie sicher, dass der Agent Hindernissen aus dem Weg geht, erklärt So.
Im zweiten Schritt formulieren sie dann dieses eingeschränkte Optimierungsproblem in eine mathematische Darstellung um, die als Epigraph-Form bekannt ist, und lösen es mithilfe eines Deep-Reinforcement-Learning-Algorithmus. Mit der Epigraph-Form können sie die Schwierigkeiten umgehen, mit denen andere Methoden beim Einsatz von Reinforcement Learning konfrontiert sind.
„Deep Reinforcement Learning ist jedoch nicht darauf ausgelegt, die Epigraphform eines Optimierungsproblems zu lösen, daher konnten wir es nicht einfach in unser Problem integrieren. Wir mussten die mathematischen Ausdrücke ableiten, die für unser System funktionieren. Sobald wir diese neuen Ableitungen hatten, kombinierten wir sie mit einigen bestehenden technischen Tricks, die von anderen Methoden verwendet wurden“, sagt So.
Keine Punkte für den zweiten Platz
Um ihren Ansatz zu testen, entwarfen sie eine Reihe von Kontrollexperimenten mit unterschiedlichen Anfangsbedingungen. In einigen Simulationen muss der autonome Agent beispielsweise eine Zielregion erreichen und darin bleiben, während er drastische Manöver durchführt, um Hindernissen auszuweichen, die sich auf Kollisionskurs mit ihm befinden.
Im Vergleich zu mehreren Basislinien war ihr Ansatz der einzige, der alle Flugbahnen stabilisieren und gleichzeitig die Sicherheit gewährleisten konnte. Um ihre Methode noch weiter voranzutreiben, flogen sie damit ein simuliertes Düsenflugzeug in einem Szenario, das man in einem „Top Gun“-Film sehen könnte. Der Jet musste sich auf einem bodennahen Ziel stabilisieren und dabei eine sehr niedrige Höhe beibehalten und innerhalb eines engen Flugkorridors bleiben.
Dieses simulierte Jet-Modell wurde 2018 als Open-Source-Version bereitgestellt und von Flugsteuerungsexperten als Testherausforderung entwickelt. Könnten Forscher ein Szenario erstellen, in dem ihr Controller nicht fliegen könnte? Aber das Modell war so kompliziert, dass es schwierig war, damit zu arbeiten, und es konnte immer noch keine komplexen Szenarien bewältigen, sagt Fan.
Der Controller der MIT-Forscher war in der Lage, einen Absturz oder Strömungsabriss des Jets zu verhindern und gleichzeitig das Ziel weitaus besser zu stabilisieren als alle anderen Basislinien.
Zukünftig könnte diese Technik ein Ausgangspunkt für die Entwicklung von Steuerungen für hochdynamische Roboter sein, die Sicherheits- und Stabilitätsanforderungen erfüllen müssen, wie etwa autonome Lieferdrohnen. Oder es könnte als Teil eines größeren Systems implementiert werden. Möglicherweise wird der Algorithmus nur dann aktiviert, wenn ein Auto auf einer verschneiten Straße ins Schleudern gerät, um dem Fahrer zu helfen, sicher wieder auf eine stabile Flugbahn zu navigieren.
„Das Navigieren in Extremszenarien, mit denen ein Mensch nicht umgehen könnte, ist die Stärke ihres Ansatzes“, fügt So hinzu.
„Wir glauben, dass ein Ziel, das wir als Fachgebiet anstreben sollten, darin besteht, dem Verstärkungslernen die Sicherheits- und Stabilitätsgarantien zu geben, die wir benötigen, um uns Sicherheit zu geben, wenn wir diese Controller auf geschäftskritischen Systemen einsetzen.“ Wir glauben, dass dies ein vielversprechender erster Schritt zur Erreichung dieses Ziels ist“, sagt er.
In Zukunft wollen die Forscher ihre Technik verbessern, damit sie Unsicherheiten bei der Lösung der Optimierung besser berücksichtigen kann. Sie wollen auch untersuchen, wie gut der Algorithmus funktioniert, wenn er auf Hardware eingesetzt wird, da es zu Diskrepanzen zwischen der Dynamik des Modells und der in der realen Welt kommen wird.
„Das Team von Professor Fan hat die Leistung des verstärkenden Lernens für dynamische Systeme verbessert, bei denen es auf Sicherheit ankommt. Anstatt nur ein Ziel zu erreichen, entwickeln sie Controller, die dafür sorgen, dass das System sein Ziel sicher erreichen und dort auf unbestimmte Zeit bleiben kann“, sagt Stanley Bak, Assistenzprofessor am Fachbereich Informatik der Stony Brook University, der nicht an dieser Forschung beteiligt war . „Ihre verbesserte Formulierung ermöglicht die erfolgreiche Generierung sicherer Steuerungen für komplexe Szenarien, einschließlich eines nichtlinearen Düsenflugzeugmodells mit 17 Zuständen, das teilweise von Forschern des Air Force Research Lab (AFRL) entwickelt wurde und nichtlineare Differentialgleichungen mit Hub- und Widerstandstabellen enthält. ”
Die Arbeit wird zum Teil vom MIT Lincoln Laboratory im Rahmen des Programms „Safety in Aerobatic Flight Regimes“ finanziert.
Forscher am MIT haben ein neues künstliches Intelligenzsystem entwickelt, das dem Autopiloten helfen soll, Hindernissen auszuweichen und gleichzeitig eine gewünschte Flugbahn beizubehalten, berichtet Kyle Wiggers für TechCrunch. „Jeder alte Algorithmus kann wilde Richtungsänderungen vorschlagen, um nicht abzustürzen, aber es ist schwieriger, dies zu tun und gleichzeitig die Stabilität aufrechtzuerhalten und nichts darin zu zerdrücken“, schreibt Wiggers.
Vorheriger Artikel Nächster Artikel
Vorheriger Artikel Nächster Artikel
Die Stabilisierung-Vermeidung-HerausforderungKeine Punkte für den zweiten Platz