Was ist Reinforcement Learning?

Reinforcement Learning ist eine Art von maschinelles Lernen Es basiert auf Belohnungen und Strafen. In diesem Artikel werden ihre Definition, ihre Funktionsweise und ihre grundlegenden Anwendungen erläutert.

Definition von Reinforcement Learning

Programme verwendet werden Künstliche Intelligenz (KI) Kontinuierliches maschinelles Lernen zur Verbesserung von Geschwindigkeit und Effizienz. Beim Reinforcement Learning wird die KI für gewünschte Aktionen belohnt und für unerwünschte Aktionen bestraft.

Dieses Lernen kann nur in einer kontrollierten Umgebung stattfinden. Der Programmierer weist bestimmten Verhaltensweisen positive und negative Werte (oder „Punkte“) zu und die KI kann die Umgebung frei erkunden, um Belohnungen zu erhalten und Strafen zu vermeiden.

Im Idealfall würde die KI kurzfristige Gewinne zugunsten langfristiger Gewinne verzögern. Wenn sie also zwischen dem Gewinn von 10 Punkt in XNUMX Minute oder dem Gewinn von XNUMX Punkten in XNUMX Minuten wählen würde, würde sie diese Befriedigung verzögern und sich für den höheren Wert entscheiden . Gleichzeitig lernt er, Strafmaßnahmen zu vermeiden, die ihm Punkteverluste einbringen.

Beispiele für verstärkendes Lernen

Die realen Anwendungen der auf Verstärkungslernen basierenden KI sind etwas begrenzt, aber die Methode hat in Laborexperimenten vielversprechende Ergebnisse gezeigt.

Durch dieses Lernen wurde beispielsweise die KI trainiert, Videospiele zu spielen. Die KI lernt durch Versuch und Irrtum, wie man die Spielziele erreicht. Zum Beispiel in einem Spiel wie Super Mario Bros. Die KI bestimmt den besten Weg, um das Ende jedes Levels zu erreichen und dabei Feinden und Hindernissen auszuweichen. Dutzende KI-Programme haben bestimmte Spiele erfolgreich ausmanövriert, und MuZero hat Videospiele perfektioniert, für die es ursprünglich nicht entwickelt wurde.

Lesen Sie auch: Beheben Sie das WhatsApp-Dateiformat, das auf Android nicht unterstützt wird

Diese Erkenntnisse wurden genutzt, um Enterprise Resource Management (ERM)-Software zu schulen, um Geschäftsressourcen so zuzuweisen, dass die besten langfristigen Ergebnisse erzielt werden. Algorithmen des verstärkenden Lernens wurden verwendet, um Robotern das Gehen und die Ausführung anderer körperlicher Aufgaben beizubringen. Diese Erkenntnisse haben auch vielversprechende Ergebnisse in den Bereichen Statistik, Simulation, Ingenieurwesen, Fertigung und medizinische Forschung gezeigt.

seine Grenzen

Die Haupteinschränkung von Reinforcement-Learning-Algorithmen ist ihre Abhängigkeit von einer geschlossenen Umgebung. Beispielsweise kann ein Roboter damit durch einen Raum navigieren, in dem alles stationär ist. Dieses Lernen wird Ihnen jedoch nicht dabei helfen, sich in einem Korridor voller sich bewegender Menschen zurechtzufinden, da sich die Umgebung ständig verändert. Der Roboter wird ziellos gegen Dinge stoßen, ohne ein klares Bild seiner Umgebung zu entwickeln.

Da dieses Lernen auf Versuch und Irrtum basiert, kann es mehr Zeit und Ressourcen in Anspruch nehmen. Positiv zu vermerken ist, dass Reinforcement Learning nicht viel menschliche Aufsicht erfordert.

Aufgrund seiner Einschränkungen wird es häufig mit anderen Arten des maschinellen Lernens kombiniert. Selbstfahrende Fahrzeuge beispielsweise nutzen ihre Algorithmen zusammen mit anderen Techniken des maschinellen Lernens, etwa dem überwachten Lernen, um unfallfrei auf Straßen zu navigieren.

Arten von Algorithmen

Reinforcement-Learning-Algorithmen können in zwei Hauptkategorien unterteilt werden: modellbasiert und modellfrei. Ein modellbasierter Algorithmus entwickelt ein Modell seiner Umgebung, um die Belohnungen möglicher Aktionen vorherzusagen. Beim modellfreien Verstärkungslernen lernt der KI-Agent direkt durch Versuch und Irrtum.

Lesen Sie auch: Die 6 wichtigsten Lösungen für das Abmelden von Telegram auf Mobilgeräten und Desktops

Modellbasierte Algorithmen eignen sich ideal für Simulationen und statische Umgebungen wie ein Fließband, wo das Ziel darin besteht, dieselbe Aktion wiederholt zu wiederholen. Beispiele für seine modellbasierten Algorithmen sind Werteiteration und Richtlinieniteration, bei denen ein KI-Agent einer strengen Formel (oder „Richtlinie“) folgt, um die beste Vorgehensweise zu bestimmen.

Modellfreie Algorithmen sind für dynamischere Situationen in der realen Welt nützlich. Ein Beispiel für modellfreies Lernen ist der Deep Q-Network (DQN)-Algorithmus, der ein neuronales Netzwerk verwendet, um Ergebnisse basierend auf früheren Aktionen und Ergebnissen vorherzusagen. Die Anwendungen von DQN reichen von Börsenprognosen bis hin zur Luftqualitätsregulierung in großen Gebäuden.

Es gibt eine Variante dieses Lernens, die als Reverse-Reinforcement-Learning bezeichnet wird. Dabei lernt ein KI-Agent, indem er die Handlungen von Menschen beobachtet.

Häufig gestellte Fragen:

F1: Was ist Q-Learning?
Die Antwort: Q-Learning ist ein anderer Begriff für modellfreie Algorithmen. Für diese besondere Art des verstärkenden Lernens ist kein Umgebungsmodell erforderlich, um Vorhersagen darüber treffen zu können. Ziel ist es, die von verschiedenen Ländern ergriffenen Maßnahmen zu „lernen“.

F2: Welche Richtlinien gelten beim Reinforcement Learning?
Die Antwort: Richtlinie ist ein Plan, den das Lernsystem zur Lösung von Problemen verwendet. Sie bestimmt, was sie wann tut, basierend auf den ihr vorliegenden Informationen und der Lösung, die sie erreichen möchte.

Verstärkungslernen Was ist Reinforcement Learning?