Förstärkande lärande är en typ av Arabisk التعلم Den är baserad på belöningar och straff. Den här artikeln förklarar dess definition, hur den fungerar och dess grundläggande tillämpningar.
Definition av förstärkningsinlärning
Använd program Artificiell intelligens (AI) Kontinuerligt lärande maskiner förbättrar hastighet och effektivitet. I förstärkningsinlärning belönas AI för önskvärda handlingar och straffas för oönskade.
Denna inlärning kan endast ske i en kontrollerad miljö. Programmeraren tilldelar positiva och negativa värden (eller "poäng") till vissa beteenden, och AI:n kan fritt utforska omgivningen för att få belöningar och undvika straff.
Idealiskt sett skulle AI skjuta upp kortsiktiga vinster till förmån för långsiktiga vinster. Så om den får välja mellan att tjäna en poäng på en minut eller 10 poäng på två minuter, kommer den att skjuta upp tillfredsställelsen och satsa på det högre värdet. Samtidigt kommer den att lära sig att undvika straffåtgärder som skulle få den att förlora poäng.
Exempel på förstärkningsinlärning
Verkliga tillämpningar av AI baserad på förstärkningsinlärning är något begränsade, men metoden har visat lovande resultat i laboratorieexperiment.
Till exempel har detta lärande tränat AI att spela videospel. AI lär sig att uppnå spelmål genom trial and error. Till exempel, i ett spel som Super Mario Bros., kommer AI:n att bestämma det bästa sättet att nå slutet av varje nivå samtidigt som man undviker fiender och hinder. Dussintals AI-program har framgångsrikt klarat specifika spel, och MuZero bemästrade till och med videospel som den ursprungligen inte var utformad för att spela.
Denna kunskap har använts för att träna programvara för företagsresurshantering (ERM) för att allokera affärsresurser för optimala långsiktiga resultat. Algoritmer för förstärkningsinlärning har använts för att träna robotar att gå och utföra andra fysiska uppgifter. Denna kunskap har också visat lovande resultat inom statistik, simulering, teknik, tillverkning och medicinsk forskning.
Dess gränser
Den största begränsningen med förstärkningsinlärningsalgoritmer är deras beroende av en sluten miljö. Till exempel kan en robot använda den för att navigera i ett rum där allt är statiskt. Detta lärande kommer dock inte att hjälpa den att navigera i en korridor fylld med människor i rörelse eftersom miljön ständigt förändras. Roboten kommer helt enkelt planlöst att stöta in i föremål utan att utveckla en tydlig bild av sin omgivning.
Eftersom detta lärande bygger på trial and error kan det vara tidskrävande och resurskrävande. På den positiva sidan kräver förstärkningsinlärning lite mänsklig övervakning.
På grund av dess begränsningar kombineras det ofta med andra typer av maskininlärning. Självkörande fordon använder till exempel dess algoritmer i kombination med andra maskininlärningstekniker, såsom övervakad inlärning, för att navigera vägar utan kollisioner.
Typer av dess algoritmer
Algoritmer för förstärkningsinlärning kan delas in i två huvudkategorier: modellbaserade eller modellfria. En modellbaserad algoritm utvecklar en modell av sin omgivning för att förutsäga belöningarna för potentiella handlingar. I modellfri förstärkningsinlärning lär sig AI-agenten direkt genom trial and error.
Modellbaserade algoritmer är idealiska för simuleringar och statiska miljöer, såsom ett monteringsband, där målet är att upprepa samma åtgärd om och om igen. Exempel på modellbaserade algoritmer inkluderar värdeiteration och policyiteration, där en AI-agent följer en strikt formel (eller "policy") för att bestämma den bästa handlingsplanen.
Modellfria algoritmer är användbara för mer dynamiska verkliga situationer. Ett exempel på modellfritt lärande är Deep Q-Network (DQN)-algoritmen, som använder ett neuralt nätverk för att förutsäga resultat baserat på tidigare handlingar och resultat. DQN-tillämpningar sträcker sig från aktiemarknadsprognoser till luftkvalitetsreglering i stora byggnader.
Det finns en variant av detta lärande som kallas invers förstärkningsinlärning, vilket är när en AI-agent lär sig genom att observera människors handlingar.
Vanliga frågor:
F1: Vad är Q-Learning?
Svar: Q-Learning är en annan term för modellfria algoritmer. Denna typ av förstärkningsinlärning kräver inte en modell av miljön för att göra förutsägelser om; den syftar till att "lära sig" de åtgärder som vidtas av olika tillstånd.
F2: Vilken är policyn för förstärkningsinlärning?
Svar: En ”policy” är en plan som ett lärande system använder för att lösa problem. Den avgör vad det gör och när, baserat på den information det har och den lösning det försöker uppnå.