Forstærkende læring er en form for Maskinlæring Det er baseret på belønninger og straffe. Denne artikel forklarer dets definition, hvordan det fungerer, og dets grundlæggende anvendelser.
Definition af forstærkningslæring
Brug programmer Kunstig intelligens (AI) Kontinuerligt lærende maskiner forbedrer hastighed og effektivitet. I forstærkningslæring belønnes AI for ønskværdige handlinger og straffes for uønskede.
Denne læring kan kun ske i et kontrolleret miljø. Programmøren tildeler positive og negative værdier (eller "point") til bestemte adfærdsmønstre, og AI'en kan frit udforske miljøet for at opnå belønninger og undgå straffe.
Ideelt set ville AI udsætte kortsigtede gevinster til fordel for langsigtede gevinster. Så hvis den får valget mellem at tjene ét point på ét minut eller 10 point på to minutter, vil den udsætte tilfredsstillelsen og gå efter den højere værdi. Samtidig vil den lære at undgå straffende handlinger, der ville få den til at miste point.
Eksempler på forstærkningslæring
Virkelige anvendelser af AI baseret på forstærkningslæring er noget begrænsede, men metoden har vist lovende resultater i laboratorieforsøg.
For eksempel har denne læring trænet AI til at spille videospil. AI lærer at nå spilmål gennem trial and error. For eksempel, i et spil som Super Mario Bros., vil AI'en bestemme den bedste måde at nå slutningen af hvert niveau, samtidig med at man undgår fjender og forhindringer. Snesevis af AI-programmer har med succes gennemført specifikke spil, og MuZero mestrer endda videospil, som den oprindeligt ikke var designet til at spille.
Denne læring er blevet brugt til at træne ERM-software (Enterprise Resource Management) til at allokere forretningsressourcer for optimale langsigtede resultater. Forstærkende læringsalgoritmer er blevet brugt til at træne robotter til at gå og udføre andre fysiske opgaver. Denne læring har også vist sig lovende inden for statistik, simulering, ingeniørvidenskab, produktion og medicinsk forskning.
Dens grænser
Den primære begrænsning ved forstærkningslæringsalgoritmer er deres afhængighed af et lukket miljø. For eksempel kan en robot bruge den til at navigere i et rum, hvor alt er statisk. Denne læring vil dog ikke hjælpe den med at navigere i en korridor fyldt med mennesker i bevægelse, fordi miljøet konstant ændrer sig. Robotten vil simpelthen formålsløst støde ind i objekter uden at udvikle et klart billede af sine omgivelser.
Fordi denne læring er baseret på trial and error, kan den være tidskrævende og ressourcekrævende. På den positive side kræver forstærkningslæring kun lidt menneskelig overvågning.
På grund af dens begrænsninger kombineres den ofte med andre typer maskinlæring. Selvkørende køretøjer bruger for eksempel dens algoritmer i forbindelse med andre maskinlæringsteknikker, såsom overvåget læring, til at navigere på veje uden kollisioner.
Typer af dens algoritmer
Forstærkningslæringsalgoritmer kan opdeles i to hovedkategorier: modelbaserede eller modelfrie. En modelbaseret algoritme udvikler en model af sine omgivelser for at forudsige belønningerne ved potentielle handlinger. I modelfri forstærkningslæring lærer AI-agenten direkte gennem trial and error.
Modelbaserede algoritmer er ideelle til simuleringer og statiske miljøer, såsom et samlebånd, hvor målet er at gentage den samme handling igen og igen. Eksempler på modelbaserede algoritmer omfatter værdiiteration og politikiteration, hvor en AI-agent følger en streng formel (eller "politik") for at bestemme den bedste handlingsforløb.
Modelfri algoritmer er nyttige til mere dynamiske situationer i den virkelige verden. Et eksempel på modelfri læring er Deep Q-Network (DQN) algoritmen, som bruger et neuralt netværk til at forudsige resultater baseret på tidligere handlinger og resultater. DQN-applikationer spænder fra aktiemarkedsprognoser til regulering af luftkvaliteten i store bygninger.
Der findes en variant af denne læring kaldet invers forstærkningslæring, hvilket er når en AI-agent lærer ved at observere menneskers handlinger.
Ofte stillede spørgsmål:
Q1: Hvad er Q-Learning?
Svar: Q-Learning er et andet udtryk for modelfri algoritmer. Denne særlige type forstærkningslæring kræver ikke en model af miljøet for at kunne lave forudsigelser; den har til formål at "lære" de handlinger, der udføres af forskellige tilstande.
Q2: Hvad er politikken inden for forstærkningslæring?
Svar: En "politik" er en plan, som et læringssystem bruger til at løse problemer. Den bestemmer, hvad det gør og hvornår, baseret på de oplysninger, det har, og den løsning, det forsøger at opnå.