Jannah-tema Lisensen er ikke validert. Gå til siden for temaalternativer for å validere lisensen. Du trenger en enkelt lisens for hvert domenenavn.

Hva er forsterkende læring?

Forsterkende læring er en slags maskinlæring Den er basert på belønning og straff. Denne artikkelen forklarer deres definisjon, hvordan de fungerer og deres grunnleggende applikasjoner.

GettyImages-1161674558-bbb1f71d068e40c9b832f2eaad4fc348 ما هو التعلم المعزز؟

Innholdsfortegnelse

Definisjon av forsterkende læring

programmer brukes kunstig intelligens (AI) Kontinuerlig maskinlæring for å forbedre hastighet og effektivitet. I forsterkende læring blir AI belønnet for ønskede handlinger og straffet for uønskede handlinger.

Denne læringen kan bare skje i et kontrollert miljø. Programmereren tildeler positive og negative verdier (eller "poeng") til visse atferder, og AI kan fritt utforske miljøet for å oppnå belønninger og unngå straffer.

Ideelt sett ville AI forsinke kortsiktige gevinster til fordel for langsiktige gevinster, så hvis den valgte mellom å vinne 10 poeng på XNUMX minutt eller vinne XNUMX poeng på XNUMX minutter, ville den forsinke den tilfredsstillelsen og gå for den høyere verdien . Samtidig vil han lære å unngå straffetiltak som fører til at han taper poeng.

Eksempler på forsterkende læring

Virkelige anvendelser av forsterkende læringsbasert AI er noe begrenset, men metoden har vist lovende resultater i laboratorieeksperimenter.

For eksempel trente denne læringen AI til å spille videospill. AI lærer hvordan man oppnår spillets mål gjennom prøving og feiling. For eksempel, i et spill som Super Mario Bros. AI vil bestemme den beste måten å nå slutten av hvert nivå mens du unngår fiender og hindringer. Dusinvis av AI-programmer har vellykket utmanøvrert spesifikke spill, og MuZero har perfeksjonert videospill det ikke opprinnelig var designet for å spille.

Les også:  Slik bruker du datavalidering i Google Sheets

Denne læringen har blitt brukt til å trene Enterprise Resource Management (ERM) programvare for å allokere forretningsressurser for å oppnå de beste langsiktige resultatene. Forsterkningslæringsalgoritmer har blitt brukt til å trene roboter til å gå og utføre andre fysiske oppgaver. Denne læringen har også vist lovende resultater innen statistikk, simulering, engineering, produksjon og medisinsk forskning.

sine grenser

Hovedbegrensningen for forsterkende læringsalgoritmer er deres avhengighet av et lukket miljø. En robot kan for eksempel bruke den til å navigere i et rom der alt står stille. Denne læringen vil imidlertid ikke hjelpe deg med å navigere i en korridor full av bevegelige mennesker fordi miljøet er i konstant endring. Roboten vil støte på ting uten mål uten å utvikle et klart bilde av omgivelsene.

Siden denne læringen er basert på prøving og feiling, kan den ta mer tid og ressurser. På plussiden krever ikke forsterkende læring mye menneskelig tilsyn.

På grunn av sine begrensninger, kombineres det ofte med andre typer maskinlæring. Selvkjørende kjøretøy bruker for eksempel sine algoritmer sammen med andre maskinlæringsteknikker, for eksempel overvåket læring, for å navigere på veier uten å krasje.

typer algoritmer

Forsterkende læringsalgoritmer kan deles inn i to hovedkategorier: modellbasert eller modellfri. En modellbasert algoritme utvikler en modell av miljøet for å forutsi belønningen av mulige handlinger. I modellfri forsterkningslæring lærer AI-agenten direkte gjennom prøving og feiling.

Les også:  Hvorfor blokkere noen på Facebook Messenger og hvordan fjerne blokkeringen på 5 minutter

Modellbaserte algoritmer er ideelle for simuleringer og statiske miljøer, som for eksempel et samlebånd, hvor målet er å gjenta den samme handlingen gjentatte ganger. Eksempler på modellbaserte algoritmer inkluderer verdi-iterasjon og policy-iterasjon, der en AI-agent følger en streng formel (eller "policy") for å bestemme den beste handlingen.

Modellfrie algoritmer er nyttige for mer dynamiske situasjoner i den virkelige verden. Et eksempel på modellfri læring er Deep Q-Network (DQN) algoritmen, som bruker et nevralt nettverk til å forutsi utfall basert på tidligere handlinger og utfall. DQN-applikasjoner spenner fra aksjemarkedsprognoser til luftkvalitetsregulering i store bygninger.

Det er en variant av denne læringen som kalles omvendt forsterkningslæring, som er når en AI-agent lærer ved å observere menneskers handlinger.

Ofte stilte spørsmål:

Q1: Hva er Q-Learning?
Svar: Q-Learning er en annen betegnelse for modellfrie algoritmer. Denne spesielle typen forsterkende læring trenger ikke en modell av miljøet for å gi spådommer om det; Den har som mål å "lære" handlingene som utføres av forskjellige land.

Spørsmål 2: Hva er policyen for forsterkende læring?
Svar: Politikk er en plan som læringssystemet bruker for å løse problemer. Hun bestemmer hva hun gjør og når basert på informasjonen hun har og løsningen hun prøver å oppnå.

Gå til toppknappen