Posílené učení je druh strojové učení Je založen na odměnách a trestech. Tento článek vysvětluje jejich definici, jak fungují a jejich základní aplikace.
Definice posilovacího učení
se používají programy umělá inteligence (AI) Nepřetržité strojové učení pro zlepšení rychlosti a efektivity. Při posilovacím učení je AI odměňována za požadované akce a potrestána za nežádoucí akce.
Toto učení může probíhat pouze v kontrolovaném prostředí. Programátor přiřadí určitému chování kladné a záporné hodnoty (neboli „body“) a AI může volně prozkoumávat prostředí, aby získala odměny a vyhnula se penalizacím.
V ideálním případě by umělá inteligence oddálila krátkodobé zisky ve prospěch dlouhodobých zisků, takže pokud by se rozhodla mezi výhrou 10 bodu za XNUMX minutu nebo výhrou XNUMX bodů za XNUMX minuty, oddálila by to uspokojení a šla by na vyšší hodnotu. . Zároveň se naučí vyhýbat represivním opatřením, která mu způsobují ztrátu bodů.
Příklady posilovacího učení
Reálné aplikace umělé inteligence založené na učení jsou poněkud omezené, ale metoda ukázala slibné výsledky v laboratorních experimentech.
Toto učení například vycvičilo AI k hraní videoher. Umělá inteligence se učí, jak dosáhnout cílů hry pomocí pokusů a omylů. Například ve hře jako Super Mario Bros. Umělá inteligence určí nejlepší způsob, jak dosáhnout konce každé úrovně a zároveň se vyhnout nepřátelům a překážkám. Desítky programů umělé inteligence úspěšně vymanévrovaly konkrétní hry a MuZero zdokonalilo videohry, pro které původně nebyly navrženy.
Toto učení bylo použito k školení softwaru Enterprise Resource Management (ERM) k alokaci obchodních zdrojů k dosažení nejlepších dlouhodobých výsledků. Algoritmy učení zesílení byly použity k trénování robotů chodit a vykonávat další fyzické úkoly. Toto učení také ukázalo slibné výsledky ve statistice, simulaci, strojírenství, výrobě a lékařském výzkumu.
jeho limity
Hlavním omezením výukových algoritmů je jejich závislost na uzavřeném prostředí. Robot jej může použít například k navigaci v místnosti, kde je vše nehybné. Toto učení vám však nepomůže zorientovat se v koridoru plném pohybujících se lidí, protože prostředí se neustále mění. Robot bude bezcílně narážet do věcí, aniž by si vytvořil jasný obraz o svém okolí.
Vzhledem k tomu, že toto učení je založeno na pokusech a omylech, může zabrat více času a zdrojů. Pozitivní je, že posilovací učení nevyžaduje velký lidský dohled.
Kvůli svým omezením se často kombinuje s jinými typy strojového učení. Například samořídící vozidla používají své algoritmy spolu s dalšími technikami strojového učení, jako je učení pod dohledem, k navigaci po silnicích bez havárie.
typy algoritmů
Algoritmy učení zesílení lze rozdělit do dvou hlavních kategorií: založené na modelu nebo bez modelu. Algoritmus založený na modelu vyvíjí model svého prostředí, aby předpovídal odměny za možné akce. Při výuce bez modelu se AI agent učí přímo metodou pokusů a omylů.
Algoritmy založené na modelu jsou ideální pro simulace a statická prostředí, jako je montážní linka, kde je cílem opakovat stejnou akci opakovaně. Příklady jejích algoritmů založených na modelu zahrnují iteraci hodnot a iteraci zásad, ve kterých agent AI postupuje podle přísného vzorce (neboli „zásady“), aby určil nejlepší postup.
Algoritmy bez modelu jsou užitečné pro dynamičtější situace v reálném světě. Příkladem učení bez modelu je algoritmus Deep Q-Network (DQN), který využívá neuronovou síť k předpovídání výsledků na základě předchozích akcí a výsledků. Aplikace DQN sahají od předpovědí akciového trhu až po regulaci kvality ovzduší ve velkých budovách.
Existuje variace tohoto učení nazývaná učení se zpětným posilováním, což je, když se agent AI učí pozorováním akcí lidí.
Často kladené otázky:
Q1: Co je Q-Learning?
Odpovědět: Q-Learning je další termín pro algoritmy bez modelu. Tento konkrétní typ posilovacího učení nepotřebuje model prostředí, aby o něm mohl předpovídat; Jeho cílem je „naučit se“ akce podniknuté různými zeměmi.
Q2: Jaká je politika posilovacího učení?
Odpovědět: Politika je plán, který vzdělávací systém používá k řešení problémů. Určuje, co a kdy dělá, na základě informací, které má, a řešení, kterého se snaží dosáhnout.