Tema Jannah A licença não é validada, vá para a página de opções do tema para validar a licença, você precisa de uma única licença para cada nome de domínio.

O que é aprendizado por reforço?

O aprendizado por reforço é um tipo de aprendizado de máquina Baseia-se em recompensas e punições. Este artigo explica sua definição, como funcionam e suas aplicações básicas.

GettyImages-1161674558-bbb1f71d068e40c9b832f2eaad4fc348 ما هو التعلم المعزز؟

Conteúdo

Definição de aprendizado por reforço

programas são usados inteligência artificial (IA) Aprendizado de máquina continuamente para melhorar a velocidade e a eficiência. No aprendizado por reforço, a IA é recompensada por ações desejadas e punida por ações indesejadas.

Esse aprendizado só pode acontecer em um ambiente controlado. O programador atribui valores (ou “pontos”) positivos e negativos a determinados comportamentos, e a IA pode explorar livremente o ambiente para obter recompensas e evitar penalidades.

Idealmente, a IA atrasaria os ganhos de curto prazo em favor dos ganhos de longo prazo, portanto, se escolhesse entre ganhar 10 ponto em XNUMX minuto ou ganhar XNUMX pontos em XNUMX minutos, atrasaria essa gratificação e partiria para o valor mais alto. . Ao mesmo tempo, aprenderá a evitar medidas punitivas que o façam perder pontos.

Exemplos de aprendizado por reforço

As aplicações no mundo real da IA ​​baseada em aprendizado por reforço são um tanto limitadas, mas o método mostrou resultados promissores em experimentos de laboratório.

Por exemplo, esse aprendizado treinou a IA para jogar videogames. A IA aprende como atingir os objetivos do jogo por meio de tentativa e erro. Por exemplo, em um jogo como Super Mario Bros. A IA determinará a melhor maneira de chegar ao final de cada nível, evitando inimigos e obstáculos. Dezenas de programas de IA superaram jogos específicos com sucesso, e o MuZero aperfeiçoou videogames para os quais não foi originalmente projetado.

Leia também:  Como usar o FaceTime no Android e no Windows

Esse aprendizado foi usado para treinar o software Enterprise Resource Management (ERM) para alocar recursos de negócios para alcançar os melhores resultados a longo prazo. Algoritmos de aprendizado por reforço têm sido usados ​​para treinar robôs para andar e realizar outras tarefas físicas. Esse aprendizado também mostrou resultados promissores em estatística, simulação, engenharia, manufatura e pesquisa médica.

seus limites

A principal limitação dos algoritmos de aprendizado por reforço é sua dependência de um ambiente fechado. Por exemplo, um robô pode usá-lo para navegar em uma sala onde tudo está parado. No entanto, esse aprendizado não o ajudará a navegar por um corredor cheio de pessoas em movimento porque o ambiente está em constante mudança. O robô vai esbarrar em coisas sem rumo, sem desenvolver uma imagem clara de seus arredores.

Como esse aprendizado é baseado em tentativa e erro, pode consumir mais tempo e recursos. No lado positivo, o aprendizado por reforço não requer muita supervisão humana.

Devido às suas limitações, muitas vezes é combinado com outros tipos de aprendizado de máquina. Veículos autônomos, por exemplo, usam seus algoritmos junto com outras técnicas de aprendizado de máquina, como aprendizado supervisionado, para navegar pelas estradas sem bater.

tipos de algoritmos

Os algoritmos de aprendizado por reforço podem ser separados em duas categorias principais: baseados em modelo ou sem modelo. Um algoritmo baseado em modelo desenvolve um modelo de seu ambiente para prever as recompensas de possíveis ações. No aprendizado por reforço sem modelo, o agente de IA aprende diretamente por tentativa e erro.

Leia também:  Por que o armazenamento do meu telefone está cheio

Algoritmos baseados em modelo são ideais para simulações e ambientes estáticos, como uma linha de montagem, onde o objetivo é repetir a mesma ação repetidamente. Exemplos de seus algoritmos baseados em modelo incluem iteração de valor e iteração de política, na qual um agente de IA segue uma fórmula estrita (ou “política”) para determinar o melhor curso de ação.

Algoritmos sem modelo são úteis para situações mais dinâmicas do mundo real. Um exemplo de aprendizado sem modelo é o algoritmo Deep Q-Network (DQN), que usa uma rede neural para prever resultados com base em ações e resultados anteriores. As aplicações DQN vão desde a previsão do mercado de ações até a regulamentação da qualidade do ar em grandes edifícios.

Existe uma variação desse aprendizado chamada aprendizado por reforço reverso, que é quando um agente de IA aprende observando as ações dos humanos.

Perguntas frequentes:

Q1: O que é Q-Learning?
A resposta: Q-Learning é outro termo para algoritmos sem modelo. Esse tipo específico de aprendizado por reforço não precisa de um modelo do ambiente para fazer previsões sobre ele; Visa “aprender” as ações realizadas por diferentes países.

Q2: Qual é a política de aprendizado por reforço?
A resposta: A política é um plano que o sistema de aprendizagem usa para resolver problemas. Ela determina o que fazer e quando com base nas informações que possui e na solução que está tentando alcançar.

Ir para o botão superior