Boas vindas ao 🗺️ Guia de Aprendizado do Repositório de Aprendizado por Reforço! Aqui, você encontra sugestões de como seguir os tópicos do repositório de modo a organizar melhor seu aprendizado. Ao final do arquivo, também temos recomendações de materiais extra para aprofundar no assunto.
- Introdução ao Aprendizado por Reforço
- Explica os conceitos básicos da área de Aprendizado por Reforço.
- Pré-requisitos: Nenhum.
Antes de estudar alguns algoritmos de Aprendizado por Reforço, pode ser interessante se familiarizar com algumas bibliotecas da área de maneira prática, de modo a motivar os estudos.
-
- Aprenda como funciona um ambiente na biblioteca do Gym.
- Pré-requisitos: Introdução ao Aprendizado por Reforço.
-
- Aprenda na prática a programar um agente de Aprendizado por Reforço Profundo.
- Pré-requisitos: Gym.
Os algoritmos fundamentais do Aprendizado por Reforço se encontram nesta categoria. É importante entender pelo menos alguns para adentrar assuntos mais modernos da área. A seguir, está apresentada uma taxonomia desses algoritmos clássicos:
-
- O problema mais clássico da área! Aprender a escolher a melhor ação em uma situação simples.
- Pré-requisitos: Introdução ao Aprendizado por Reforço.
-
- Um simples método de Aprendizado por Reforço para resolver problemas com mais estados que os Bandits.
- Pré-requisitos: Bandits.
-
- Um dos algoritmo mais importantes de Aprendizado por Reforço! Mais aplicável que Monte Carlo e Bandits.
- Pré-requisitos: Bandits.
Por fim, temos os algoritmos de Aprendizado por Reforço Profundo, que se baseiam em redes neurais. Estes são alguns dos mais utilizados em aplicações modernas da área, já que podem representar problemas mais complexos. A seguir, está a apresentada uma taxonomia desses algoritmos:
-
- O algoritmo mais popular de Aprendizado por Reforço Profundo. Um aprimoramento de Q-Learning com redes neurais.
- Pré-requisitos: Q-Learning.
-
- Um importante algoritmo de Aprendizado por Reforço profundo que aproxima diretamente a política ótima, sem estimar a função de valor.
- Pré-requisitos: Monte Carlo.
-
- Algoritmo resultante da poderosa combinação entre Policy Gradient e uma rede neural para estimar a função de valor.
- Pré-requisitos: Deep Q-Learning e Policy Gradient.
A seguir, disponibilizamos também alguns materiais extras para se aprofundar em mais conteúdos de Aprendizado por Reforço!
- Livro - Sutton & Barto: Livro fundamental de Aprendizado por Reforço. Detalha grande parte da teoria da área bem como seus principais algoritmos.
- Spinning up - OpenAI: Blog da OpenAI com explicação e implementação de vários algoritmos modernos de Aprendizado por Reforço Profundo.
- Aprendizado por Reforço - Coursera: Curso da Universidade de Alberta no Coursera sobre Aprendizado por Reforço. Explica muito dos mesmos conteúdos que o livro de maneira mais visual.
- Vídeo Aulas - David Silver: Aulas de Aprendizado por Reforço do professor da University College London e pesquisador da DeepMind.