본문 바로가기
[Markov Chain] 그럼 마르코프 연쇄는 뭔데? ㅋㅋ 밑도 끝도 없지만 일단 가봅시다. Markov Chain은 이산시간 확률 과정이다. 마르코프 연쇄는 시간에 따른 계의 상태의 변화를 나타낸다. 매 시간마다 계는 상태를 바꾸거나 같은 상태를 유지한다. 상태의 변화를 전이라 한다. 마르코프 성질은 과거가 현재 상태가 주어 졌을 때의 미래상태의 조건부 확률 분포가 과거상태와는 독립적으로 현재 상태에 의해서만 결정된다는 것을 뜻한다 마르코프 성질 은 마르코프 확률 과정과 같은 말이고 strong Markov Property은 Markov property에서 현재가 멈춰있는 시간의 임의의 변수라고 정의되는것을 제외하고 2022. 7. 5.
[Markov Decision Process] MDP 가 도대체 뭐시냐 MDP는 의사 결정 과정을 모델링하는 수학적인 틀을 제공한다. 이때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. MDP는 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제풀이 방법이다. MDP는 이산시간 확률 제어 과정이다. 어떤 시점에, 마르코프 결정 과정은 어떤 상태 s에 존재한다. 의사결정자는 해당 상태 \(s\)에서 어떤 행동 a를 취할 수 있으며, 다음 시점에서 MDP는 확률적으로 새로운 상태 \(s'\)으로 전이(transition)한다. 이때 의사 결정자는 상태 전이에 해당하는 보상 \(R_a(s, s')\)을 받는다. 기존의 상태 \(s\)에서 새로운 상태 \(s'\)로 전이하는 확률은 의사결정자의 행동에 영향을 받는다. 즉, 전이.. 2022. 6. 2.
[강화학습] 완전 바닥 튜토리얼 https://www.gymlibrary.ml/content/environment_creation/ Environment Creation - Gym Documentation Previous API www.gymlibrary.ml 요거보고 따라 만들어 보겠습니다. 확실히 강화학습쪽으로 인력이 많이 필요하고, 가능성이 있어뵈나 뵙니다 ㅎㅎ 이렇게 사용하기 편하게 툴을 풀어주다니! git clone https://github.com/Farama-Foundation/gym-examples 입력 해주면~ gym_examples 폴더를 얻을 수 있습니다잇~ 그러면 envs 폴더안에 __init__.py와 grid_world.py 두개의 파이선 파일이 있는걸 확인 할수 있는데 __init__.py를 수정 하여 실제 .. 2022. 5. 24.
[강화학습] OPEN AI GYM issue gym에서 게임 드릅게 import 안되더니 API 페이지로 제대로 만드려고 그랬었나 봅니다. 모든 GYM 내용이 여기로 옮겨왔네요 https://www.gymlibrary.ml/ Gym Documentation Next API www.gymlibrary.ml 아무튼 편해졌으니까 다행입니다. 2022. 5. 24.
[강화학습 GYM] env.render() Space Invader 문제를 해결하려고 이것저것 해봤는데 아직 뚫어내지 못했당. 그래서 좀더 낮은 level의 문제를 해결하는지 확인해 보고자 Lunar Lander 게임으로 갈아탓다. 근데 이전의 시행착오 글에서와 같이 좀 쉬운게임은 코딩 환경설정부터 간단하다. if __name__ == '__main__': agent = PolicyGradientAgent(ALPHA=0.001, input_dims=[8], GAMMA=0.99, n_actions=4, layer1_size=128, layer2_size=128) # agent.load_checkpoint() env = gym.make('LunarLander-v2') score_history = [] score = 0 num_episodes = 50.. 2022. 5. 23.
[강화학습] CS 234 class 3 & class 4 https://www.youtube.com/watch?v=dRIhrn8cc9w&list=PLRQmQC3wIq9yxKVK1qc0r2nPuInn92LmK&index=3 https://www.youtube.com/watch?v=j080VBVGkfQ&list=PLRQmQC3wIq9yxKVK1qc0r2nPuInn92LmK&index=4 Model Free Evaluation - Policy Evaluation without knowing how the world works 학습목표 Dynamic programming [class 3] Monte Carlo policy Evaluation [class 3] Temporal Difference (TD) [class 3] \(\epsilon-greedy\) policy.. 2022. 5. 2.
[강화학습] CS234 class 2 https://www.youtube.com/watch?v=E3f2Camj0Is&list=PLRQmQC3wIq9yxKVK1qc0r2nPuInn92LmK&index=2 학습목표 1. MP, MRP, MDP Bellman operator, contraction operator, model, Q-value, Policy 정의 암기 2. Value Iteration, Policy Iteration 계산하기 3. 여러 가지 Policy Evaluation Approaches 들의 장단점 알기 4. Contraction Properties 증명할 줄 알기 5. MP, MRP, MDP and Markov assumptions의 한계 알기 - 어떤 policy evaluation methods가 Markov assump.. 2022. 4. 26.
[강화학습] CS234 class1 https://www.youtube.com/watch?v=FgzM3zpZ55o&list=PLRQmQC3wIq9yxKVK1qc0r2nPuInn92LmK&index=1 강화 학습 = Learn to make good sequences of decisions under uncertainty. 강화 학습은 5가지 category를 포함하고 있다. 1. Optimization - best outcome을 주는 optimal way를 찾는 것이 목표 2. Delayed Consequences - decision(action)에 의해 얻어지는 immediate benefit과 logner term benefit의 balance 3. Generalization 4. Learns from experience [Explo.. 2022. 4. 26.
[강화학습] Space-Invader 환경설정 후 학습하기 아주 간단한 tutorial을 소개해 드리고자 한다. 강화 학습은 Environment와 Agent의 Interaction을 통해 학습하는데 . py 코드가 자연스럽게 세 개가 된다 Environment.py Agent.py Interaction.py 이렇게 딱딱 나눌 수 있는 그런 건 아니라서 조금 부가 설명을 하자면 main.py -> environment 설정과 interaction을 실행시키는 코드 agent.py -> agent를 선언하고 취할 행동들을 선언 interaction의 주체 model.py -> interaction의 연산 부분 그리하여 역순으로 코드를 소개해드리겠습니다~! main.py입니다. 간단하게 DQN을 짜 놓은 모습~ import torch import torch.nn .. 2022. 4. 14.
[강화학습] OPEN AI GYM issue 강화 학습 공부를 위해 이런저런 실습 코드를 따라 치던 도중 import gym env = gym.make('~') 이러한 형태의 코드 자체가 실행이 안 되는 아주아주 답답한 상황에 이르렀다. 저 ~ 에 들어가는 부분은 게임의 이름들인데 1. classic control https://gym.openai.com/envs/#classic_control Gym: A toolkit for developing and comparing reinforcement learning algorithms Open source interface to reinforcement learning tasks. The gym library provides an easy-to-use suite of reinforcement learn.. 2022. 4. 11.
[RL] Q - Learning 2022. 3. 29.
[RL] Reinforcement Learning 구분 2022. 3. 29.
[Reinforcement Learning] 강화학습 기본 2022. 3. 29.