본문 바로가기

개념공부101

강화학습 - 2 <MDP를 푸는 Dynamic Programming 기법> 강화학습 문제는 MDP로 정의되는 문제이다. 따라서 강화학습 문제를 풀고 싶으면 MDP 문제를 푸는 기법을 사용하면 된다. MDP 문제는 Agent가 환경을 아는 상황(State Transition Matrix와 Discounted rate를 아는 상황)이냐 그렇지 않느냐에 따라 적용할 수 있는 기법이 다르다. 가장 먼저 환경을 아는 상황에서는 Dynamic Programming 기법 (이하 DP)를 적용할 수 있다. DP를 적용해 문제를 풀기 위해선 문제가 2가지 특성을 가지고 있어야 한다. 첫번째는 Optimal structure이다. 큰 문제의 하위 문제인 작은 문제에서의 최적 값이, 큰 문제에서도 최적값인 것이다. 두번째는 Overlapping problems이다. 큰 문제를 풀기 위해서 작은 문.. 2021. 11. 28.
강화학습 - 1 <Markov 개념> 강화학습은 인공지능의 한 분야로 분류된다. 강화학습이라는 단어를 뜯어보면 강화 + 학습으로 나누어진다. 즉, 강화학습은 학습을 하는 주체가 있고, 학습을 하는 이유는 무엇인가를 강화하기 위함이라고 생각해볼 수 있다. 강화학습은 어떤 환경(Environment)에서 어떤 주체가(Agent) 최대의 보상(Reward)를 얻을 수 있도록 정책(Policy)을 학습하는 기법을 일컫는다. 여기서 환경과 주체는 현실에서 주어지는 문제이고, 보상은 개발자가 정의하는 것 그리고 정책은 주체가 보상을 받도록 하는 행동을 결정하는 기준을 말한다. 강화학습도 여타 다른 알고리즘과 같이 현실의 문제를 해결하기 위한 도구이다. 강화학습을 현실 문제를 풀 기위한 도구로 사용하는데 있어, 가장 기본 배경 개념은 Markov Dec.. 2021. 11. 27.
VSC, Git, Github 유튜브 영상 https://www.youtube.com/watch?v=qkRuIUSdXnw 2021. 7. 26.
Review of Motion Planning Path Planning 알고리즘을 개발 원리 및 시기에 따라 Traditional Algorithm과 ML-based Algorithm으로 분류한다. Tradition Algorithm은 Graph Based method, Sampling based method, Curve Interpolation으로 구분한다. ML-based Algorithm 은 Supervised Learning, Optimal Value Reinforcement Learning, Policy Gradient Reinforcement Learning. Graph Search Based Algorithm 1. Dijsktra's Algorithm 2. A* Algorithm Hybrid A*, Field D*, Anytime A*,.. 2021. 7. 11.
Corridor Map Method(CMM) Path Planning 1. Construction phase - roadmap graph G = (V, E) is buile : serves as a skeleton for the corridors - in each path point, associate the radius R of the largest empty ball - radius R : clearance information and graph are now used to define the corridor map - Corridor Map : is a graph with clearnce information, each edge encodes a local path with the radii R for the corresponding largest empty ball.. 2021. 4. 8.
Hermite Spline <설명, Matlab Code> Hermite Spline : Path Smoothing, Interpolation에 사용 가능한 다항식 점과 점을 연결하면서, 각 점에서의 기울기를 반영하는 부드러운 곡선 생성 3차 다항식 곡선 (Cubic Spline Curve) 형태 -> y = ax^3 + bx^2 + cx + d 3차 다항식 곡선 = 변수 4개 -> 4개의 수식 필요 2개 점의 위치 값, 2개 점에서의 기울기(1차 미분 값) 4개의 Constraint를 사용하여 계산 Hermite Spline을 사용했을 때 기대대는 효과는 아래와 같다. 파란점선은 4개의 포인트를 직선으로 연결한 선이다. 이를 부드럽게 연결하는 곡선을 만드는 것이 목적이다. 각 점의 포인트와 기울기를 안다면 2개 점을 연결하는 3차곡선을 생성할 수 있다. 이를 .. 2020. 10. 11.