Domain Randomization Reinforcement Learning Environment and Reward Function Design for Drone Slope Landing based on PPO

Ho-Seong Lee, Hui-Seok Ahn, Gun-Woo Kim

Published: 30 Sept 2025, Last Modified: 23 Jan 2026The Journal of Korean Institute of Information TechnologyEveryoneRevisionsCC BY-SA 4.0

Abstract: PPO 알고리즘을 활용해 드론의 경사면 착륙을 훈련시키고, 위치, 속도, 방향 정렬을 위한 희소-밀집 결합 보상 함수와 도메인 랜덤화 기법을 적용한 0도에서 30도의 무작위 경사각 생성 훈련 환경을 구축했다. 실험 결과, 제안된 방법은 0도에서 30도의 경사면에서 99.67%의 일관된 착륙 성공률을 달성해 특정 각도에 과적합 되는 커리큘럼 러닝 방법보다 개선되었으며, PPO, SAC, A2C 알고리즘 비교에서도 PPO가 가장 우수했다. 본 연구는 커리큘럼 러닝 없이 일반화된 드론 착륙 학습 방법을 제시하며, 향후 3차원 환경 확장과 실제 조건 검증을 할 예정이다.

External IDs:doi:10.14801/jkiit.2025.23.9.105