Предотвращение воздушных столкновений с использованием рекуррентного обучения с подкреплением с учетом задержки реакции пилота
Авторы
Северо-Западный политехнический университет, Западная дорога дружбы, 127, Сиань, провинция Шэньси, 710072 Китайская Народная Республика
e-mail: liuzuocheng@mail.nwpu.edu.cn
Аннотация
Системы предотвращения воздушных столкновений имеют критическое значение для обеспечения безопасности полетов, особенно в условиях роста воздушного движения. В то время как традиционные системы, такие как система предупреждения столкновения самолетов в воздухе (TCAS,) предлагают решения, основанные на процессах принятия решений Маркова (MDP), эти модели не учитывают важные реальные факторы, такие как задержки реакции пилота. В данной работе мы формулируем задачу предотвращения воздушных столкновений как частично наблюдаемый марковский процесс принятия решений (POMDP), чтобы решить проблемы, вызванные задержками реакции пилота. Для решения полученной задачи POMDP мы применяем алгоритм Long Short-Term Memory Soft Actor-Critic дискретный (LSTM SAC-d), который расширяет фреймворк Soft Actor-Critic дискретный (SAC-d) за счет включения временных зависимостей. Наш модель учитывает задержку реакции пилота в 3 секунды, что отражает реальные ограничения. Мы сравниваем производительность LSTM SAC-d с марковским SAC-d и демонстрируем, что LSTM SAC-d значительно превосходит последний по эффективности предотвращения столкновений и общей стабильности решений. Экспериментальные результаты показывают, что LSTM SAC-d значительно улучшает работу системы за счет лучшего учета задержек реакции пилота и оптимизации рекомендаций в реальном времени.
Ключевые слова:
обучение с подкреплением, учет реакции пилота, предотвращение воздушных столкновений, модель столкновения воздушных судов, динамическая модель самолетаСписок источников
- Holland J E, Kochenderfer M J, Olson W A. Optimizing the next generation collision avoidance system for safe, suitable, and acceptable operational performance[J]. Air Traffic Control Quarterly, 2013, 21(3): 275-297.
- Londner E H, Moss R J. Bayesian network model of pilot response to collision avoidance system resolution advisories[J]. Journal of Air Transportation, 2018, 26(4): 171-182.
- Panoutsakopoulos C, Yuksek B, Inalhan G, et al. Towards safe deep reinforcement learning for autonomous airborne collision avoidance systems[C]//AIAA SCITECH 2022 Forum. 2022: 2102.
- Li S, Egorov M, Kochenderfer M. Optimizing collision avoidance in dense airspace using deep reinforcement learning[J]. arXiv preprint arXiv:1912.10146, 2019.
- Rizk H, Chaibet A, Kribèche A. Model-based control and model-free control techniques for autonomous vehicles: A technical survey[J]. Applied Sciences, 2023, 13(11): 6700.
- Lindqvist B, Mansouri S S, Agha-mohammadi A, et al. Nonlinear MPC for collision avoidance and control of UAVs with dynamic obstacles[J]. IEEE robotics and automation letters, 2020, 5(4): 6001-6008.
- Kochenderfer M J, Chryssanthacopoulos J P. Robust airborne collision avoidance through dynamic programming[J]. Massachusetts Institute of Technology, Lincoln Laboratory, Project Report ATC-371, 2011, 130.
- Brechtel S, Gindele T, Dillmann R. Probabilistic decision-making under uncertainty for autonomous driving using continuous POMDPs[C]//17th international IEEE conference on intelligent transportation systems (ITSC). IEEE, 2014: 392-399.
- Kochenderfer M J, Chryssanthacopoulos J P. Robust airborne collision avoidance through dynamic programming[J]. Massachusetts Institute of Technology, Lincoln Laboratory, Project Report ATC-371, 2011, 130.
- Ni T, Eysenbach B, Salakhutdinov R. Recurrent model-free rl can be a strong baseline for many pomdps[J]. arXiv preprint arXiv:2110.05038, 2021.
Скачать статью

