Учёт реакции пилота в алгоритме предотвращения воздушных столкновений на основе глубокого обучения с подкреплением
Авторы
1*, 21. филиал ПАО "Корпорация "Иркут" "Центр комплексирования", Авиационный переулок, 5, Москва, 125167, Россия
2. Северо-Западный политехнический университет, Западная дорога дружбы, 127, Сиань, провинция Шэньси, 710072 Китайская Народная Республика
*e-mail: evgeny.neretin@ic.yakovlev.ru
Аннотация
Текущие системы предотвращения воздушных столкновений используют псевдокод или числовые таблицы для представления оптимальных стратегий, обеспечивая высокий уровень безопасности полетов. Однако ряд проблем в процессе разработки этих систем ограничил интеграцию систем предотвращения столкновений с авионикой и дальнейшее развитие в будущем. Эти проблемы включают неточности, вызванные интерполяционными методами, игнорирование изменчивости реакции пилота и создание слишком больших числовых таблиц для хранения оптимальных стратегий. В ответ на эти вызовы мы используем методы глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) для решения проблемы предотвращения столкновений и предлагаем более принципиальный подход, использующий вероятностную модель для учета изменчивости реакции пилота вблизи. В данной работе мы сначала представили текущий статус исследований систем предотвращения воздушных столкновений и соответствующие теории глубокого обучения с подкреплением. Затем мы создали симуляционную среду, адаптированную к проблемам предотвращения столкновений самолетов, разработали систему вознаграждений, изменяющуюся в зависимости от времени до конфликта (Time to Conflict, TTC), и создали вероятностную модель для учета изменчивости реакции пилота. Мы применили алгоритм DQN (Deep Q-Network) для обучения агента, способного решать проблемы предотвращения столкновений самолетов, а также учитывать координацию высоты двух самолетов. Наконец, мы протестировали эффективность и надежность алгоритма с помощью симуляционных экспериментов в сценариях предотвращения столкновений различной сложности.
Список источников
- Holland J E, Kochenderfer M J, Olson W A. Optimizing the next generation collision avoidance system for safe, suitable, and acceptable operational performance[J]. Air Traffic Control Quarterly, 2013, 21(3): 275-297.
- De, D., and Sahu, P., “A Survey on Current and NextGeneration Aircraft Collision Avoidance System,” International Journal of Systems, Control and Communications, Vol. 9, No. 4, 2018, pp. 306–337.
- Kochenderfer, M. J., Holland, J. E., and Chryssanthacopoulos, J. P.,“Next-Generation Airborne CollisionAvoidance System,” Lincoln Laboratory Journal, Vol. 19, No. 1, 2012, pp. 17–33.
- Kochenderfer M J, Chryssanthacopoulos J P. Robust airborne collision avoidance through dynamic programming[J]. Massachusetts Institute of Technology, Lincoln Laboratory, Project Report ATC-371, 2011, 130.
- Kochenderfer M J, Amato C, Chowdhary G, et al. Optimized airborne collision avoidance[J]. 2015.
- Julian K D, Kochenderfer M J, Owen M P. Deep neural network compression for aircraft collision avoidance systems[J]. Journal of Guidance, Control, and Dynamics, 2019, 42(3): 598-608.
- Engel Y, Mannor S, Meir R. Reinforcement learning with Gaussian processes[C]//Proceedings of the 22nd international conference on Machine learning. 2005: 201-208.
- Munos R, Moore A. Variable resolution discretization in optimal control[J]. Machine learning, 2002, 49: 291-323.
- Julian K D, Sharma S, Jeannin J B, et al. Verifying aircraft collision avoidance neural networks through linear approximations of safe regions[J]. arXiv preprint arXiv:1903.00762, 2019.
- Akintunde M, Lomuscio A, Maganti L, et al. Reachability analysis for neural agent-environment systems[C]//Sixteenth international conference on principles of knowledge representation and reasoning. 2018.
- Ivanov R, Weimer J, Alur R, et al. Verisig: verifying safety properties of hybrid systems with neural network controllers[C]//Proceedings of the 22nd ACM International Conference on Hybrid Systems: Computation and Control. 2019: 169-178.
- Kochenderfer M J, Espindle L P, Kuchar J K, et al. A comprehensive aircraft encounter model of the national airspace system[J]. Lincoln Laboratory Journal, 2008, 17(2): 41-53.
- J. K. Kuchar and A. C. Drumm, “The Traffic Alert and Collision Avoidance System,” Lincoln Laboratory Journal, vol. 16, no. 2, pp. 277–296, 2007.
- Collision Avoidance System Optimization with Probabilistic Pilot Response Models
- Bertram J, Wei P, Zambreno J. A fast Markov decision process-based algorithm for collision avoidance in urban air mobility[J]. IEEE transactions on intelligent transportation systems, 2022, 23(9): 15420-15433.
- Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
- Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. nature, 2015, 518(7540): 529-533.
- Zhao Y, Liu P, Zhao W, et al. Twice sampling method in deep Q-network[J]. Acta Automatica Sinica, 2019, 14: 1870-1882.
- Lin L J. Reinforcement learning for robots using neural networks[M]. Carnegie Mellon University, 1992.
- Lim Y, Gardi A, Sabatini R, et al. Avionics human-machine interfaces and interactions for manned and unmanned aircraft[J]. Progress in Aerospace Sciences, 2018, 102: 1-46.
Скачать статью

