Учёт реакции пилота в алгоритме предотвращения воздушных столкновений на основе глубокого обучения с подкреплением


Авторы

Неретин Е. С.1*, Цзочэн Л. 2

1. филиал ПАО "Корпорация "Иркут" "Центр комплексирования", Авиационный переулок, 5, Москва, 125167, Россия
2. Северо-Западный политехнический университет, Западная дорога дружбы, 127, Сиань, провинция Шэньси, 710072 Китайская Народная Республика

*e-mail: evgeny.neretin@ic.yakovlev.ru

Аннотация

Текущие системы предотвращения воздушных столкновений используют псевдокод или числовые таблицы для представления оптимальных стратегий, обеспечивая высокий уровень безопасности полетов. Однако ряд проблем в процессе разработки этих систем ограничил интеграцию систем предотвращения столкновений с авионикой и дальнейшее развитие в будущем. Эти проблемы включают неточности, вызванные интерполяционными методами, игнорирование изменчивости реакции пилота и создание слишком больших числовых таблиц для хранения оптимальных стратегий. В ответ на эти вызовы мы используем методы глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) для решения проблемы предотвращения столкновений и предлагаем более принципиальный подход, использующий вероятностную модель для учета изменчивости реакции пилота вблизи. В данной работе мы сначала представили текущий статус исследований систем предотвращения воздушных столкновений и соответствующие теории глубокого обучения с подкреплением. Затем мы создали симуляционную среду, адаптированную к проблемам предотвращения столкновений самолетов, разработали систему вознаграждений, изменяющуюся в зависимости от времени до конфликта (Time to Conflict, TTC), и создали вероятностную модель для учета изменчивости реакции пилота. Мы применили алгоритм DQN (Deep Q-Network) для обучения агента, способного решать проблемы предотвращения столкновений самолетов, а также учитывать координацию высоты двух самолетов. Наконец, мы протестировали эффективность и надежность алгоритма с помощью симуляционных экспериментов в сценариях предотвращения столкновений различной сложности.

Список источников

  1. Holland J E, Kochenderfer M J, Olson W A. Optimizing the next generation collision avoidance system for safe, suitable, and acceptable operational performance[J]. Air Traffic Control Quarterly, 2013, 21(3): 275-297. 
  2. De, D., and Sahu, P., “A Survey on Current and NextGeneration Aircraft Collision Avoidance System,” International Journal of Systems, Control and Communications, Vol. 9, No. 4, 2018, pp. 306–337.
  3. Kochenderfer, M. J., Holland, J. E., and Chryssanthacopoulos, J. P.,“Next-Generation Airborne CollisionAvoidance System,” Lincoln Laboratory Journal, Vol. 19, No. 1, 2012, pp. 17–33.
  4. Kochenderfer M J, Chryssanthacopoulos J P. Robust airborne collision avoidance through dynamic programming[J]. Massachusetts Institute of Technology, Lincoln Laboratory, Project Report ATC-371, 2011, 130.
  5. Kochenderfer M J, Amato C, Chowdhary G, et al. Optimized airborne collision avoidance[J]. 2015.
  6. Julian K D, Kochenderfer M J, Owen M P. Deep neural network compression for aircraft collision avoidance systems[J]. Journal of Guidance, Control, and Dynamics, 2019, 42(3): 598-608.
  7. Engel Y, Mannor S, Meir R. Reinforcement learning with Gaussian processes[C]//Proceedings of the 22nd international conference on Machine learning. 2005: 201-208.
  8. Munos R, Moore A. Variable resolution discretization in optimal control[J]. Machine learning, 2002, 49: 291-323.
  9. Julian K D, Sharma S, Jeannin J B, et al. Verifying aircraft collision avoidance neural networks through linear approximations of safe regions[J]. arXiv preprint arXiv:1903.00762, 2019.
  10. Akintunde M, Lomuscio A, Maganti L, et al. Reachability analysis for neural agent-environment systems[C]//Sixteenth international conference on principles of knowledge representation and reasoning. 2018.
  11. Ivanov R, Weimer J, Alur R, et al. Verisig: verifying safety properties of hybrid systems with neural network controllers[C]//Proceedings of the 22nd ACM International Conference on Hybrid Systems: Computation and Control. 2019: 169-178.
  12. Kochenderfer M J, Espindle L P, Kuchar J K, et al. A comprehensive aircraft encounter model of the national airspace system[J]. Lincoln Laboratory Journal, 2008, 17(2): 41-53.
  13. J. K. Kuchar and A. C. Drumm, “The Traffic Alert and Collision Avoidance System,” Lincoln Laboratory Journal, vol. 16, no. 2, pp. 277–296, 2007.
  14. Collision Avoidance System Optimization with Probabilistic Pilot Response Models
  15. Bertram J, Wei P, Zambreno J. A fast Markov decision process-based algorithm for collision avoidance in urban air mobility[J]. IEEE transactions on intelligent transportation systems, 2022, 23(9): 15420-15433.
  16. Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
  17. Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. nature, 2015, 518(7540): 529-533.
  18. Zhao Y, Liu P, Zhao W, et al. Twice sampling method in deep Q-network[J]. Acta Automatica Sinica, 2019, 14: 1870-1882.
  19. Lin L J. Reinforcement learning for robots using neural networks[M]. Carnegie Mellon University, 1992.
  20. Lim Y, Gardi A, Sabatini R, et al. Avionics human-machine interfaces and interactions for manned and unmanned aircraft[J]. Progress in Aerospace Sciences, 2018, 102: 1-46.


Скачать статью

mai.ru — информационный портал Московского авиационного института

© МАИ, 2000—2025

Вход