Применение нейросетевых методов семантической сегментации в системах компьютерного зрения реального времени в условиях ограниченных ресурсов


Авторы

Корыткин Н. Г.

Московский государственный университет имени М.В. Ломоносова, Ленинские горы, 1, Москва, 119991, Россия

e-mail: korytkinng@my.msu.ru

Аннотация

В работе исследованы две архитектуры нейронных сетей для семантической сегментации изображений в реальном времени на основе DeepLabv3+, в которых в качестве базовых моделей применены модифицированные MobileNetV3-Small и ResNet50. Для беспилотных транспортных средств (БТС), мобильных робототехнических комплексов (РТК) и аэрокосмических приложений, работающих в сложных и динамичных условиях, критически важно обеспечить высокую точность сегментации и скорость обработки видеопоследовательностей. Кодировщики модифицированы путем отбрасывания классификационных слоев с сохранением только сверточных слоев, отвечающих за извлечение признаков, что позволило интегрировать их в декодирующий модуль DeepLabv3+. В результате сформированы две архитектуры, различающиеся вычислительной сложностью и ориентированные на различные типы аппаратных платформ. Эксперименты проведены на двух тестовых стендах: настольном ПК с центральным процессором (ЦП) AMD Ryzen 5 3600 и дискретным графическим процессором (ГП) NVIDIA GeForce RTX 3050, а также на ноутбуке с мобильным процессором AMD Ryzen 7 5700U и интегрированным ГП. Обучение и валидация моделей выполнены на наборе данных Yamaha-CMU Off-Road (YCOR) с оценкой качества сегментации по метрикам mIoU, Pixel Accuracy и Mean Accuracy. Модель с кодировщиком MobileNetV3-Small продемонстрировала более высокое качество сегментации (mIoU = 55.56%) по сравнению с вариантом на базе ResNet50 (mIoU = 49.30%). В то же время архитектура с ResNet50 обеспечила более высокую производительность при использовании дискретного ГП. При наличии аппаратного ускорения обе модели достигли производительности не ниже 30 кадров в секунду при обработке видеопоследовательностей с разрешением 1920×1080 пикселей. Научная новизна работы заключается в детальном сравнении двух модификаций DeepLabv3+ с модифицированными кодировщиками MobileNetV3-Small и ResNet50 в условиях, приближенных к реальной эксплуатации мобильных робототехнических систем. Показано влияние типа аппаратной платформы на выбор архитектуры, обеспечивающей необходимый баланс между точностью сегментации и скоростью обработки видеопоследовательностей. На основе полученных результатов сформулированы практические рекомендации по применению разработанных моделей во встраиваемых и высокопроизводительных системах.

Ключевые слова:

семантическая сегментация, DeepLabv3+, MobileNetV3, ResNet50, реальное время, робототехника, БТС.

Список источников

  1. Олькина Д.С. Алгоритм семантической сегментации изображений для решения задачи позиционирования летательного аппарата на земной поверхности // Труды МАИ. 2023. № 130. DOI: 10.34759/trd-2023-130-18
  2. Тонких А.Н. Применение нейросетевых технологий для распознавания распределенных объектов на радиолокационных изображениях // Труды МАИ. 2025. № 141. URL: https://trudymai.ru/published.php?ID=184504
  3. Митькин М.А., Гаврилов К.Ю. Применение искусственных нейронных сетей для восстановления объектов на радиолокационных изображениях // Труды МАИ. 2025. № 141. URL: https://trudymai.ru/published.php?ID=184505
  4. Компьютерное зрение [Электронный ресурс] / Л.Шапиро, Дж. Стокман ; пер. с англ. 2-е изд. (эл.). М. : БИНОМ. Лаборатория знаний, 2013. 752 с. : ил.
  5. Image Thresholding // OpenCV URL: https://docs.opencv.org/4.x/d7/d4d/tutorial_py_thresholding.html (дата обращения: 17.02.2026).
  6. Canny Edge Detection // OpenCV URL: https://docs.opencv.org/4.x/da/d22/tutorial_py_canny.html (дата обращения: 17.02.2026).
  7. J. Long, E. Shelhamer and T. Darrell, "Fully convolutional networks for semantic segmentation," in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015 pp. 3431-3440. doi: 10.1109/CVPR.2015.7298965
  8. H. Noh, S. Hong and B. Han, "Learning Deconvolution Network for Semantic Segmentation," in 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2015 pp. 1520-1528. doi: 10.1109/ICCV.2015.178
  9. Badrinarayanan, Vijay & Kendall, Alex & Cipolla, Roberto. (2017). SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. doi: https://doi.org/10.17863/CAM.17966
  10. Ronneberger, O., Fischer, P., Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Navab, N., Hornegger, J., Wells, W., Frangi, A. (eds) Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. MICCAI 2015. Lecture Notes in Computer Science(), vol 9351. Springer, Cham. https://doi.org/10.1007/978-3-319-24574-4_28
  11. Chen, Liang-Chieh & Papandreou, George & Kokkinos, Iasonas & Murphy, Kevin & Yuille, Alan. (2015). Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs.
  12. Chen, Liang-Chieh & Papandreou, George & Kokkinos, Iasonas & Murphy, Kevin & Yuille, Alan. (2016). DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence. PP. 10.1109/TPAMI.2017.2699184.
  13. Chen, Liang-Chieh & Papandreou, George & Schroff, Florian & Adam, Hartwig. (2017). Rethinking Atrous Convolution for Semantic Image Segmentation.
  14. Chen, LC., Zhu, Y., Papandreou, G., Schroff, F., Adam, H. (2018). Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds) Computer Vision – ECCV 2018. ECCV 2018. Lecture Notes in Computer Science(), vol 11211. Springer, Cham. https://doi.org/10.1007/978-3-030-01234-2_49
  15. P. N. Hadinata, D. Simanta, L. Eddy, and K. Nagai, “Crack Detection on Concrete Surfaces Using Deep Encoder-Decoder Convolutional Neural Network: A Comparison Study Between U-Net and DeepLabV3+,” Journal of the Civil Engineering Forum, vol. 7, no. 3, p. 323, Aug. 2021, doi: https://doi.org/10.22146/jcef.65288.
  16. A. Howard and M. Sandler and B. Chen and W. Wang and L. Chen and M. Tan and G. Chu and V. Vasudevan and Y. Zhu and R. Pang and H. Adam and Q. Le Searching for MobileNetV3 // 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Los Alamitos, CA, USA: IEEE Computer Society, 2019. С. 1314-1324.
  17. He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian Deep Residual Learning for Image Recognition // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. С. 770-778.
  18. M. Tan and Q. V. Le, “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks,” arXiv.org, Sep. 11, 2020. http://arxiv.org/abs/1905.11946
  19. M. Tan and Q. V. Le, “EfficientNetV2: Smaller Models and Faster Training,” arxiv.org, Apr. 2021, doi: https://doi.org/10.48550/arXiv.2104.00298.
  20. T. Shahriar, “Comparative Analysis of Lightweight Deep Learning Models for Memory-Constrained Devices,” arXiv.org, 2025. https://arxiv.org/abs/2505.03303v2
  21. S. Hu, J. Liu, and Z. Kang, “DeepLabV3+/Efficientnet Hybrid Network-Based Scene Area Judgment for the Mars Unmanned Vehicle System,” Sensors (Basel, Switzerland), vol. 21, no. 23, p. 8136, Dec. 2021, doi: https://doi.org/10.3390/s21238136.
  22. Maturana, Daniel and Chou, Po-Wei and Uenoyama, Masashi and Scherer, Sebastian Real-time semantic mapping for autonomous off-road navigation // Field and Service Robotics. 2018. С. 335-350.
  23. Yamaha-CMU Off-Road Dataset Converter to ADE20K Format // Github URL: https://gist.github.com/GerardMaggiolino/258a65077d43d4e176e0fb0240a49edb (дата обращения: 03.03.2025).


Скачать статью

mai.ru — информационный портал Московского авиационного института

© МАИ, 2000—2026

Вход