Разработка инструментария для создания голосовых интерфейсов с целью их применения в аэрокосмических VR- и AR-тренажерах


Авторы

Васильева К. С.

Казанский (Приволжский) государственный университет, ул. Кремлевская, 18, Казань, 420008, Россия

e-mail: ksenya_vasilieva@mail.ru

Аннотация

В работе представлена архитектура и реализация программного инструментария для среды Unity, предназначенного для создания голосовых интерфейсов и интеграции их в приложения виртуальной реальности (Virtual Reality, VR) и дополненной реальности (Augmented Reality, AR), ориентированные на использование в аэрокосмической отрасли. Показано, что существующие модули голосового взаимодействия, применяемые в VR- и AR-приложениях, не универсальны, жестко привязаны к конкретным сценариям использования и не обеспечивают достаточной гибкости настройки. Сравнительный анализ существующих решений показал, что ключевыми недостатками являются такие проблемы как отсутствие пользовательских интерфейсов для связывания голосовых команд с логикой приложения, невозможность выбора между локальными и облачными сервисами автоматического распознавания речи (Automatic Speech Recognition, ASR), зависимость от сетевого подключения и отсутствие устойчивости к вариативности формулировок команд. В рамках работы проведено экспериментальное измерение временной задержки между началом произнесения фразы и получением текстового результата для сервисов ASR iFlyTek, Vosk и Whisper на наборе фраз трех типов сложности. Установлено, что минимальную задержку в распознавании речи среди облачных решений имеет сервис iFlyTek (2934 мс), тогда как среди локальных реализаций наилучший результат показала библиотека Vosk (3589 мс). Whisper показал более высокие значения: 4732 мс для модели tiny, 6314 мс для модели base и 4913 мс для модели small. Эксперимент проводился на автономной VR-гарнитуре Pico 4 с 8 ГБ оперативной памяти под управлением операционной системы Android 10. В работе описаны архитектура и схема функционирования разработанного инструментария, поддерживающего локальное и облачное распознавание речи, предоставляющего средства конфигурации голосовых команд и параметров ASR, а также механизм автоматической генерации различных формулировок команд на основе модели GLM-4.7-Flash. Предложенное решение снижает трудозатраты при разработке голосовых интерфейсов и повышает устойчивость системы к вариативности формулировок голосовых команд пользователя за счет автоматической генерации семантически близких фраз. Был реализован прототип голосового интерфейса, предназначенного для взаимодействия с виртуальной приборной панелью на сцене Unity.  Его работоспособность подтверждает применимость разработанного инструментария при создании VR- и AR-систем аэрокосмического назначения.

Ключевые слова:

голосовой интерфейс; автоматическое распознавание речи; Unity; VR; AR; Vosk; iFlyTek; GLM-4.7-Flash

Список источников

  1. M. E. McCullins, S. Hampton, S. G. Fussell, K. Kiernan, and J. Thropp, “The effectiveness of using virtual reality training environments for procedural training in fourth-generation airliners,” The Aeronautical Journal, vol. 129, no. 1342, pp. 3327–3346, 2025. doi:10.1017/aer.2025.10086
  2. Кабанов А.А., Амосов М.В. VR/AR в изучении, создании и эксплуатации аэрокосмической техники: из макромира в микромир, от наблюдения к действиям // Труды МАИ. 2023. № 128. DOI: 10.34759/trd-2023-128-21
  3. Поляков А.А., Защиринский С.А. Использование виртуального пространства для проведения макетно-конструкторских испытаний по электронному макету космического аппарата // Труды МАИ. 2019. № 107. URL: https://trudymai.ru/published.php?ID=107877
  4. A. Siyaev and G.-S. Jo, “Neuro-Symbolic Speech Understanding in Aircraft Maintenance Metaverse,” IEEE Access, vol. 9, pp. 154484–154499, 2021, doi: https://doi.org/10.1109/access.2021.3128616.
  5. V. Krishnamurthy, B Jafrin Rosary, G Oliver Joel, S. Balasubramanian, and S. Kumari, “Voice command-integrated AR-based E-commerce Application for Automobiles,” May 2023, doi: https://doi.org/10.1109/iconscept57958.2023.10170152.
  6. Платформа Unity для разработки в реальном времени | Движок для 3D, 2D, VR и AR // Unity URL: https://unity.com/ru (дата обращения: 30.12.2025).
  7. Game Voice Control [Offline speech recognition] | Audio | Unity Asset Store // Unity Asset Store URL: https://assetstore.unity.com/packages/tools/audio/game-voice-control-offline-speech-recognition-1780... (дата обращения: 30.12.2025).
  8. cmusphinx/pocketsphinx: A small speech recognizer // GitHub URL: https://github.com/cmusphinx/pocketsphinx (дата обращения: 30.12.2025).
  9. Meta - Voice SDK - Immersive Voice Commands | Integration | Unity Asset Store // Unity Asset Store URL: https://assetstore.unity.com/packages/tools/integration/meta-voice-sdk-immersive-voice-commands-2645... (дата обращения: 30.12.2025).
  10. yasirkula/UnitySpeechToText: A native Unity plugin to convert speech to text on Android & iOS // GitHub URL: https://github.com/yasirkula/UnitySpeechToText (дата обращения: 30.12.2025).
  11. Speech Control Plugin for VR | Audio | Unity Asset Store // Unity Asset Store URL: https://assetstore.unity.com/packages/tools/audio/speech-control-plugin-for-vr-76855 (дата обращения: 30.12.2025).
  12. Speech-to-Text: AI voice typing & transcription // Google Cloud URL: https://cloud.google.com/speech-to-text (дата обращения: 30.12.2025).
  13. N. Ashtari and P. K. Chilana, “How New Developers Approach Augmented Reality Development Using Simplified Creation Tools: An Observational Study,” Multimodal Technologies and Interaction, vol. 8, no. 4, p. 35, Apr. 2024, doi: https://doi.org/10.3390/mti8040035.
  14. zai-org/GLM-4.7-Flash // Hugging Face URL: https://huggingface.co/zai-org/GLM-4.7-Flash (дата обращения: 30.12.2025).
  15. Hugging Face – The AI community building the future. URL: https://huggingface.co/ (дата обращения: 30.12.2025).
  16. XR Interaction Toolkit // Unity Documentation URL: https://docs.unity3d.com/Packages/com.unity.xr.interaction.toolkit%403.0/manual/index.html (дата обращения: 30.12.2025).
  17. PICO Unity Integration SDK // PICO Developer URL: https://developer.picoxr.com/document/unity/ (дата обращения: 30.12.2025).
  18. Short Form ASR WebAPI Document (Automatic Speech Recognition) // iFLYTEK Open Platform Documents URL: https://global.xfyun.cn/doc/asr/voicedictation/API.html (дата обращения: 30.12.2025).
  19. Macoron/whisper.unity: Running speech to text model (whisper.cpp) in Unity3d on your local machine. // GitHub URL: https://github.com/Macoron/whisper.unity (дата обращения: 30.12.2025).
  20. alphacep/vosk-unity-asr: Automatic Speech Recognition in Unity using Vosk library // GitHub URL: https://github.com/alphacep/vosk-unity-asr (дата обращения: 30.12.2025).
  21. JakeBayer/FuzzySharp: C# .NET fuzzy string matching implementation of Seat Geek's well known python FuzzyWuzzy algorithm. // GitHub URL: https://github.com/JakeBayer/FuzzySharp (дата обращения: 30.12.2025).

Скачать статью

mai.ru — информационный портал Московского авиационного института

© МАИ, 2000—2026

Вход