Сетевое научное издание

Дистилляция знаний большой языковой модели в компактную модель для генерации персонализированных тренировочных программ для пилотов и бортпроводников гражданской авиации

2026. № 146

Авторы

Татаренко М. Н.^*, Лукин В. Н.^**

Московский авиационный институт (национальный исследовательский университет), 125993, г. Москва, Волоколамское шоссе, д. 4

*e-mail: michaeltatarenko@gmail.com
**e-mail: lukinvn@list.ru

Аннотация

Современные большие языковые модели, основанные на архитектуре трансформер, демонстрируют высокую эффективность в задачах генерации персонализированного контента. Однако их развертывание на устройствах с ограниченными вычислительными ресурсами остаётся сложной задачей, что ограничивает возможности автономного применения в системах подготовки лётного и кабинного экипажа гражданской авиации. В работе предложен подход к дистилляции знаний из модели Qwen 3 4B в компактную модель Gemma 3 270M для генерации персонализированных тренировочных программ физической подготовки пилотов и бортпроводников гражданской авиации. Для обучения использован метод низкоранговой адаптации LoRA, синтетический набор данных из 67 392 примеров, сгенерированный по методологии самообучения (Self-Instruct), а также специализированные программные библиотеки. Достигнуто сжатие модели в 27 раз (с 8 ГБ до 300 МБ в квантованном формате) при финальном значении функции потерь 0,029, что свидетельствует об успешной аппроксимации поведения модели-учителя. Результирующая модель может быть развёрнута на потребительском графическом процессоре с 6 ГБ памяти, что делает её пригодной для автономного использования в учебных центрах гражданской авиации и обеспечивает возможность одновременного обслуживания множества пользователей.

Ключевые слова:

дистилляция знаний, компактные языковые модели, дообучение, LoRA, персонализация, гражданская авиация

Список источников

Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser Ł., Polosukhin I. Attention is all you need. Advances in Neural Information Processing Systems, 2017, vol. 30, pp. 5998–6008.
Brown T.B., Mann B., Ryder N., Subbiah M., Kaplan J.D., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S., Herbert-Voss A., Krueger G., Henighan T., Child R., Ramesh A., Ziegler D., Wu J., Winter C., Hesse C., Chen M., Sigler E., Litwin M., Gray S., Chess B., Clark J., Berner C., McCandlish S., Radford A., Sutskever I., Amodei D. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, vol. 33, pp. 1877–1901.
Touvron H., Lavril T., Izacard G., Martinet X., Lachaux M.-A., Lacroix T., Rozière B., Goyal N., Hambro E., Azhar F., Rodriguez A., Joulin A., Grave E., Lample G. LLaMA: Open and efficient foundation language models. ArXiv : website. Available at: https://arxiv.org/abs/2302.13971 (accessed: 12 December 2025).
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Human Language Technologies, Minneapolis, 2019, pp. 4171–4186.
Hinton G., Vinyals O., Dean J. Distilling the knowledge in a neural network. ArXiv : website. Available at: https://arxiv.org/abs/1503.02531 (accessed: 12 December 2025).
Sanh V., Debut L., Chaumond J., Wolf T. DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter. 5th Workshop on Energy Efficient Machine Learning and Cognitive Computing at NeurIPS 2019, Vancouver, 2019, 5 p.
Gou J., Yu B., Maybank S.J., Tao D. Knowledge Distillation: a survey. International Journal of Computer Vision, 2021, vol. 129, pp. 1789–1819.
Gholami A., Kim S., Dong Z., Yao Z., Mahoney M.W., Keutzer K. A Survey of Quantization methods for efficient neural network inference. ArXiv : website. Available at: https://arxiv.org/abs/2103.13630 (accessed: 12 December 2025).
Li X.L., Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics, 2021, pp. 4582–4597.
Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., De Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. Parameter-Efficient Transfer Learning for NLP. Proceedings of the 36th International Conference on Machine Learning (ICML 2019), Long Beach, 2019, pp. 2790–2799.
Bai J., Bai S., Chu Y., Cui Z., Dang K., Deng X., Fan Y., Ge W., Han Y., Huang F. et al. Qwen Technical Report. ArXiv : website. Available at: https://arxiv.org/abs/2309.16609 (accessed 12 December 2025).
Wang Y., Kordi Y., Mishra S., Liu A., Smith N.A., Khashabi D., Hajishirzi H. Self-Instruct: Aligning Language Models with Self-Generated Instructions. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, Toronto, 2023, pp. 13484–13508.
Gemma Team, Mesnard T., Hardin C., Dadashi R., Bhupatiraju S., Pathak S., Sifre L., Rivière M., Kale M.S., Love J. et al. Gemma: Open Models Based on Gemini Research and Technology. ArXiv : website. Available at: https://arxiv.org/abs/2403.08295 (accessed: 12 December 2025).
Hu E.J., Shen Y., Wallis P., Allen-Zhu Z., Li Y., Wang S., Wang L., Chen W. LoRA: Low-Rank Adaptation of Large Language Models. Proceedings of the 10th International Conference on Learning Representations (ICLR 2022), 2022, 13 p.
Loshchilov I., Hutter F. Decoupled Weight Decay Regularization. Proceedings of the 7th International Conference on Learning Representations (ICLR 2019), New Orleans, 2019, 19 p.
Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. QLoRA: Efficient Finetuning of Quantized LLMs. Advances in Neural Information Processing Systems, 2023, vol. 36, pp. 10088–10115.
Wei J., Bosma M., Zhao V.Y., Guu K., Yu A.W., Lester B., Du N., Dai A.M., Le Q.V. Finetuned Language Models Are Zero-Shot Learners. Proceedings of the 10th International Conference on Learning Representations (ICLR 2022), 2022, 46 p.
Wolf T., Debut L., Sanh V., Chaumond J., Delangue C., Moi A., Cistac P., Rault T., Louf R., Funtowicz M., Davison J., Shleifer S., von Platen P., Ma C., Jernite Y., Plu J., Xu C., Le Scao T., Gugger S., Drame M., Lhoest Q., Rush A.M. Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 2020, pp. 38–45.
Unsloth: Fine-tuning & Reinforcement Learning for LLMs. Github.com : website. Available at: https://github.com/unslothai/unsloth (accessed 12 December 2025).
Dao T., Fu D.Y., Ermon S., Rudra A., Ré C. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. Advances in Neural Information Processing Systems, 2022, vol. 35, pp. 16344–16359.

Скачать статью

mai.ru — информационный портал Московского авиационного института

Вход