Особенности распознавания тональности в речевом потоке

Математическое моделирование, численные методы и комплексы программ


Авторы

Балакирев Н. Е. *, Нгуен Х. З. **

Московский авиационный институт (национальный исследовательский университет), Волоколамское шоссе, 4, Москва, A-80, ГСП-3, 125993, Россия

*e-mail: balakirev1949@yandex.ru
**e-mail: nguyenhoangzuy@gmail.com

Аннотация

В работе рассматривается один из возможных подходов к решению задачи распознавания особых аспектов речи, связанных с тональностью, которая занимает важное место в человеческой коммуникации. Градус особого состояния напряжения, прежде всего, отражается не в содержании слов, а способе их произношения, который несет иногда другую смысловую нагрузку относительно содержания слов. Решение такой задачи может использоваться в авиационной технике, в частности, для автоматического распознавания эмоционального состояния на борту, для выделения эмоциональных отрезков в записях бортовых самописцев с речью пассажиров местных и международных рейсов. Особое ключевое значение тональность имеет в тональных языках Юго-Восточной Азии, хотя тональность и для европейских языков имеет немаловажное значение, отражая характер произносимой фразы и привнося дополнительный смысл в содержание распознаваемых слов и предложений. Так или иначе, сама тональность проявляется идентично, но имеет свои особенности по отношению информационного содержания фонемы или слова. И это прежде всего касается рассмотрения самого объекта, несущего информацию о тоне. В отличие от решения задачи распознавания последовательности слов, где ориентиром является совокупность частот, задача распознавания тональности не может опираться на общепринятые математические методы обработки и распознавания волн. Рассмотрение вопросов распознавания тональности обычно выходит за рамки широкого обсуждения в этих методах, а также весьма ограничен круг предложений алгоритмического разрешения этой задачи. Поэтому рассматривается на примерах тональная составляющая, прежде всего, фонемы, которая может быть получена специальными методами, отличными от традиционных методов. Предлагаются методы, опирающиеся на установление отношений между характерными точками и представление конфигурации этих отношений в виде матричной модели. Фактически, такая модель является качественной характеристикой тональности, не зависящей от значения амплитуд, что позволяет сравнивать разные проявления тональности, выраженные в громкости произношения и в особенностях артикуляционного аппарата конкретного человека. Само сравнение предполагает наличие качественной меры, которая позволяет отражать степень различия рассматриваемых фонем в речевом потоке. Все эти вопросы обсуждаются в данной статье.

Ключевые слова

распознавание речи, тональность, тон, ударение, интонация, фонема, структурная матрица

Библиографический список

  1. Гусейнов А.Б., Маховых А.В. Структурно-параметрический синтез рационального бортового распознающего устройства в составе беспилотного летательного аппарата // Труды МАИ. 2016. № 90. URL: http://trudymai.ru/published.php?ID=74833

  2. Аунг Вин, Балакирев Н.Е., Мью Ту Наинг, Щербаков А.И. Вопросы создания фонемной базы Мьянманского языка // Всесоюзная научно-техническая конференция «Новые материалы и технологии НМТ-2008». Сборник докдадов. (Москва, 11-12 ноября 2008) – М.: МАТИ, 2008. Т. 2. С. 146 – 148.

  3. Nguyen V.L., Edmondson J.A. Tones and voice quality in modern northern Vietnamese: Instrumental case studies // Mon-khmer Studies Journal, 1998, vol. 28, pp. 1 – 18.

  4. Нгуен Ван Хунг. Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи. Автореферат диссертации на соискание ученой степени кандидата технических наук. – М.: МЭИ, 2010. – 20 с.

  5. Сандакова Л.Л., Тюменева Е.И. Вьетнамский язык. Пособие по переводу. – М.: Восток-Запад, 2004. – 211 с.

  6. Петровский А., Борович А., Парфенюк М. Обработка речи на основе дискретного преобразования Фурье с неравномерным частотным разрешением // Речевые технологии. 2008. № 3. С. 3 – 15.

  7. Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи // Труды института инженеров по электротехнике и радиоэлектронике. 1989. Т. 77. № 2. URL: https://b-ok.org/book/3079373/ed4973

  8. Балакирев Н.Е. Логико-лингвистический подход по распознаванию содержания физических волн // Материалы XV Международной конференции «Информатика: проблемы, методология, технологии» (Воронеж, 12-13 февраля 2015). – Воронеж: ВГУ, Т. 1. C. 31 – 36.

  9. Балакирев Н.Е. Количественная и качественная оценка исследуемых объектов на примере простейших отношений // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2016. № 2. С. 65 – 72.

  10. Балакирев Н.Е., Нгуен Х.З., Малков М.А., Фадеев М.М. Структуризация и качественное рассмотрение звукового потока в системе синтеза и анализа речи // Программные продукты и системы. 2018. Т. 31. № 4. С. 768 – 776.

  11. Grenander U. A Calculus of Ideas: A Mathematical Study of Human Thought, World Scientific, 2012, 219 p.

  12. Grenander Ulf, Miller Michael. Pattern Theory: From Representation to Inference, Oxford University Press, 2007, 608 p.

  13. Куприянов А.И., Шевцов В.В. Потенциальная чувствительность и дальность действия лазерного микрофона // Труды МАИ. 2012. № 55. URL: http://trudymai.ru/published.php?ID=30112

  14. Самохин В.Ф., Мошков П.А. Экспериментальное исследование акустических характеристик силовой установки самолета «Ан-2» в статических условиях // Труды МАИ. 2015. № 82. URL: http://trudymai.ru/published.php?ID=58711

  15. Балакирев Н.Е. Малков М.А. Метод идентификации голосового сообщения // Информационные технологии. 2008. № 12. С. 66 – 68.

  16. Galunov V.I., Galunov G.V. Science perspectives of speech technology, SpeeCom, 2001, 302 p.

  17. Разумихин Д.В. Использование нейронных сетей на уровне семантики в системе распознавания речи // IV Всероссийская конференция «Нейрокомпьютеры и их применение». Тезисы докладов. – М.: Радиотехника, 2001. – 288 c.

  18. Soloviev A.N., Victorova K.O., Razumikhin D.V. About using non-informational functions in models of speech communication, International workshop «Speech and Computer» Proceedings SPb, Russian, 2002, pp. 27 – 31.

  19. Пуртов И.С., Синча Д.П. Исследование методов и разработка алгоритмов обработки видеоинформации в задачах локализации положения беспилотного летательного аппарата на основе распознавания изображений при помехах и искажениях // Труды МАИ. 2012. № 52. URL: http://trudymai.ru/published.php?ID=29444

  20. Королев В.О., Гудаев Р.А., Куликов С.В., Алдохина В.Н. Решение задачи распознавания типа объекта на основании использования диаграммы направленности антенны в качестве признака // Труды МАИ. 2017. № 94. URL: http://trudymai.ru/published.php?ID=81109


Скачать статью

mai.ru — информационный портал Московского авиационного института

© МАИ, 2000—2021

Вход