<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="other" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Yugra State University Bulletin</journal-id><journal-title-group><journal-title xml:lang="en">Yugra State University Bulletin</journal-title><trans-title-group xml:lang="ru"><trans-title>Вестник Югорского государственного университета</trans-title></trans-title-group></journal-title-group><issn publication-format="print">1816-9228</issn><issn publication-format="electronic">2078-9114</issn><publisher><publisher-name xml:lang="en">Yugra State University</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">685568</article-id><article-id pub-id-type="doi">10.18822/byusu20250340-47</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>Mathematical modeling and information technology</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Математическое моделирование и информационные технологии</subject></subj-group><subj-group subj-group-type="article-type"><subject>Unknown</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Multimodal neural network processing of video lectures using multi-agent systems</article-title><trans-title-group xml:lang="ru"><trans-title>Мультимодальная нейросетевая обработка видеолекции посредством мультиагентных систем</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Ismagulov</surname><given-names>Milan E.</given-names></name><name xml:lang="ru"><surname>Исмагулов</surname><given-names>Милан Ерикович</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>Postgraduate student, Engineering School of Digital Technologies</p></bio><bio xml:lang="ru"><p>аспирант 3 года обучения направления, «Системный анализ, управление и обработка информации, статистика» Инженерной школы цифровых технологий</p></bio><email>m_ismagulov@ugrasu.ru</email><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">Yugra State University</institution></aff><aff><institution xml:lang="ru">Югорский государственный университет</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2025-09-30" publication-format="electronic"><day>30</day><month>09</month><year>2025</year></pub-date><volume>21</volume><issue>3</issue><issue-title xml:lang="en"/><issue-title xml:lang="ru"/><fpage>40</fpage><lpage>47</lpage><history><date date-type="received" iso-8601-date="2025-06-23"><day>23</day><month>06</month><year>2025</year></date><date date-type="accepted" iso-8601-date="2025-08-26"><day>26</day><month>08</month><year>2025</year></date></history><permissions><copyright-statement xml:lang="en">Copyright ©; 2025, Yugra State University</copyright-statement><copyright-statement xml:lang="ru">Copyright ©; 2025, Югорский государственный университет</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="en">Yugra State University</copyright-holder><copyright-holder xml:lang="ru">Югорский государственный университет</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0</ali:license_ref></license></permissions><self-uri xlink:href="https://vestnikugrasu.org/byusu/article/view/685568">https://vestnikugrasu.org/byusu/article/view/685568</self-uri><abstract xml:lang="en"><p>Subject of research: multimodal processing of video lectures using multi-agent systems. The article focuses on intermediate results of the research, including an overview of the concepts of multimodality, multi-agent systems, and multi-model systems, as well as the development of approaches to processing video data from lectures.</p> <p>Purpose of research: transformation of all relevant information from a video lecture into a text document to form an accompanying lecture summary. The goal is to develop an effective data processing cycle, taking into account differences in video lecture formats.</p> <p>Research methods: selection of the «Orchestrator-Performer» pattern (Orchestrator-Worker Pattern) with a large language model (LLM) in the role of the orchestrator. Overview of alternative approaches, namely the peer-to-peer decentralized pattern and the hybrid pattern, with justification for choosing the orchestrator approach to ensure consistent processing and fault tolerance. Integration of pipeline video stream processing into a multi-agent system (hybrid approach).</p> <p>The objects of research in this article are video lectures of three main types, serving as sources of multimodal data for analysis and processing. The first type – «Lecturer and Presentation» – includes video recordings where the lecturer is positioned to the left or right of the accompanying presentation, with an emphasis on the visual combination of the human figure and slides. The second type – «Presentation and Voiceover» – focuses on theoretical material presented on the presentation slides, with explanation off-screen through the audio track. The third type – «Lecturer and Blackboard» – covers recordings where the lecturer writes material on a classic chalk or marker board, emphasizing handwritten input of information.</p> <p>Research findings: An architecture for a multi-agent system has been developed and justified based on the «Orchestrator-Performer» pattern with a hybrid approach, integrating pipeline video processing into a multi-agent environment for effective task distribution and load management. Models and tools have been selected and described, namely orchestrators, audio processing models, OCR, taking into account lecture types for adaptive pipelines. The functioning of agents is described, including initialization, interaction with the orchestrator, parallel audio/video processing, and aggregation of results into a text document with the possibility of downloading/printing.</p></abstract><trans-abstract xml:lang="ru"><p>Предмет исследования: мультимодальная обработка видеолекций с использованием мультиагентных систем. Статья фокусируется на промежуточных результатах исследования, включая обзор понятий мультимодальности, мультиагентности и многомодельных систем, а также на разработке подходов к обработке видеоданных из лекций.</p> <p>Цель исследования: преобразование всей релевантной информации из видеолекции в текстовый документ для формирования сопровождающего конспекта лекции. Цель – разработать эффективный цикл обработки данных, учитывая различия в форматах видеолекций.</p> <p>Методы исследования: выбор паттерна «Оркестратор-исполнитель» (Orchestrator-Worker Pattern) с большой языковой моделью (LLM) в роли оркестратора. Обзор альтернативных подходов, а именно одноранговый децентрализованный паттерн и гибридный паттерн, с обоснованием выбора оркестраторного подхода для обеспечения последовательной обработки и отказоустойчивости. Интеграция конвейерной обработки видеопотока в мультиагентную систему (гибридный подход).</p> <p>Объекты исследования в данной статье представляют собой видеолекции трех основных типов, служащие источниками мультимодальных данных для анализа и обработки. Первый тип – «Лектор и презентация» – включает видеозаписи, где лектор располагается слева или справа от сопровождающей презентации, с акцентом на визуальное сочетание человеческой фигуры и слайдов. Второй тип – «Презентация и закадровый голос» – фокусируется на теоретическом материале, представленном на слайдах презентации, с объяснением за кадром через аудиодорожку. Третий тип – «Лектор и доска» – охватывает записи, где лектор пишет материал на классической меловой или маркерной доске, подчеркивая рукописный ввод информации.</p> <p>Основные результаты исследования: разработана и обоснована архитектура мультиагентной системы на основе паттерна «Оркестратор-исполнитель» с гибридным подходом, интегрирующим конвейерную обработку видео в мультиагентную среду для эффективного распределения задач и управления нагрузкой. Выбраны и описаны модели и инструменты, а именно оркестраторы, модели аудиообработки, OCR, с учетом типов лекций для адаптивных конвейеров. Описано функционирование агентов, инициализация, взаимодействие с оркестратором, параллельная обработка аудио/видео, агрегация результатов в текстовый документ с возможностью скачивания/печати.</p></trans-abstract><kwd-group xml:lang="en"><kwd>multimodality</kwd><kwd>multi-agent systems</kwd><kwd>Orchestrator-Performer pattern</kwd><kwd>large language model</kwd><kwd>agent interaction</kwd><kwd>data processing pipeline</kwd><kwd>multi-model approaches</kwd><kwd>machine learning</kwd><kwd>peer-to-peer decentralized architecture</kwd><kwd>video lecture processing</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>мультимодальность</kwd><kwd>мультиагентность</kwd><kwd>паттерн «Оркестратор-исполнитель»</kwd><kwd>большая языковая модель</kwd><kwd>взаимодействие агентов</kwd><kwd>конвейер обработки данных</kwd><kwd>многомодельные подходы</kwd><kwd>машинное обучение</kwd><kwd>одноранговая децентрализованная архитектура</kwd><kwd>обработка видеолекций</kwd></kwd-group><funding-group/></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><mixed-citation>Zhao, B. Hierarchical multimodal transformer for long video generation / B. Zhao, M. Gong, X. Li. – DOI 10.1016/j.neucom.2021.10.039 // Neurocomputing. – 2022. – Vol. 471. – P. 36–43.</mixed-citation></ref><ref id="B2"><label>2.</label><mixed-citation>VDTR: Video Deblurring with Transformer / M. Cao, Y. Fan, Y. Zhang [et al.]. – DOI 10.1109/TCSVT.2022.3201045 // IEEE Transactions on Circuits and Systems for Video Technology. – 2022. – Vol. 33. – P. 160–171.</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>Efficient Training of Audio Transformers with Patchout / K. Koutini, J. Schlüter, H. Eghbal-zadeh, G. Widmer. – DOI 10.21437/Interspeech.2022-227 // Interspeech. – 2022. – P. 2753–2757.</mixed-citation></ref><ref id="B4"><label>4.</label><mixed-citation>Comprehensive Survey on Applications of Transformers for Deep Learning Tasks / S. Islam, H. Elmekki, A. Elsebai [et al.]. – DOI 10.48550/arXiv.2306.07303 // ArXiv. – URL: https://arxiv.org/html/2306.07303 (date of application: 21.06.2025).</mixed-citation></ref><ref id="B5"><label>5.</label><mixed-citation>Large Language Model Should Understand Pinyin for Chinese ASR Error Correction / Y. Li, X. Qiao, X. Zhao [et al.] // ArXiv. – URL: https://arxiv.org/abs/2409.13262 (date of application: 21.06.2025).</mixed-citation></ref><ref id="B6"><label>6.</label><mixed-citation>AudioPaLM: A Large Language Model That Can Speak and Listen / P. K. Rubenstein, C. Asawaroengchai, A. Bapna [et al.] // ArXiv. – URL: https://arxiv.org/abs/2306.12925 (date of application: 21.06.2025).</mixed-citation></ref><ref id="B7"><label>7.</label><mixed-citation>Gutowska, A. What is a multiagent system? / A. Gutowska // IBM сайт. – URL: https://www.ibm.com/think/topics/multiagent-system/ (date of application: 21.06.2025).</mixed-citation></ref><ref id="B8"><label>8.</label><mixed-citation>Ismagulov, М. Е. Methods and Algorithms for Multimodal Conversion of Video Lectures / М. Е. Ismagulov // Proceedings of the XXIV International Conference on Information Technologies and Mathematical Modelling (ITMM-2024) (Tomsk, 2024). – Tomsk : Tomsk State University, 2024. – P. 605–607. – URL: https://www.researchgate.net/publication/391833448_1_Conf erence_proceedings_with_your_article_Ismagulov_M_E_Methods_and_Algorithms_for_Multimodal_Conversion_of_Video_Lectures (date of application: 17.05.2025).</mixed-citation></ref><ref id="B9"><label>9.</label><mixed-citation>Лекция 10. Распределенные интеллектуальные системы на основе агентов // Ronl. – URL: https://ronl.org/lektsii/informatika/882253/ (дата обращения: 21.06.2025).</mixed-citation></ref><ref id="B10"><label>10.</label><mixed-citation>A decentralized optimization approach for scalable agent-based energy dispatch and congestion management / M. Kilthau, V. Henkel, L. P. Wagner [et al.]. – DOI 10.1016/j.apenergy.2024.124659 // Applied Energy. – 2025. – Vol. 377, Part C. – URL: https://www.sciencedirect.com/science/article/pii/S0306261924020427?via%3Dihub (date of application: 17.05.2025).</mixed-citation></ref><ref id="B11"><label>11.</label><mixed-citation>Zhang, H. L. Classification of Intelligent Agent Network Topologies and a New Topological Description Language for Agent Networks / H. L. Zhang, C. H. C. Leung, G. K. Raikundalia. – DOI 10.1007/978-0-387-44641-7_3 // Intelligent Information Processing III : Proceedings of the IFIP International Conference. – Boston : Springer, 2006. – P. 21–31.</mixed-citation></ref><ref id="B12"><label>12.</label><mixed-citation>Mwifunyi, R. J. Distributed approach in fault localisation and service restoration: State-of-the-Art and future direction / R. J. Mwifunyi, M. M. Kissaka, N. H. Mvungi. – DOI 10.1080/23311916.2019.1628424 // Cogent Engineering. – 2019. – Vol. 6. – P. 1–20. – URL: https://www.researchgate.net/publication/344738267_Distributed_approach_in_fault_localisation_and_service_restoration_State-of-the-Art_and_future_direction (date of application: 08.06.2025).</mixed-citation></ref><ref id="B13"><label>13.</label><mixed-citation>Finio, M. What is AI agent orchestration? / M. Finio, A. Downie // IBM. – URL: https://www.ibm.com/think/topics/ai-agent-orchestration (date of application: 21.06.2025).</mixed-citation></ref><ref id="B14"><label>14.</label><mixed-citation>Falconer, S. The orchestrator-worker pattern is a well-known design pattern for structuring multi-agent systems / S. Falconer // LinkedIn. – URL: https://www.linkedin.com/posts/seanf_the-orchestrator-worker-pattern-is-a-well-known-activity-7294775230353313792-_zFL (date of application: 21.06.2025).</mixed-citation></ref><ref id="B15"><label>15.</label><mixed-citation>Orchestrator-Workers Workflow // Java AI Dev. – URL: https://javaaidev.com/docs/agentic-patterns/patterns/orchestrator-workers-workflow/ (date of application: 21.06.2025).</mixed-citation></ref></ref-list></back></article>
