<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="research-article" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Yugra State University Bulletin</journal-id><journal-title-group><journal-title xml:lang="en">Yugra State University Bulletin</journal-title><trans-title-group xml:lang="ru"><trans-title>Вестник Югорского государственного университета</trans-title></trans-title-group></journal-title-group><issn publication-format="print">1816-9228</issn><issn publication-format="electronic">2078-9114</issn><publisher><publisher-name xml:lang="en">Yugra State University</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">701956</article-id><article-id pub-id-type="doi">10.18822/byusu20260153-58</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>Mathematical modeling and information technology</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Математическое моделирование и информационные технологии</subject></subj-group><subj-group subj-group-type="article-type"><subject>Research Article</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Application of a multimodel data processing pipeline for solving the video lecture scene segmentation problem</article-title><trans-title-group xml:lang="ru"><trans-title>Применение многомодельного конвейера обработки данных для решения задачи разграничения сцен видеолекции</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Ismagulov</surname><given-names>Milan E.</given-names></name><name xml:lang="ru"><surname>Исмагулов</surname><given-names>Милан Ерикович</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>3-year postgraduate student in the field of "System Analysis, Management and Information Processing, Statistics", Engineering School of Digital Technologies</p></bio><bio xml:lang="ru"><p>аспирант 3 года обучения направления «Системный анализ, управление и обработка информации, статистика», Инженерная школа цифровых технологий</p></bio><email>m_ismagulov@ugrasu.ru</email><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">Yugra State University</institution></aff><aff><institution xml:lang="ru">Югорский государственный университет</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2026-03-30" publication-format="electronic"><day>30</day><month>03</month><year>2026</year></pub-date><volume>22</volume><issue>1</issue><issue-title xml:lang="en"/><issue-title xml:lang="ru"/><fpage>53</fpage><lpage>58</lpage><history><date date-type="received" iso-8601-date="2026-01-28"><day>28</day><month>01</month><year>2026</year></date><date date-type="accepted" iso-8601-date="2026-02-05"><day>05</day><month>02</month><year>2026</year></date></history><permissions><copyright-statement xml:lang="en">Copyright ©; 2026, Yugra State University</copyright-statement><copyright-statement xml:lang="ru">Copyright ©; 2026, Югорский государственный университет</copyright-statement><copyright-year>2026</copyright-year><copyright-holder xml:lang="en">Yugra State University</copyright-holder><copyright-holder xml:lang="ru">Югорский государственный университет</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0</ali:license_ref></license></permissions><self-uri xlink:href="https://vestnikugrasu.org/byusu/article/view/701956">https://vestnikugrasu.org/byusu/article/view/701956</self-uri><abstract xml:lang="en"><p>Subject of research: the set of methods and models of machine learning and artificial intelligence in the field of computer vision that ensure the analysis and processing of video lectures as multimodal data sources.</p> <p>Purpose of research: to develop and substantiate an approach to solving the non-trivial problem of segmenting a video lecture into scenes, each corresponding to a unique frame that reflects textual content at a specific stage of material presentation, with the aim of subsequent processing of the obtained results using optical character recognition methods.</p> <p>Research methods: the primary research method is the decomposition of a video lecture as a multimodal object into individual modalities, followed by data analysis based on a multimodel data processing pipeline.</p> <p>Objects of research: within the scope of this paper, the objects of the study are video lectures of three main types, serving as sources of multimodal data for analysis and processing.</p> <p>Research findings: a multimodel data processing pipeline has been developed and substantiated for each of the identified types of video lectures. An evaluation of the applied models was conducted, and their influence on the formation of the final processing results was analyzed.</p></abstract><trans-abstract xml:lang="ru"><p>Предмет исследования: совокупность методов и моделей машинного обучения и искусственного интеллекта в области компьютерного зрения, обеспечивающих анализ и обработку видеолекций как мультимодальных источников данных.</p> <p>Цель исследования: разработка и обоснование подхода к решению нетривиальной задачи разграничения видеолекции на сцены, каждая из которых соответствует уникальному кадру, отражающему текстовое содержимое на определённом этапе изложения материала, с целью последующей обработки полученных результатов методами оптического распознавания символов.</p> <p>Методы исследования: в качестве основного метода исследования используется метод декомпозиции видеолекции как мультимодального объекта на отдельные модальности с последующим анализом данных на основе многомодельного конвейера обработки.</p> <p>Объекты исследования: в рамках данной статьи объектами исследования являются видеолекции трёх основных типов, выступающие источниками мультимодальных данных для анализа и обработки.</p> <p>Основные результаты исследования: разработан и обоснован многомодельный конвейер обработки данных для каждого из выделенных типов видеолекций. Проведена оценка применяемых моделей, а также проанализировано их влияние на формирование итоговых результатов обработки.</p></trans-abstract><kwd-group xml:lang="en"><kwd>multimodal data processing</kwd><kwd>video lecture</kwd><kwd>computer vision</kwd><kwd>multimodel pipeline</kwd><kwd>modality decomposition</kwd><kwd>video data analysis</kwd><kwd>optical character recognition</kwd><kwd>image processing</kwd><kwd>machine learning</kwd><kwd>artificial intelligence</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>мультимодальная обработка данных</kwd><kwd>видеолекция</kwd><kwd>компьютерное зрение</kwd><kwd>многомодельный конвейер</kwd><kwd>декомпозиция модальностей</kwd><kwd>анализ видеоданных</kwd><kwd>оптическое распознавание символов</kwd><kwd>обработка изображений</kwd><kwd>машинное обучение</kwd><kwd>искусственный интеллект</kwd></kwd-group><funding-group/></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><mixed-citation>Жукова, И. В. Искусственный интеллект для объяснения моделей здравоохранения / И. В. Жукова ; науч. рук. С. В. Ковальчук // Сборник тезисов докладов конгресса молодых ученых. – Санкт-Петербург : Университет ИТМО, 2020. – URL: https://kmu.itmo.ru/digests/article/3397 (дата обращения: 14.10.2025).</mixed-citation></ref><ref id="B2"><label>2.</label><mixed-citation>Исмагулов, М. Е. Нейросетевая модель темпорального объединения кадров видеолекции для решения задачи реконструкции изображения / М. Е. Исмагулов, А. В. Мельников // Материалы XXII Конференции искусственного интеллекта с международным участием (RCAI-2025). – Москва, 2025. – С. 74–84.</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>A Closer Look into Recent Video-based Learning Research: A Comprehensive Review of Video Characteristics, Tools, Technologies, and Learning Effectiveness / E. Navarrete, A. Nehring, S. Schanze [et al.] // International Journal of Artificial Intelligence in Education. – 2025. – Vol. 35. – P. 1631–1694.</mixed-citation></ref><ref id="B4"><label>4.</label><mixed-citation>A machine learning approach for multimodal data fusion for survival prediction in cancer patients / N. Nikolaou, D. Salazar, H. RaviPrakash [et al.] // Precision Oncology. – 2025. – Vol. 9, № 1. – P. 128.</mixed-citation></ref><ref id="B5"><label>5.</label><mixed-citation>AI-Based Educational Video Summarization / S. Choudhury, M. N. Sharma, R. Sharma [et al.] // ShodhKosh: Journal of Visual and Performing Arts. – 2025. – Vol. 6, № 2s. – P. 272–280.</mixed-citation></ref><ref id="B6"><label>6.</label><mixed-citation>Automatically Generated Summaries of Video Lectures / H. Gonzalez, H. Jin, R. Baker [et al.] // Proceedings of the 2023 Workshop on Natural Language Generation, Evaluation, and Metrics (BEA). – 2023. – P. 1–12.</mixed-citation></ref><ref id="B7"><label>7.</label><mixed-citation>Explore Ultralytics YOLOv8 // Ultralytics. – URL: https://docs.ultralytics.com/models/yolov8/ (date of application: 10.01.2026).</mixed-citation></ref><ref id="B8"><label>8.</label><mixed-citation>Lee, M. J. Video Summarization with Large Language Models / M. J. Lee, D. Gong, M. Cho // 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR): proceedings. – Piscataway : IEEE, 2025. – P. 18981–18991.</mixed-citation></ref><ref id="B9"><label>9.</label><mixed-citation>LongVideoAgent: Multi-Agent Reasoning with Long Videos / R. Liu, Z. Liu, J. Tang [et al.] // arXiv. – 2025. – URL: https://arxiv.org/abs/2512.20618 (date of application: 10.01.2026).</mixed-citation></ref><ref id="B10"><label>10.</label><mixed-citation>Multimodal Speech Summarization through Semantic Concept Learning / S. Palaskar, R. Salakhutdinov, A. W. Black, F. Metze // INTERSPEECH 2021: proceedings of the Conference (30 August – 3 September 2021, Brno, Czechia). – Brno : ISCA, 2021. – P. 791–795.</mixed-citation></ref><ref id="B11"><label>11.</label><mixed-citation>Multi-model pipelines // The Apache Software Foundation. – URL: https://beam.apache.org/documentation/ml/multi-model-pipelines/ (date of application: 10.01.2026).</mixed-citation></ref><ref id="B12"><label>12.</label><mixed-citation>Shambour, Q. Y. From Data to Diagnosis: Knowledge-Driven, Explainable AI for Reliable Early Autism Detection / Q. Y. Shambour, M. M. Al-Zyoud, A. H. Hussein // Interdisciplinary Journal of Information, Knowledge, and Management. – 2025. – Vol. 20. – P. 32–53.</mixed-citation></ref><ref id="B13"><label>13.</label><mixed-citation>Takeuchi, M. Selection of key sentences from lecture video transcription and its application to feedback to the learner / M. Takeuchi, A. Ito, T. Nose // Proc. of the 8th International Conference on Education and Multimedia Technology ICEMT’2024. – Tokyo, Japan, 2024. – P. 22–24.</mixed-citation></ref><ref id="B14"><label>14.</label><mixed-citation>Use multiple models in pipelines // Google Cloud. – URL: https://docs.cloud.google.com/dataflow/docs/machine-learning/ml-multi-model (date of application: 10.01.2026).</mixed-citation></ref><ref id="B15"><label>15.</label><mixed-citation>Using LLM-supported lecture summarization system to improve knowledge recall and student satisfaction / T. Xie, Y. Kuang, Y. Tang [et al.] // Expert Systems with Applications. – 2025. – Vol. 269. – P. 126371.</mixed-citation></ref></ref-list></back></article>
