Application of a multimodel data processing pipeline for solving the video lecture scene segmentation problem
- Authors: Ismagulov M.E.1
-
Affiliations:
- Yugra State University
- Issue: Vol 22, No 1 (2026)
- Pages: 53-58
- Section: Mathematical modeling and information technology
- Published: 30.03.2026
- URL: https://vestnikugrasu.org/byusu/article/view/701956
- DOI: https://doi.org/10.18822/byusu20260153-58
- ID: 701956
Cite item
Full Text
Abstract
Subject of research: the set of methods and models of machine learning and artificial intelligence in the field of computer vision that ensure the analysis and processing of video lectures as multimodal data sources.
Purpose of research: to develop and substantiate an approach to solving the non-trivial problem of segmenting a video lecture into scenes, each corresponding to a unique frame that reflects textual content at a specific stage of material presentation, with the aim of subsequent processing of the obtained results using optical character recognition methods.
Research methods: the primary research method is the decomposition of a video lecture as a multimodal object into individual modalities, followed by data analysis based on a multimodel data processing pipeline.
Objects of research: within the scope of this paper, the objects of the study are video lectures of three main types, serving as sources of multimodal data for analysis and processing.
Research findings: a multimodel data processing pipeline has been developed and substantiated for each of the identified types of video lectures. An evaluation of the applied models was conducted, and their influence on the formation of the final processing results was analyzed.
Full Text
ВВЕДЕНИЕ
В настоящее время задача мультимодальной обработки видеолекций является актуальным направлением исследований в области машинного обучения и искусственного интеллекта, поскольку использование видеоматериала в обучении очень распространено [3]. Решение данной задачи позволяет автоматизировать и рационализировать процессы, связанные с протоколированием научных конференций, вебинаров и иных образовательных мероприятий, проводимых в дистанционном формате с использованием средств видео-конференц-связи [15].
Кроме того, методы мультимодального анализа видеолекций представляют практическую ценность для автоматизированного формирования текстового контента образовательных платформ массовых онлайн-курсов [6]. Текстовое представление учебного материала обладает рядом преимуществ по сравнению с видеолекцией: оно развёрнуто в пространстве, а не во времени, что облегчает навигацию по содержанию, повторное обращение к отдельным фрагментам и аналитическое восприятие информации, а также характеризуется меньшими требованиями к хранению и передаче данных [13].
На современном этапе исследования значительная часть работ в данной области основана на применении мультимодальных больших языковых моделей [8]. Подобные модели способны учитывать взаимосвязи между различными модальностями и формировать целостное текстовое представление видеолекции. Вместе с тем использование монолитных мультимодальных моделей сопровождается рядом ограничений. Ключевым из них является низкая интерпретируемость процесса обработки, обусловленная стохастической природой моделей и их функционированием в режиме «чёрного ящика», что затрудняет формальный анализ факторов, повлиявших на формирование итогового результата.
В качестве альтернативного подхода в данной работе рассматривается метод многомодельного конвейера обработки данных, архитектурное отличие которого заключается в использовании каскада специализированных моделей [4], последовательно обрабатывающих мультимодальный объект. В такой архитектуре выходные данные одной модели используются в качестве входных данных для следующей, что позволяет декомпозировать процесс обработки на интерпретируемые этапы [5]. Существенным преимуществом многомодельного конвейера является его реконфигурируемость и возможность адаптации структуры обработки в зависимости от типа и формата видеолекции, что и составляет основу предлагаемого в работе подхода.
Метод многомодельного конвейера обработки данных получил широкое применение в медицинской области [4; 12], где предъявляются повышенные требования к интерпретируемости результатов анализа. Это обусловлено тем, что процессы принятия решений в медицинских системах напрямую связаны с рисками для жизни и здоровья пациентов, что требует прозрачности и воспроизводимости используемых алгоритмических решений [1].
Методы и модели
Для решения поставленной задачи в рамках настоящего исследования было принято решение отказаться от использования мультимодальных больших языковых моделей на этапе обработки видеоданных. Такое решение обусловлено результатами, представленными в работе Runtao Liu et al. [9], в которой показано, что мультимодальные большие языковые модели демонстрируют ограниченную эффективность при анализе протяжённых видеопоследовательностей, что связано с ограничениями на длину контекста и эффектами деградации семантической согласованности.
В качестве альтернативы в исследовании применяется метод многомодельного конвейера обработки данных, основанный на декомпозиции исходной задачи на набор специализированных подзадач с последующей обработкой каждой из них отдельной моделью. В отличие от монолитного подхода, данный метод позволяет учитывать специфику отдельных этапов обработки, а также повышает интерпретируемость и управляемость вычислительного процесса. Наглядное сравнение указанных подходов представлено на схемах, приведённых на рисунке 1.
Рисунок 1. Схема (а) монолитной мультимодальной большой языковой модели и (б) многомодельного конвейера обработки данных
Как показано на схеме, в рамках первого подхода используется монолитная модель, которая принимает исходный объект обработки и формирует итоговый результат без явной декомпозиции вычислительного процесса.
Во втором подходе каждой подзадаче сопоставляется отдельная специализированная модель или алгоритм. Обозначение модели со штрихом указывает на возможность динамической замены используемых моделей, а также конфигурации маршрута обработки внутри конвейера. За счёт этого обеспечивается реконфигурируемость конвейера обработки данных, в том числе для адаптации к различным форматам видеолекций.
Помимо каскадной (последовательной) организации, конвейер может включать этапы разветвления, при которых входные данные обрабатываются несколькими моделями параллельно с последующим объединением полученных предсказаний. Данные способы организации вычислительного процесса соответствуют шаблонам cascade (sequence) pattern и A/B branch pattern [11; 14].
В рамках исследования были реализованы и использованы различные варианты многомодельных конвейеров обработки данных, адаптированные к формату видеолекции. В частности, ниже приведено описание конвейеров, применяемых для форматов «лектор и презентация» и «лектор и доска».
Для видеолекций формата «лектор и презентация» объект обработки (видеоряд) подаётся на вход модели YOLOv8 Small [7], предназначенной для детектирования лектора в кадре. Полученные результаты используются для маскирования фигуры человека с последующим абстрагированием визуального содержимого. Далее кадры, очищенные от изображения лектора, передаются в алгоритм детектирования сцен из библиотеки PySceneDetect, основанный на сравнении цветовых гистограмм изображений, при этом пороговое значение сходства устанавливается равным 1, что позволяет выполнить первичное грубое определение границ сцен.
На следующем этапе осуществляется фильтрация визуально схожих кадров с целью устранения дубликатов. Для этого применяется алгоритм перцептивного хэширования, позволяющий оценивать степень визуальной близости кадров. В результате избыточные кадры удаляются, а временные границы сцены расширяются за счет учета удаленных дубликатов, что обеспечивает более корректное формирование временной структуры сцен. Описанный конвейер отличается относительной простотой, что обусловлено низкой структурной вариативностью видеолекций данного формата.
Конвейер обработки видеолекций формата «презентация и закадровый голос» по своей структуре аналогичен конвейеру, применяемому для формата «лектор и презентация», и является более простым, поскольку отсутствует необходимость в выполнении этапа абстрагирования изображения лектора.
Для видеолекций формата «лектор и доска» используется более сложный конвейер обработки. На первом этапе видеоряд подаётся на вход модели YOLOv8 Small-Seg, предназначенной для сегментации лектора в кадре. В отличие от модели YOLOv8 Small, формирующей ограничивающий прямоугольник (bounding box), данная модель генерирует пиксельную маску объекта, что позволяет более точно удалить изображение лектора и сохранить максимальный объём информации, содержащейся на доске.
После маскирования и абстрагирования кадры передаются на этап сравнения визуальных представлений, реализованный с использованием модели CLIP. Сходство между кадрами оценивается на основе косинусной меры между визуальными эмбеддингами. Для автоматического определения границ сцен применяется адаптивный порог, вычисляемый на основе медианного абсолютного отклонения (MAD), что позволяет отказаться от жёстко заданных пороговых значений и повысить устойчивость алгоритма к вариативности визуального содержания.
На заключительном этапе кадры, отнесённые к одной сцене, подаются на вход модели темпорального объединения данных [2], в рамках которой осуществляется агрегация кадров сцены с целью восстановления скрытых или временно перекрытых элементов содержимого доски.
Набор данных
В качестве набора данных были отобраны видеоматериалы нескольких онлайн-курсов, размещённых на платформах массовых открытых онлайн-курсов (Coursera, Stepik), а также на открытых видеохостингах (RuTube, VK Video и др.).
Совокупный объём выборки составляет 20 видеозаписей, среди которых 10 видео формата «лектор и презентация» со средним хронометражем около 15 минут, 8 видео формата «лектор и доска» со средним хронометражем около 30 минут, а также 2 видео формата «презентация и закадровый голос» продолжительностью более одного часа.
К первому формату видеолекции относится «лектор и презентация», в которой лектор располагается слева или справа от демонстрируемых слайдов, при этом визуальная информация представлена сочетанием изображения лектора и презентационных материалов. Второй формат «презентация и закадровый голос» характеризуется представлением теоретического материала преимущественно в виде слайдов презентации с одновременным пояснением посредством аудиодорожки без визуального присутствия лектора в кадре. Третий формат «лектор и доска» включает видеозаписи лекций, в которых изложение материала осуществляется путём рукописного ввода информации лектором на классической меловой или маркерной доске, что формирует специфический визуальный контент.
В качестве разметки используются два типа аннотационных файлов: файл metadata.txt, содержащий общие технические характеристики видеозаписей (длительность, частота кадров, битрейт и др.), и файл scenes.csv, представляющий собой таблицу эталонных сцен, размеченных вручную. Подробное описание структуры и содержания указанных файлов приведено в таблицах 1 и 2.
Таблица 1. Структура файла metadata.txt
Параметр | Назначение |
id | Ключевое значение, по которому устанавливается связь между видео, метаданными и файлом разметки сцен |
source_file | Путь до видео |
duration_sec | Длительность видео в секундах |
original_fps | Частота кадров видео |
frame_width_pix | Разрешение видео (ширина в пикселях) |
frame_height_pix | Разрешение видео (высота в пикселях) |
content_type | Поле для указания типа видеолекции |
has_lecturer | Флаг, демонстрирующий наличие лектора (может быть True или False) |
has_slides | Флаг, демонстрирующий наличие слайдов (может быть True или False) |
video_bitrate_kbps | Битрейт видео |
file_size_bytes | Размер видео в байтах |
Таблица 2. Структура файла scenes.csv
scene_id | start_sec | end_sec | type | comment |
1 | 0 | 5 | splash_screen | Заставка |
2 | 6 | 18 | slide_with_lecturer | Титульный слайд |
3 | 19 | 30 | slide_with_lecturer | Слайд 2 |
4 | 31 | 50 | slide_with_lecturer | Слайд 3 |
5 | 51 | 74 | slide_with_lecturer | Слайд 4 |
6 | 75 | 83 | slide_with_lecturer | Слайд 5 |
7 | 84 | 92 | slide_with_lecturer | Слайд 6 |
8 | 93 | 104 | slide_with_lecturer | Слайд 7 |
9 | 105 | 128 | slide_with_lecturer | Слайд 8 |
10 | 129 | 175 | slide_with_lecturer | Слайд 9 – в конце склейка с переходом |
Под сценой в рамках настоящего исследования понимается временной интервал видеозаписи, в пределах которого визуальное представление учебного материала остаётся структурно неизменным и который ограничивается моментами возникновения одного из следующих событий:
- смена ключевого контента в кадре, включая смену слайдов презентации, появление или исчезновение надписей на доске и иных значимых визуальных элементов;
- изменение ракурса видеокамеры, в том числе зумирование, панорамирование или смещение точки съёмки;
- смена типа видеоряда, например переход от изображения лектора к демонстрации презентационного материала на весь экран.
При этом к смене сцены не относятся локальные и кратковременные изменения визуального характера, не влияющие на структуру представляемого контента, в частности:
- жестикуляция лектора;
- незначительные перемещения лектора в пределах кадра;
- изменение мимики.
Указанные метаданные необходимы для обеспечения корректной работы скрипта, реализованного на языке Python; содержащаяся в файле информация является исчерпывающей в рамках задачи, рассматриваемой в настоящем исследовании.
Ключевыми параметрами, представленными в данной таблице, являются следующие поля: scene_id – идентификатор сцены, который, как правило, соответствует её порядковому номеру, реже используется сгенерированный уникальный ключ. В рамках настоящего исследования применяется первый вариант идентификации. Параметры start_sec и end_sec определяют соответственно момент начала и окончания сцены, выраженный в секундах.
К дополнительным параметрам относится поле type, задающее тип контента, представленного в рассматриваемый временной интервал, данный параметр используется для целей логирования на этапе обучения модели. Поле comment содержит текстовые комментарии на русском языке и применяется для интерпретации и вывода результатов после завершения процесса обучения.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
В качестве результирующих метрик качества были использованы показатели precision, recall и F1-score. Расчёт метрик осуществлялся путём сравнения эталонных сцен, размеченных вручную, и сцен, автоматически выделенных конвейером обработки данных. При этом метрика precision характеризует точность определения временных границ сцен с учётом допустимой погрешности, равной двум видеокадрам, что позволяет нивелировать возможные неточности ручной разметки. Метрика recall отражает полноту обнаружения сцен, то есть долю эталонных сцен, корректно выявленных конвейером. Метрика F1-score определяется как гармоническое среднее значений precision и recall и используется для интегральной оценки качества разграничения сцен.
Для конвейера обработки видеолекций формата «лектор и презентация» были получены следующие значения метрик: precision = 0,948, recall = 0,987 и F1-score = 0,967. Полученные результаты свидетельствуют о высокой точности определения временных границ сцен, что обусловлено относительно простой и структурно однородной визуальной организацией видеоматериала данного формата.
В свою очередь для конвейера обработки видеолекций формата «презентация и закадровый голос» были получены следующие значения метрик: precision = 0,963, recall = 0,977 и F1-score = 0,971. Здесь метрики самые высокие, поскольку конвейер самый простой в реализации.
Для конвейера обработки видеолекций формата «лектор и доска» значения метрик составили: precision = 0,653, recall = 0,821 и F1-score = 0,727. Снижение значений метрик по сравнению с предыдущим форматом является ожидаемым и объясняется существенно более высокой сложностью визуального содержания, а также наличием динамически изменяющихся элементов, таких как надписи на доске и перемещения лектора. Дополнительным фактором, влияющим на итоговые показатели, является усложнение архитектуры конвейера за счёт использования нескольких моделей машинного обучения и этапов агрегации данных.
ЗАКЛЮЧЕНИЕ И ВЫВОДЫ
В рамках проведенного исследования была разработана и апробирована многомодельная конвейерная архитектура обработки видеолекций, ориентированная на задачу автоматического выделения сцен. Экспериментальные результаты показали, что применение специализированных конвейеров, адаптированных к различным форматам видеолекций, позволяет обеспечить высокое качество разграничения сцен при сохранении интерпретируемости и гибкости вычислительного процесса.
Полученные значения метрик precision, recall и F1-score подтверждают эффективность предложенного подхода для видеолекций формата «лектор и презентация» и «презентация и закадровый голос», а также демонстрируют его применимость к более сложному формату «лектор и доска», для которого характерна высокая вариативность визуального содержания. Снижение показателей качества в последнем случае обусловлено объективной сложностью данных и подтверждает необходимость использования адаптивных и реконфигурируемых методов обработки.
About the authors
Milan E. Ismagulov
Yugra State University
Author for correspondence.
Email: m_ismagulov@ugrasu.ru
3-year postgraduate student in the field of "System Analysis, Management and Information Processing, Statistics", Engineering School of Digital Technologies
Russian Federation, Khanty-MansiyskReferences
- Жукова, И. В. Искусственный интеллект для объяснения моделей здравоохранения / И. В. Жукова ; науч. рук. С. В. Ковальчук // Сборник тезисов докладов конгресса молодых ученых. – Санкт-Петербург : Университет ИТМО, 2020. – URL: https://kmu.itmo.ru/digests/article/3397 (дата обращения: 14.10.2025).
- Исмагулов, М. Е. Нейросетевая модель темпорального объединения кадров видеолекции для решения задачи реконструкции изображения / М. Е. Исмагулов, А. В. Мельников // Материалы XXII Конференции искусственного интеллекта с международным участием (RCAI-2025). – Москва, 2025. – С. 74–84.
- A Closer Look into Recent Video-based Learning Research: A Comprehensive Review of Video Characteristics, Tools, Technologies, and Learning Effectiveness / E. Navarrete, A. Nehring, S. Schanze [et al.] // International Journal of Artificial Intelligence in Education. – 2025. – Vol. 35. – P. 1631–1694.
- A machine learning approach for multimodal data fusion for survival prediction in cancer patients / N. Nikolaou, D. Salazar, H. RaviPrakash [et al.] // Precision Oncology. – 2025. – Vol. 9, № 1. – P. 128.
- AI-Based Educational Video Summarization / S. Choudhury, M. N. Sharma, R. Sharma [et al.] // ShodhKosh: Journal of Visual and Performing Arts. – 2025. – Vol. 6, № 2s. – P. 272–280.
- Automatically Generated Summaries of Video Lectures / H. Gonzalez, H. Jin, R. Baker [et al.] // Proceedings of the 2023 Workshop on Natural Language Generation, Evaluation, and Metrics (BEA). – 2023. – P. 1–12.
- Explore Ultralytics YOLOv8 // Ultralytics. – URL: https://docs.ultralytics.com/models/yolov8/ (date of application: 10.01.2026).
- Lee, M. J. Video Summarization with Large Language Models / M. J. Lee, D. Gong, M. Cho // 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR): proceedings. – Piscataway : IEEE, 2025. – P. 18981–18991.
- LongVideoAgent: Multi-Agent Reasoning with Long Videos / R. Liu, Z. Liu, J. Tang [et al.] // arXiv. – 2025. – URL: https://arxiv.org/abs/2512.20618 (date of application: 10.01.2026).
- Multimodal Speech Summarization through Semantic Concept Learning / S. Palaskar, R. Salakhutdinov, A. W. Black, F. Metze // INTERSPEECH 2021: proceedings of the Conference (30 August – 3 September 2021, Brno, Czechia). – Brno : ISCA, 2021. – P. 791–795.
- Multi-model pipelines // The Apache Software Foundation. – URL: https://beam.apache.org/documentation/ml/multi-model-pipelines/ (date of application: 10.01.2026).
- Shambour, Q. Y. From Data to Diagnosis: Knowledge-Driven, Explainable AI for Reliable Early Autism Detection / Q. Y. Shambour, M. M. Al-Zyoud, A. H. Hussein // Interdisciplinary Journal of Information, Knowledge, and Management. – 2025. – Vol. 20. – P. 32–53.
- Takeuchi, M. Selection of key sentences from lecture video transcription and its application to feedback to the learner / M. Takeuchi, A. Ito, T. Nose // Proc. of the 8th International Conference on Education and Multimedia Technology ICEMT’2024. – Tokyo, Japan, 2024. – P. 22–24.
- Use multiple models in pipelines // Google Cloud. – URL: https://docs.cloud.google.com/dataflow/docs/machine-learning/ml-multi-model (date of application: 10.01.2026).
- Using LLM-supported lecture summarization system to improve knowledge recall and student satisfaction / T. Xie, Y. Kuang, Y. Tang [et al.] // Expert Systems with Applications. – 2025. – Vol. 269. – P. 126371.
Supplementary files



