Creation of a neural network model for structuring and formalizing technical specifications

Cover Page

Cite item

Full Text

Abstract

Subject of research: approaches and methods of building neural network models based on transformer architecture for processing and analyzing technical tasks in the field of information technology.

Purpose of research: to create a neural network mode l for structuring and formalizing technical specifications, aimed at increasing structural consistency, logical consistency and formal completeness of the text of technical specifications.

Research methods: methods of neural network design, system analysis, machine learning, optimization methods in the field of machine learning.

Objects of research: non-formalized texts of technical assignments in the field of information technology, obtained from open sources.

Research findings: a neural network model for processing technical tasks in the field of information technology has been created. An intelligent system has been created capable of processing the text of the terms of reference, identifying structural deficiencies and formulating an improved version of the document. The validation results confirm that the proposed approach can be used in engineering practices for preparing project documentation and integrated into corporate software system development processes and can significantly reduce labor costs for creating and editing technical specifications.

Full Text

ВВЕДЕНИЕ

Техническое задание (ТЗ) является фундаментальным документом в жизненном цикле разработки программного обеспечения, определяющим цели, требования, ограничения и критерии приемки системы. Несмотря на существование стандартов [1], на практике значительная часть ТЗ составляется в свободной форме, что приводит к структурной неоднородности, семантическим противоречиям, дублированию и неполноте требований [6; 7].

Эти недостатки становятся источником ошибок на этапах проектирования, реализации и тестирования, увеличивая сроки и стоимость проектов. Автоматизация процессов анализа и оформления технической документации с использованием методов обработки естественного языка (Natural Language Processing, NLP) рассматривается как перспективный путь решения указанных проблем. Однако классические статистические методы (TF-IDF, n-граммы) и последовательные нейросетевые архитектуры (RNN, LSTM) обладают ограниченной эффективностью при работе с длинными, семантически насыщенными текстами, требующими учета глобального контекста и сложных логических связей [4; 11].

Прорыв в области NLP связан с появлением архитектуры «трансформер» и механизма внимания (attention), что позволило создавать модели, способные параллельно обрабатывать длинные последовательности и учитывать зависимости между любыми элементами текста [3]. Модели на основе архитектуры «трансформер» (BERT, GPT, T5) демонстрируют высокие результаты в задачах понимания, генерации и трансформации текста [2; 10]. Их применение для автоматизации формирования технической документации, в частности для создания и структурирования технических заданий, представляет собой качественно новый уровень. Если ранее основным подходом была формализация через программирование шаблонов и правил, то современные языковые модели позволяют интеллектуально обрабатывать неструктурированный входной текст, понимать его смысл и генерировать оформленный документ, соответствующий заданным стандартам.

В настоящее время для автоматизации анализа и подготовки технических заданий применяются различные подходы. Наиболее широкое распространение получили системы формализации технических заданий, построенные на предварительно установленных правилах и образцах. Подобные решения позволяют формализовать отдельные элементы документа, однако обладают низкой гибкостью, плохо масштабируются и не способны эффективно работать с текстами технических заданий, составленных в свободной форме и не выдерживающих структуру, регламентированную ГОСТ [1]. К системам, в которых используются специализированные инструменты системы управления требованиями (Requirements Management Tools – например, IBM Rational DOORS, Siemens Polarion), к системам, ориентированным на узкую специфику отдельных конечных пользователей, относятся системы, включающие конструкторы документов с предопределенными формами.

К иному направлению, связанному с процессами анализа и составления технического задания, относятся технологии, основанные на методах обработки естественного языка. К ним относятся TF-IDF, n-граммные модели, а также рекуррентные нейросетевые архитектуры (RNN, LSTM), которые применялись для построения структуры путем выявления его ключевых фрагментов. Отметим, что перечисленные методы показывают низкую продуктивность при работе с объемными документами, так как не учитывают общий контекст документа и взаимосвязи межу различными разделами технического задания.

К наиболее динамически развивающемуся направлению в области анализа текста относятся языковые модели на основе архитектуры «трансформер» (BERT, GPT, T5), позволяющие значительно повысить качество понимания и генерации текста. Но большинство существующих решений, относящихся к этому направлению, ориентировано на свободную генерацию текста и не гарантирует строгого соблюдения смысловой структуры документа, принятой в инженерной практике. Кроме того, значительная часть таких моделей и датасетов разрабатывается преимущественно для англоязычных текстов, что снижает их применимость для обработки русскоязычных технических заданий.

Таким образом, возникает необходимость в разработке метода, сочетающего преимущества вышеизложенных подходов, ориентированного на структурирование текста, позволяющего учитывать уникальные требования проекта, выявление в нем ключевых пунктов с учетом общепринятых правил.

Целью данной работы является разработка и валидация нейросетевой модели структуризации и формализации технического задания в сфере ИТ, представленного в виде слабоструктурированного русскоязычного текста. Для достижения цели решались следующие задачи:

  1. Анализ современных методов NLP и обоснование выбора архитектуры для обработки инженерных текстов.
  2. Формирование специализированного корпуса русскоязычных ТЗ, их очистка, разметка и подготовка для обучения модели.
  3. Адаптация предобученной трансформерной модели под задачу преобразования неструктурированного текста в формализованный документ.
  4. Экспериментальная оценка эффективности разработанной модели по критериям полноты, корректности, логической согласованности и полноты выходного документа.

В работе введены структурно-семантические критерии оценки качества модели, ориентированные на полноту, согласованность и корректность выходного документа. Проведены формирование и разметка специализированного корпуса русскоязычных технических заданий, а также адаптация трансформерной архитектуры под инженерный текст с использованием методов эффективной настройки (LoRA и 8-битной квантизации).

Практическая значимость работы заключается в возможности применения разработанной модели на этапах предпроектного обследования, подготовки и анализа технических заданий в процессе разработки программных систем. Модель может использоваться в качестве инструмента поддержки аналитиков, технических писателей и разработчиков для первичной проверки структуры и согласованности входной документации. Применение такого инструмента позволяет сократить время на подготовку и ревизию технических заданий, а также снизить вероятность ошибок, обусловленных человеческим фактором, без замены экспертного анализа.

Научная новизна исследования заключается в разработке специализированного подхода к автоматизации процесса структуризации и формализации технического задания в сфере ИТ, представленного в виде слабоструктурированного русскоязычного текста, ориентированного на выявление скрытой структуры документа с сохранением смыслового контекста исходного технического задания, и сведению к минимуму вероятности появления элементов текста, не соответствующих общепринятым правилам.

Предложенная архитектура позволяет адаптировать языковую модель создания текстов для автоматизированного анализа и генерации технической документации.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Для решения задачи автоматической формализации ТЗ был проведен анализ современного инструментария NLP. Процесс обработки инженерного текста включает ключевые этапы предобработки, которые были тщательно применены к формируемому корпусу. В качестве основы для разработки модели был проведен детальный анализ более 250 реальных русскоязычных ТЗ, собранных из открытых репозиториев, профессиональных форумов и фриланс-платформ. Анализ позволил выявить и формализовать типовую иерархическую структуру документа, которой должно соответствовать итоговое ТЗ (рисунок 1).

 

Рисунок 1. Аналитическая структура технического задания, принятая в качестве эталона

 

Данная структура стала эталоном для ручной разметки и оценки выходных данных модели.

Для обучения модели был необходим парный датасет, где каждому неструктурированному ТЗ сопоставлена его корректно оформленная версия. Процесс создания датасета включал следующие этапы:

  1. Сбор исходных текстов: была собрана 1000 документов в свободной форме.
  2. Ручная формализация: каждый документ был вручную обработан автором работы. Обработка включала:
    a. Структурирование: разбивка текста на разделы в соответствии с утвержденной эталонной структурой.
    b. Унификация формулировок: приведение требований к стандартному виду (например, «Система должна обеспечивать...»).
    c. Устранение противоречий и дублирования: семантический анализ на согласованность.
    d. Дополнение недостающих элементов: генерация стандартных разделов (например, «Нефункциональные требования») на основе контекста.
  3. Синтетическая аугментация: для увеличения объема и вариативности данных было создано 500 дополнительных примеров путем контролируемого внесения типовых ошибок в эталонные ТЗ с последующим их исправлением, а также перефразирования с использованием языковых моделей.

Итоговый датасет содержал 1500 пар «исходный текст – эталонный текст». Образец пары представлен на рисунке 2.

 

Рисунок 2. Образец пары из датасета: исходный неформализованный текст и эталонный структурированный вариант

 

Перед подачей на вход модели все тексты проходили многоэтапную автоматическую предобработку:

  1. Нормализация: приведение к нижнему регистру, замена прямых кавычек на парные, стандартизация форматирования дат и чисел.
  2. Токенизация: разбиение текста на предложения и слова с использованием библиотеки ru_core_news_lg (spaCy) для русского языка, что позволило корректно обрабатывать сложные составные термины (например, «веб-интерфейс») и аббревиатуры.
  3. Лемматизация: приведение слов к нормальной словарной форме (лемме) с помощью pymorphy2. Это критически важно для русского языка с его развитой морфологией, чтобы объединить различные формы одного слова (например, «требует», «требованием», «требования»).
  4. Удаление стоп-слов: был использован стоп-лист, из которого исключены ключевые для домена слова (например, «должен», «система», «пользователь»).
  5. Обработка специальных элементов: сохранение и выделение специальных токенов для нумерации списков (например, «1.1», «a)»), URL-адресов, названий технологий (Python, API) для предотвращения потери важной структурной и семантической информации.

Перед обучением был проведен статистический анализ подготовленного корпуса:

  • Распределение по длине: средняя длина документа составила 1200–1800 слов. Были отброшены крайне короткие (<200 слов) и длинные (>5000 слов) документы как нетипичные.
  • Частотность терминов: с помощью TF-IDF и анализа n-грамм были выявлены наиболее характерные для домена термины и шаблоны формулировок, которые затем использовались для валидации выходов модели.
  • Структурная разметка: для каждого документа в корпусе была сохранена метаинформация о наличии и порядке разделов, что позволило использовать эти данные как для обучения, так и для последующей оценки.

Архитектура и обучение нейросетевой модели

Для задачи преобразования текста «текст-в-текст» (text-to-text) была выбрана архитектура трансформера типа декодер, предобученная на большом корпусе русскоязычных и многоязычных данных. Такая архитектура оптимальна для генеративных задач, требующих учета длинного контекста.

Архитектура модели представлена на рисунке 3.

 

Рисунок 3. Архитектура нейронной сети на основе трансформера, адаптированная для задачи формализации ТЗ

 

Базовая модель включает:

  • Эмбеддинги токенов и позиционные эмбеддинги для работы с последовательностями длиной до 2048 токенов.
  • Стеки блоков трансформера с механизмом многоголового самовнимания (multi-head self-attention) и полносвязными слоями.
  • Выходной линейный слой для предсказания следующего токена.

Для эффективной адаптации модели под специфичный домен ТЗ с ограниченными вычислительными ресурсами был применен комплекс методов:

  1. 8-битная квантизация: для значительного снижения потребления оперативной памяти при загрузке модели.
  2. Low-Rank Adaptation (LoRA): для избирательного обучения только части параметров, что позволило быстро адаптировать модель к новой задаче без полного переобучения миллионов параметров.
  3. Градиентные чекпоинты (Gradient Checkpointing): для дополнительной экономии памяти в процессе обучения.

Процесс обучения построенной модели был организован в два этапа.

  1. Этап дообучения на общем корпусе: модель дополнительно обучалась на отобранных технических и научных текстах на русском языке (около 500 тыс. предложений) для улучшения понимания формального стиля и терминологии.
  2. Этап тонкой настройки (Fine-Tuning): непосредственное обучение на целевом датасете из 1500 пар ТЗ. Данные подавались в формате промпта: "Структурируй и формализуй следующее техническое задание: {исходный_текст} ### Ответ: {эталонный_текст}". При расчете функции потерь (кросс-энтропия) учитывались только токены, соответствующие эталонному ответу. Основные гиперпараметры обучения представлены ниже (таблица 1).

 

Таблица 1. Параметры модели

Параметр

Значение

Базовая модель

Transformer Decoder

Длина контекста

2048 токенов

Скорость обучения

1e-5

Эпохи обучения

15

Квантизация

8-bit

 

Обучение проводилось с использованием оптимизатора AdamW и мини-батчей. Валидация осуществлялась по метрикам перплексии (perplexity) и BLEU на отдельной выборке.

Экспериментальная валидация модели

В работе были введены численные характеристики, позволяющие оценить качество предложенной модели, основанной на сравнении выходных документов с эталонной структурой технического задания. Для каждого критерия применялась пятибалльная шкала, где значение 0 означало отсутствие признаков корректной обработки, а значение 5 – полное соответствие эталонному техническому заданию.

Критерий полноты структуры определялся на основе наличия обязательных разделов и их иерархической упорядоченности. Согласованность требований оценивалась по отсутствию логических противоречий и дублирующих формулировок. Ясность формулировок определялась степенью соответствия текста типовым шаблонам технического письма и однозначности описания требований. Техническая корректность оценивалась по корректности использования терминологии и описания функциональных возможностей системы.

Каждый документ из тестовой выборки оценивался по набору структурно-семантических критериев, включающих полноту структуры, согласованность требований, ясность формулировок и техническую корректность.

Техническое задание считалось успешно обработанным по конкретному критерию в случае достижения значения не менее 4 баллов. На основе полученных результатов рассчитывался показатель успешности PP, отражающий долю документов, удовлетворяющих заданному критерию, относительно общего числа документов тестовой выборки.

Параметр PP рассчитывается по формуле:

PP= ТЗуспТЗобщ 5

где ТЗусп – количество успешно обработанных ТЗ, ТЗобщ – общее число ТЗ, участвующих в обработке.

Экспериментальная оценка модели проводилась на тестовой выборке из 200 ранее не встречавшихся ТЗ. Качество работы модели оценивалось по следующим критериям:

  1. Полнота структуры (Completeness): наличие всех ключевых разделов эталонной структуры.
  2. Согласованность (Consistency): отсутствие семантических противоречий между требованиями.
  3. Ясность формулировок (Clarity): соответствие стилю технического письма.
  4. Техническая корректность: точность в использовании терминов и описании функций.

В качестве эталона использовалась заранее определённая иерархическая структура документа, сформированная на основе анализа корпуса технических заданий и требований стандартов технического письма.

Результаты оценки качества предложенной нейросетевой модели представлены в таблице 2.

 

Таблица 2. Оценка успешности модели

Критерий оценки

PP

Доля успешно обработанных ТЗ (%)

Полнота структуры

4,5

0,9 (90 %)

Согласованность

4,0

0,8 (80 %)

Ясность формулировок

4,1

0,81 (81 %)

Техническая корректность

3,75

0,75 (75 %)

 

Качественный анализ показал, что модель успешно справляется с задачами, обеспечивающими полноту структуры, согласованность и ясность формулировок.

На рисунке 4 представлен наглядный пример работы модели: фрагмент исходного неформализованного текста и результат его обработки, демонстрирующий приведение к четкой иерархической структуре.

 

Рисунок 4. Пример работы модели: исходный текст ТЗ (слева) и результат автоматической формализации (справа)

 

Результаты экспериментальной валидации на тестовой выборке показали, что предложенный подход обеспечивает высокую полноту структуры и согласованность формируемых документов, а также приемлемый уровень ясности формулировок и технической корректности. Полученные результаты подтверждают возможность использования модели в инженерной практике в качестве инструмента автоматизированной поддержки подготовки технической документации.

Основные ошибки модели были связаны с некорректной интерпретацией сильно неоднозначных или написанных с большим количеством жаргонизмов требований, что указывает на необходимость дальнейшего расширения и очистки обучающего корпуса.

ЗАКЛЮЧЕНИЕ И ВЫВОДЫ

В работе предложена нейросетевая модель для автоматической структуризации и формализации русскоязычных технических заданий, а также представлены результаты экспериментальной валидации модели. Основными этапами стали: глубокий анализ предметной области и формирование эталонной структуры ТЗ, кропотливая ручная обработка и аннотация датасета, а также комплексная автоматическая предобработка текстов с учетом морфологических особенностей русского языка. Применение предложенной адаптированной трансформерной архитектуры в сочетании с методами эффективной настройки (LoRA, квантизация) позволило создать модель, демонстрирующую высокие результаты по критериям полноты, согласованности и ясности генерируемой документации.

В ходе работы была разработана и экспериментально исследована нейросетевая модель для автоматической структуризации и формализации технического задания в сфере ИТ, представленного в виде слабоструктурированного русскоязычного текста. В рамках исследования была сформирована эталонная структура технического задания, создан и размечен специализированный корпус данных, а также реализован процесс адаптации трансформерной архитектуры с использованием методов эффективной настройки. Модель может служить основой для совершенствования систем автоматизированного документооборота, позволяя аналитикам и разработчикам сокращать затраты на предпроектную подготовку.

Для дальнейшего развития исследования представляется целесообразным расширение обучающего корпуса с учетом отраслевой специфики ТЗ, повышение объяснимости работы модели и разработка комплексной системы автоматической валидации результатов на основе формальных метрик и гибридных методов оценки качества.

×

About the authors

Natalia M. Yaparova

South Ural State University

Author for correspondence.
Email: natyap7@mail.ru

Doctor of Engineering Science, Associate Professor

Russian Federation, Chelyabinsk

Ruslan A. Nizamov

South Ural State University

Email: rus.nizamov.04@mail.ru

Software engineer, LLC "TRIDIVI"

Russian Federation, Chelyabinsk

References

  1. ГОСТ Р 56922-2016 / ISO/IEC/IEEE. Системная и программная инженерия. Тестирование программного обеспечения. Часть 3. Документация тестирования : национальный стандарт Российской Федерации утвержден и введен в действие Приказом Федерального агентства по техническому регулированию и метрологии от 18 мая 2016 г. № 333-ст. – Москва : Стандартинформ, 2016. – 113 с.
  2. Language Models are Few-Shot Learners / T. B. Brown, B. Mann, N. Ryder [et al.] // Advances in Neural Information Processing Systems. – Vancouver, 2020. – P. 1–25.
  3. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / J. Devlin, M.-W. Chang, K. Lee, K. Toutanova // NAACL-HLT. 2019. P. 1–16.
  4. Goldberg, Y. Neural Network Methods for Natural Language Processing // Synthesis Lectures on Human Language Technologies. – 2017. – Vol. 10, № 1. – P. 1–311.
  5. LoRA: Low-Rank Adaptation of Large Language Models / E. J. Hu, Y. Shen, P. Wallis [et al.] // International Conference on Learning Representations (ICLR). – 2022. – P. 1–26.
  6. IEEE Standard for System, Software, and Hardware Verification and Validation. IEEE Std 1012-2016 // ANSI Webstore. – URL: https://webstore.ansi.org/standards/ieee/ieee10122016 (date of application: 17.02.2026).
  7. Jurafsky, D. Speech and Language Processing / D. Jurafsky, J. H. Martin. – 3rd ed. draft. – New York : Pearson Education, 2023. – 636 p.
  8. Loper, E. NLTK: The Natural Language Toolkit / E. Loper, S. Bird // Proceedings of the ACL-02 Workshop on Effective tools and methodologies for teaching natural language processing and computational linguistics. – Stroudsburg, 2002. – P. 1–8.
  9. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean // International Conference on Learning Representations (ICLR) Workshop. Scottsdale, 2013. – P. 1–12.
  10. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer / C. Raffel, N. Shazeer, A. Roberts [et al.] // Journal of Machine Learning Research. – 2020. – Vol. 21. – P. 1–67.
  11. Attention Is All You Need / A. Vaswani, N. Shazeer, N. Parmar [et al.] // Advances in Neural Information Processing Systems. Long Beach, CA, 2017. – P. 1–15.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Figure 1. Analytical structure of the technical specifications adopted as a standard

Download (134KB)
3. Figure 2. A sample pair from the dataset: the original unformalized text and the reference structured version

Download (623KB)
4. Figure 3. Architecture of a neural network based on a transformer, adapted for the task of formalizing the technical specifications

Download (249KB)
5. Figure 4. Example of the model’s operation: the original text of the technical specifications (left) and the result of automatic formalization (right)

Download (306KB)

Copyright (c) 2026 Yugra State University

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.