Применение машинного обучения для распознавания плагиоклазов в шлифе

Обложка

Цитировать

Полный текст

Аннотация

В данной работе изучены модели серии YOLOv8 для распознавания плагиоклазов в шлифе.

Предмет исследования: применение алгоритмов для распознавания минералов (в данном случае – плагиоклазов) под микроскопом.

Цель исследования: выявление наилучшей модели для идентификации минералов и подбор баз данных для оптимальной работы модели.

Методы исследования: вычисление и сравнение метрик производительности, анализ с помощью нейросетевых моделей размеченных снимков горных пород, сделанных на поляризационном микроскопе при включенном анализаторе и содержащих плагиоклазы.

Объект исследования: алгоритмы для распознавания образов.

Основные результаты исследования: были получены данные об эффективности различных моделей, вычислены метрики Precision, Recall, mAP50 и mAP50-95. Выявлено, что наилучшие результаты распознавания минералов показала модель YOLOv8n, точность обнаружения объектов составила 0,808. Также было проведено обучение моделей серии YOLOv8 на сверхмалом объеме данных (20 изображений), получены метрики и протестирована их работа при таких условиях.

Полный текст

ВВЕДЕНИЕ

Распознавание минералов, в частности плагиоклазов в шлифах, – это важная задача в литолого-петрографических исследованиях, которая может быть значительно упрощена с использованием методов искусственного интеллекта (далее – ИИ). Плагиоклазы представляют собой группу минералов, которые широко распространены в природе и присутствуют практически во всех горных породах: магматических, метаморфических и осадочных. Их точное определение и классификация играют ключевую роль в геологических исследованиях, так как они могут многое рассказать о процессе формирования пород, условиях кристаллизации расплавов и даже о геохимической эволюции магматических систем.

Традиционный метод определения минералов в шлифах – это скрупулезный анализ тонких срезов пород под микроскопом, что требует высокой квалификации специалиста и значительных временных затрат. За смену работы опытный петрограф может описать 4–5 шлифов, тогда как потребности одних только нефтяных компаний в описании шлифов исчисляются тысячами. Таким образом, применение технологий машинного обучения открывает широкие перспективы для автоматизации этого процесса.

Различные автоматизированные программные продукты, позволяющие анализировать изображения шлифов, проводить измерения и определять количественные характеристики элементов изображений, например, устанавливать размеры и форму зерен, объем пустотного пространства и т. д. (такие как ПО Керн С7), применяются уже довольно давно – более двух десятков лет. Однако в последнее время все больший интерес вызывает другое направление: на современных базах данных [6, 9] созданы ИИ-модели – определители минералов, но не в шлифах, а в макроскопическом виде [3, 4, 1]. Так, китайские ученые [3] предложили модель SwinMin, достигнув точности распознавания для различных минералов по фото от 69,41 % для плагиоклазов до 99,18 % для амазонита. Что касается моделей, идентифицирующих минералы и породы под микроскопом, то здесь также достигнуты значительные успехи. Некоторые исследователи [2, 7, 8] для распознавания изображений шлифов использовали модели на основе глубоких сверточных нейронных сетей (DCNN), например, DeepLabv3+ [7], ResNet50, YOLOv5 и др., добавляя различные модули, обеспечивающие масштабируемость машинного зрения, такие как ViT, CIM, IMSIS [2] и т. п. В результате применение модели DeepLabv3+ [7] при распознавании шести типов минералов и фона позволило получить среднюю точность по пикселям 97,56 %, а модели YOLOv5 [8] для определения 50 типов минералов по набору данных из 220 057 изображений – точность 95,6 %. Однако распознавание минералов остается трудной задачей. Это связано, с одной стороны, с изменчивостью природных образований, разнообразием форм, текстур и цветов для каждого класса, с другой – с низкой разницей признаков между отдельными классами. Требуется еще большое количество экспериментов в данной области, изучение различных моделей и модулей, которые бы позволили наиболее эффективно работать с изображениями шлифов.

Кроме того, в целом в машинном зрении 70 % успеха работы модели обеспечивает набор данных, на которых проводится обучение, – чем больше изображений в выборке и чем они характернее, тем лучше результаты обнаружения объектов. Поэтому для распознавания минералов особенно важно подобрать датасет, базу изображений. Проблема в том, что речь идет о сотнях и тысячах фото, которые не всегда можно получить в таком объеме для минералов и пород. В этом случае отдельным направлением исследований является подбор и создание оптимальных баз данных и адаптация их под модель.

Учитывая современное состояние вопроса, в данной работе поставлены следующие задачи.

  1. Собрать достаточную обучающую выборку изображений шлифов, на которых присутствуют и четко видны плагиоклазы разной формы и размеров.
  2. Подобрать метод обработки изображений и нейронную сеть, которая будет способна эффективно выявлять плагиоклазы на фоне других минералов и основной массы. Важно выбрать архитектуру сети, которая оптимально подходит для этого типа данных. Например, модели YOLO [5] показали высокую эффективность в задачах компьютерного зрения и могут успешно применяться для анализа геологических изображений.
  3. Протестировать модель после обучения на независимом наборе данных, оценить ее точность и способность к обобщению, оценить устойчивость модели к различным условиям съемки и качеству изображений.

Преимущества внедрения ИИ в процесс распознавания минералов очевидны. К числу таких преимуществ относятся автоматизация рутинных задач и повышение точности исследований. Кроме того, алгоритмы могут работать с гораздо большими объемами данных, чем это возможно вручную, что приводит к более полному пониманию распределения минералов в исследуемых образцах. Таким образом, распознавание плагиоклазов в шлифах с помощью технологий ИИ представляет собой многообещающую область для исследований.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Для обучения модели по распознаванию минералов в шлифе плагиоклазы являются наиболее подходящим вариантом. В целом любые минералы в шлифе имеют довольно четкие границы и ряд признаков, по которым их можно выделить: цвет, спайность, форма. Однако при этом плагиоклазы все еще широко распространены и являются главными породообразующими, т. е. в ряде пород встречаются в большом объеме, а также образуют характерные двойники, сразу позволяющие отличить их.

Чаще всего двойники бывают полисинтетические, в этом случае в шлифе в скрещенных николях плагиоклазы выглядят полосатыми, цвет полосок варьируется от темного (черного) до белого. Также могут встречаться простые двойники, тогда полосок всего две: светлая и темная. В любом шлифе, помимо срезов с полосами, часть зерен также будет однородная – серого, белого или темного цвета, но можно понять, что это тоже плагиоклазы, т. к. рядом присутствуют зерна с двойниками. Размер зерен плагиоклазов может варьироваться в широких пределах: в вулканических породах можно встретить лейсты – мельчайшие иголочки плагиоклазов, а в интрузивных (глубинных) магматических породах, таких как граниты и анортозиты, нередко вырастают крупные и даже гигантские кристаллы. Изредка в вулканических породах попадаются так называемые зональные плагиоклазы, у которых нет характерных полос, зато в кристалле чередуются светлые и темные зоны. В данной работе для обучения были отобраны все виды плагиоклазов из различных типов пород и в различном окружении: в массе и единичные зерна, только плагиоклазы и в сочетании с другими похожими по внешнему виду минералами, такими как кварц, калиевые полевые шпаты, нефелин. Всего набор составил 318 изображений, на каждом из которых находилось от 1–6 до 92 экземпляров плагиоклазов. Пример изображения, использованного для обучения моделей, представлен на рисунке 1.

 

Рисунок 1. Пример разметки изображения, выделение объектов на платформе Roboflow

 

Фото шлифов брались стандартные, которые получаются при использовании камеры-насадки на микроскоп (прямоугольные) либо при фотографировании через окуляр (круглые), впоследствии программа приводила их к одному размеру. Часть изображений не была обработана, часть была аугментирована – фото были повернуты на произвольный угол, зеркально отражены и т. д.

Для распознавания использовалась серия моделей YOLOv8, показавшая наиболее достойные на данный момент результаты в области обнаружения общих объектов. Точнее, использовались модели YOLOv8n и YOLOv8s. Первая – самая «легкая» в серии, вторая – более «тяжелая», требующая больших мощностей и времени. Эффективной могла оказаться и та, и другая модель, в зависимости от того, насколько сложным объектом являются плагиоклазы для нейросетей, т. к. обычно более «простые» модели лучше работают с простыми объектами, а «сложные» – со сложными.

Эксперименты проводились с обучением моделей на разном количестве эпох и с разной скоростью. Наилучшие параметры были достигнуты при 50 и 100 эпохах (скорость по умолчанию 0,01). Далее при увеличении числа эпох до 150, 200 и т. д. показатели незначительно, но снижались. Так как объем данных был не очень большой для того, чтобы не происходило переобучения модели, скорость уменьшали до 0,001. Метрики моделей представлены в таблице 1.

 

Таблица 1. Метрики моделей при обучении на наборе из 318 изображений

Метрики Box

Модель YOLOv8n (100 эпох, 0,01 скорость)

Модель YOLOv8n (200 эпох, 0,01 скорость)

Модель YOLOv8n (100 эпох, 0,001 скорость)

Модель YOLOv8s (100 эпох, 0,01 скорость)

Модель YOLOv8s (200 эпох, 0,01 скорость)

Precision

0,808

0,793

0,786

0,788

0,77

Recall

0,808

0,796

0,784

0,75

0,767

mAP50

0,847

0,831

0,803

0,814

0,806

mAP50-95

0,568

0,566

0,534

0,533

0,52

 

Как видно из таблицы 1, лучшие результаты показала более «простая» модель YOLOv8n, обученная в течение 100 эпох при стандартной скорости 0,01.

Формально показатели производительности Precision, Recall и mAP50 у обеих моделей – и YOLOv8n, и YOLOv8s – попадают в категорию «отлично», т. е. по точности положительных прогнозов (Precision), способности идентифицировать все экземпляры объектов на изображениях (Recall) и точности «легких» обнаружений (mAP50) обе модели обучились хорошо. Четвертый параметр, который дает комплексную оценку эффективности модели на разных уровнях сложности обнаружения (mAP50-95), получился «приемлемым», но оставил желать лучшего.

Далее в рамках эксперимента со «сложными» обнаружениями было отобрано 20 изображений, на каждом из которых было отмечено до 100 и более экземпляров плагиоклазов, но в выборку входили как характерные, типичного вида зерна, так и мелкие, неправильной формы и однотонной окраски образцы, т. е. их принадлежность к плагиоклазам могла быть определена, например, человеком только из контекста породы, а не достоверно по прямым признакам. И на этом наборе из 20 изображений, содержащих в сумме более 2200 экземпляров класса, также было проведено обучение моделей на различном количестве эпох и с разной скоростью. Наилучшие полученные результаты (для 150 эпох и скорости 0,01) представлены в таблице 2.

 

Таблица 2. Метрики моделей при обучении на наборе из 20 изображений

Метрики Box

Модель YOLOv8n (150 эпох, 0,01 скорость)

Модель YOLOv8s (150 эпох, 0,01 скорость)

Precision

0,659

0,562

Recall

0,608

0,482

mAP50

0,608

0,508

mAP50-95

0,324

0,241

 

Поскольку для обучения моделей по правилам требуются сотни, а лучше тысячи изображений, 20 фото не являются достаточными для корректной работы модели, поэтому, как можно видеть из таблицы 2, метрики Precision, Recall и mAP50 получились всего лишь «приемлемыми», а параметр mAP50-95 – «неприемлемым».

Однако если протестировать работу модели YOLOv8n, обученной на наборах из 318 изображений и на наборах из 20 изображений, то результаты тестов оказываются в диссонансе с метриками (см. рисунок 2).

 

Рисунок 2. Результаты обнаружения объектов на тестовых изображениях: а) модель YOLOv8n, обученная на наборе из 318 изображений; б) та же модель, обученная на наборе из 20 изображений

 

По результатам тестирования можно видеть, что даже сверхмалое количество изображений в выборке, но с разнообразными сложными экземплярами позволяет YOLOv8n достаточно корректно выделять объекты класса. На фото шлифа на рисунке 2б модель обнаружила 83 объекта, из них 28 определила с вероятностью > 0,75. Все объекты действительно относились к плагиоклазам.

Модель же, обученная пусть и на гораздо большем наборе изображений, но с выделенными только типичными, достаточно крупными зернами плагиоклазов, показала худшие результаты и обнаружила на идентичном фото лишь 23 объекта, из них 9 идентифицировала с вероятностью > 0,75 (рисунок 2а). Ошибок в определении модель также не совершила, но в целом выделила в три раза меньше объектов.

ЗАКЛЮЧЕНИЕ И ВЫВОДЫ

В результате работы было выявлено, что наилучшие результаты при обнаружении плагиоклазов в шлифах показывает модель YOLOv8n. При обучении в течение 100 эпох со скоростью 0,01 моделью была достигнута точность обнаружения 0,808. Кроме того, было установлено, что при идентификации именно минералов следует обращать повышенное внимание, помимо метрик, также и на тесты. При оптимальном подборе данных для обучения (даже если количество изображений небольшое) модель может весьма эффективно обнаруживать плагиоклазы на тестовых изображениях.

×

Об авторах

Марина Яковлевна Кузина

Югорский государственный университет

Автор, ответственный за переписку.
Email: m_kuzina@ugrasu.ru

старший преподаватель Высшей нефтяной школы

Россия, Ханты-Мансийск

Список литературы

  1. Cui, X. Intelligent Mineral Identification and Classification based on Vision Transformer / X. Cui, C. Peng, H. Yang // 2022 9th International Conference on Dependable Systems and Their Applications (DSA). – Wulumuqi, China : IEEE, 2022. – P. 670–676. – URL: https://ieeexplore.ieee.org/document/9914522 (date of application: 21.03.2025).
  2. Izadi, H. An intelligent system for mineral identification in thin sections based on a cascade approach / H. Izadi, J. Sadri, M. Bayati // Computers & Geosciences. – 2017. – Vol. 99. – P. 37–49. – URL: https://linkinghub.elsevier.com/retrieve/pii/S0098300416305702 (date of application: 12.03.2025).
  3. SwinMin: A mineral recognition model incorporating convolution and multi-scale contexts into swin transformer / L. Jia, F. Chen, M. Yang [et al.] // Computers & Geosciences. – 2024. – Vol. 184. – P. 105532. – URL: https://linkinghub.elsevier.com/retrieve/pii/S0098300424000153 (date of application: 28.02.2025).
  4. Maitre, J. Mineral grains recognition using computer vision and machine learning / J. Maitre, K. Bouchard, L. P. Bédard // Computers & Geosciences. – 2019. – Vol. 130. – P. 84–93. – URL: https://linkinghub.elsevier.com/retrieve/pii/S0098300419301037 (date of application: 25.03.2025).
  5. Модели, поддерживаемые Ultralytics // Ultralytics. – URL: https://docs.ultralytics.com/models/ (дата обращения: 15.01.2025).
  6. MineralImage5k: A benchmark for zero-shot raw mineral visual recognition and description / S. Nesteruk, J. Agafonova, I. Pavlov [et al.] // Computers & Geosciences. – 2023. – Vol. 178. – P. 105414. – URL: https://linkinghub.elsevier.com/retrieve/pii/S0098300423001188 (date of application: 31.01.2025).
  7. An Improved Mineral Image Recognition Method Based on Deep Learning / H. Tang, H. Wang, L. Wang [et al.] // JOM. – 2023. – Vol. 75, № 7. – P. 2590–2602. – URL: https://link.springer.com/10.1007/s11837-023-05792-9 (date of application: 15.02.2025).
  8. Санникова, Ю. И. Выбор модели машинного обучения для задачи идентификации минералов с необработанных снимков : выпускная квалификационная работа / Ю. И. Санникова ; научный руководитель В. Н. Тимохин. – Екатеринбург, 2024. – 63 с. – URL: https://elar.urfu.ru/bitstream/10995/140538/1/m_th_y.i.sannikova_2024.pdf?ysclid=m8xybttk20452262754 (дата обращения: 10.02.2025).
  9. Автоматическая идентификация минералов на изображениях аншлифов с использованием глубокого обучения / А. В. Хвостиков, А. С. Крылов, Д. М. Коршунов, М. А. Богуславский // Интеллектуальные системы. Теория и приложения. – 2022. – Т. 26 (1). – С. 255–260.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рисунок 1. Пример разметки изображения, выделение объектов на платформе Roboflow

Скачать (220KB)
3. Рисунок 2. Результаты обнаружения объектов на тестовых изображениях: а) модель YOLOv8n, обученная на наборе из 318 изображений; б) та же модель, обученная на наборе из 20 изображений

Скачать (378KB)

© Югорский государственный университет, 2025

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-ShareAlike 4.0 International License.