Разработка системы классификации изображений посредством нейросети
Актуальность
Цель работы и задачи
Объект исследования и предмет исследования
Анализ предметной области
Особенности обработки изображений
Инструментальная среда и технологии
Архитектура системы классификации изображений
Алгоритм объяснения решений
Экспериментальные датасеты
Конфигурации и обучение моделей
Основные результаты классификации
Диагностика по классам и робастность
Робастность и стресс тестирование
Результаты
744.30K
Категория: ИнформатикаИнформатика

Разработка системы классификации изображений посредством нейросети

1. Разработка системы классификации изображений посредством нейросети

Автор: Сябитов Ильдар Раисович
Научный руководитель: Фомин В.В, д.т.н, профессор
2025

2. Актуальность

С 2020 г. объём публикуемых изображений ежегодно увеличивается, что исключает
возможность
ручной
сортировки,
поэтому
необходимы
интерпретируемые
и
ресурсоэффективные алгоритмы
Рис 1. Ежегодное количество публикуемых изображений
2

3. Цель работы и задачи

Цель
работы

спроектировать,
реализовать
и
экспериментально
обосновать
промышленно готовую систему автоматической классификации изображений
Задачи:
• Проанализировать существующие подходы к классификации изображений, выделить их
достоинства и ограничения для edge-сценариев
• Разработать гибридную архитектуру, сочетающую backbone с низкоранговыми LoRAадаптерами
• Провести экспериментальную оценку предложенного решения на репрезентативных
выборках: измерить точность, робастность и производительность, сравнить с базовыми
моделями
3

4. Объект исследования и предмет исследования

Объект исследования — массовые коллекции цифровых изображений различного
предметно-областного происхождения.
Предмет исследования — методы построения параметрически-эффективных сверточных
сетей, техники адаптивного дообучения и программные средства их интеграции в
микросервисную инфраструктуру сервинга.
4

5. Анализ предметной области

• Современные методы классификации изображений опираются
признаки, машинное обучение и глубокие сверточные сети.
на
традиционные
• Приоритет отдается эффективным архитектурам (например, ResNet, EfficientNet) и
гибридным решениям (CNN + трансформеры), сочетающим высокую точность с
оптимальным использованием ресурсов.
• Основные сложности: недостаток качественно размеченных данных, необходимость
быстрой адаптации к новым областям и обеспечение прозрачности решений (например,
через визуализацию Grad-CAM).
5

6. Особенности обработки изображений

• Высокая размерность и коррелированность пикселей
• Вариативность съёмки (освещение, угол, шум)
• Окклюзии, неоднородный фон и fine-grained различия
• Требования к инвариантным и локализующим признакам
6

7. Инструментальная среда и технологии

• Среда разработки – Python 3.10 · PyTorch 2.2 · Albumentations · TorchVision
• Модель – EfficientNet-B3 + LoRA (r = 8)
• Инференс – TorchScript → ONNX Runtime → TensorRT
• Трекинг экспериментов – MLflow · DVC · W&B
7

8. Архитектура системы классификации изображений

• L0 – хранение и версионирование данных
• L1 – подготовка: аугментации, балансировка,
формирование батчей (Albumentations)
• L2 – обучение и переобучение (PyTorch, W&B)
• L3 – онлайн-инференс и объяснения (FastAPI,
TorchScript Engine)
• L4 – мониторинг и логирование (Prometheus,
Grafana, Evidently)
• L5 – CI/CD, политика доступа (GitHub Actions,
Helm, Vault)
Рис 1. Архитектура системы классификации изображений
8

9. Алгоритм объяснения решений

Для каждого входного изображения формируется
тепловая карта важности, которая накладывается на
исходное изображение.
Рис 2. Алгоритм объяснения решений
9

10. Экспериментальные датасеты

Таблица 1. Характеристики экспериментальных датасетов
Датасет
Классы
Train / Val / Test
Разрешение
Особенности
ImageNet-subset-10
10
7000 / 1500 / 1500
224x224
Эталон
разнообразия сцен
CIFAR-10-224
10
35000 / 7500 / 7500
224x224
Мелкие детали,
апскейл
Own-industrial-8
8
9600 / 2400 / 1200
224x224
Реальные фото
оборудования
MedMNIST-Derma
7
7168 / 1792 / 1792
28 224
Диагностика, finegrained различия
10

11. Конфигурации и обучение моделей

Экспериментальные варианты:
• B0: EfficientNet-B3, 75% слоёв заморожены
• B0-LoRA: EfficientNet-B3 с LoRA-адаптерами (быстрое дообучение, ~10% обучаемых
параметров)
• H1: DropConnect + LayerNorm в head
• H1-FT: H1, полный fine-tune (100% обучаемых параметров)
Технологии:
• PyTorch 2.2, Albumentations, DVC, MLflow, CUDA
• Аугментации: RandomRotate, Flip, CutMix, MixUp
• Аппаратная база: RTX 3060 (12GB), Intel i7-9700K
11

12. Основные результаты классификации

Таблица 2. Ключевые метрики классификации моделей
Модель
Top-1, %
Macro-F1
ECE
Latency, мс
Throughput,
img/s
B0
83.9
0.839
0.065
45.1
230
B0-LoRA
83.1
0.833
0.062
44.0
238
H1
85.5
0.858
0.052
49.4
215
H1-FT
86.3
0.867
0.050
52.0
209
• Все модели выполняют требования по точности (Top-1 ≥ 80%) и времени отклика (≤50мс)
• LoRA-адаптеры позволяют обучать только 10% параметров при сохранении качества
• DropConnect+LayerNorm (H1) обеспечивают лучший баланс качество/скорость
12

13. Диагностика по классам и робастность

Таблица 3. Показатели точности и устойчивости модели к искажениям
Класс
Precision
Recall
F1
Комментарий
Crack
0.92
0.85
0.88
Сложности на
неоднородном
фоне
Corrosion
0.81
0.79
0.80
Частая путаница
со Stratch
Dent
0.93
0.90
0.92
Хорошая
локализация
Oil Stain
0.80
0.78
0.79
Слияние темных
пятен с фоном
• Падение точности Top-1 на шуме (σ=0.05), блюре, JPEG-80% — не превышает 5–8 п.п.
• Все модели выдерживают стресс-критерии по надёжности
13

14. Робастность и стресс тестирование

Таблица 4. Робастность и стресс тестирование
Модель
△Top-1 (шум)
△Top-1 (блюр)
△Top-1 (JPEG)
△Top-1 (FGSM)
B0
-3.4%
-4.8%
-3.1%
-7.2%
B0-LoRA
-3.7%
-5.1%
-3.3%
-7.5%
H1
-2.9%
-4.2%
-2.8%
-6.8%
H1-FT
-2.6%
-4.0%
-2.5%
-6.3%
• Все модели выдерживают стресс-критерии (просадка точности не превышает
допущенные 5–8 процентных пунктов).
• Система надёжна для эксплуатации в условиях реальных искажений и шумов.
14

15. Результаты

• Проведен технический анализ современных подходов классификации изображений,
выявлены их достоинства и недостатки для различных сценариев
• Разработана гибридная архитектура, соответствующая необходимым требованиям
• Экспериментальные результаты показывают, что система достигает необходимой
точности и устойчива к различным искажениям
15
English     Русский Правила