Разработка системы классификации изображений посредством нейросети

Объект исследования и предмет исследования

Архитектура системы классификации изображений

744.30K

Категория:

Информатика

Похожие презентации:

Разработка прогнозной модели качества приборов на основе нейросетевой модели

Интеллектуальные информационные системы и технологии

Классификация информационных технологий

Разработка программы научного исследования

Mask R-CNN: извлечение данных из паспортов

Научная проблема. Разработка теоретических подходов к вопросам мониторинга

Компиляторы для квантовых компьютеров

Информационная система классификации входящих документов на основе методов машинного обучения

Разработка экспериментальной платформы на основе виртуального окружения для изучения социального поведения акторов

Технические и программные средства обеспечения информационных технологий

Разработка системы классификации изображений посредством нейросети

1. Разработка системы классификации изображений посредством нейросети

Автор: Сябитов Ильдар Раисович
Научный руководитель: Фомин В.В, д.т.н, профессор
2025

2. Актуальность

С 2020 г. объём публикуемых изображений ежегодно увеличивается, что исключает
возможность
ручной
сортировки,
поэтому
необходимы
интерпретируемые
и
ресурсоэффективные алгоритмы
Рис 1. Ежегодное количество публикуемых изображений
2

3. Цель работы и задачи

Цель
работы
—
спроектировать,
реализовать
и
экспериментально
обосновать
промышленно готовую систему автоматической классификации изображений
Задачи:
• Проанализировать существующие подходы к классификации изображений, выделить их
достоинства и ограничения для edge-сценариев
• Разработать гибридную архитектуру, сочетающую backbone с низкоранговыми LoRAадаптерами
• Провести экспериментальную оценку предложенного решения на репрезентативных
выборках: измерить точность, робастность и производительность, сравнить с базовыми
моделями
3

4. Объект исследования и предмет исследования

Объект исследования — массовые коллекции цифровых изображений различного
предметно-областного происхождения.
Предмет исследования — методы построения параметрически-эффективных сверточных
сетей, техники адаптивного дообучения и программные средства их интеграции в
микросервисную инфраструктуру сервинга.
4

5. Анализ предметной области

• Современные методы классификации изображений опираются
признаки, машинное обучение и глубокие сверточные сети.
на
традиционные
• Приоритет отдается эффективным архитектурам (например, ResNet, EfficientNet) и
гибридным решениям (CNN + трансформеры), сочетающим высокую точность с
оптимальным использованием ресурсов.
• Основные сложности: недостаток качественно размеченных данных, необходимость
быстрой адаптации к новым областям и обеспечение прозрачности решений (например,
через визуализацию Grad-CAM).
5

6. Особенности обработки изображений

• Высокая размерность и коррелированность пикселей
• Вариативность съёмки (освещение, угол, шум)
• Окклюзии, неоднородный фон и fine-grained различия
• Требования к инвариантным и локализующим признакам
6

7. Инструментальная среда и технологии

• Среда разработки – Python 3.10 · PyTorch 2.2 · Albumentations · TorchVision
• Модель – EfficientNet-B3 + LoRA (r = 8)
• Инференс – TorchScript → ONNX Runtime → TensorRT
• Трекинг экспериментов – MLflow · DVC · W&B
7

8. Архитектура системы классификации изображений

• L0 – хранение и версионирование данных
• L1 – подготовка: аугментации, балансировка,
формирование батчей (Albumentations)
• L2 – обучение и переобучение (PyTorch, W&B)
• L3 – онлайн-инференс и объяснения (FastAPI,
TorchScript Engine)
• L4 – мониторинг и логирование (Prometheus,
Grafana, Evidently)
• L5 – CI/CD, политика доступа (GitHub Actions,
Helm, Vault)
Рис 1. Архитектура системы классификации изображений
8

9. Алгоритм объяснения решений

Для каждого входного изображения формируется
тепловая карта важности, которая накладывается на
исходное изображение.
Рис 2. Алгоритм объяснения решений
9

10. Экспериментальные датасеты

Таблица 1. Характеристики экспериментальных датасетов
Датасет
Классы
Train / Val / Test
Разрешение
Особенности
ImageNet-subset-10
10
7000 / 1500 / 1500
224x224
Эталон
разнообразия сцен
CIFAR-10-224
10
35000 / 7500 / 7500
224x224
Мелкие детали,
апскейл
Own-industrial-8
8
9600 / 2400 / 1200
224x224
Реальные фото
оборудования
MedMNIST-Derma
7
7168 / 1792 / 1792
28 224
Диагностика, finegrained различия
10

11. Конфигурации и обучение моделей

Экспериментальные варианты:
• B0: EfficientNet-B3, 75% слоёв заморожены
• B0-LoRA: EfficientNet-B3 с LoRA-адаптерами (быстрое дообучение, ~10% обучаемых
параметров)
• H1: DropConnect + LayerNorm в head
• H1-FT: H1, полный fine-tune (100% обучаемых параметров)
Технологии:
• PyTorch 2.2, Albumentations, DVC, MLflow, CUDA
• Аугментации: RandomRotate, Flip, CutMix, MixUp
• Аппаратная база: RTX 3060 (12GB), Intel i7-9700K
11

12. Основные результаты классификации

Таблица 2. Ключевые метрики классификации моделей
Модель
Top-1, %
Macro-F1
ECE
Latency, мс
Throughput,
img/s
B0
83.9
0.839
0.065
45.1
230
B0-LoRA
83.1
0.833
0.062
44.0
238
H1
85.5
0.858
0.052
49.4
215
H1-FT
86.3
0.867
0.050
52.0
209
• Все модели выполняют требования по точности (Top-1 ≥ 80%) и времени отклика (≤50мс)
• LoRA-адаптеры позволяют обучать только 10% параметров при сохранении качества
• DropConnect+LayerNorm (H1) обеспечивают лучший баланс качество/скорость
12

13. Диагностика по классам и робастность

Таблица 3. Показатели точности и устойчивости модели к искажениям
Класс
Precision
Recall
F1
Комментарий
Crack
0.92
0.85
0.88
Сложности на
неоднородном
фоне
Corrosion
0.81
0.79
0.80
Частая путаница
со Stratch
Dent
0.93
0.90
0.92
Хорошая
локализация
Oil Stain
0.80
0.78
0.79
Слияние темных
пятен с фоном
• Падение точности Top-1 на шуме (σ=0.05), блюре, JPEG-80% — не превышает 5–8 п.п.
• Все модели выдерживают стресс-критерии по надёжности
13

14. Робастность и стресс тестирование

Таблица 4. Робастность и стресс тестирование
Модель
△Top-1 (шум)
△Top-1 (блюр)
△Top-1 (JPEG)
△Top-1 (FGSM)
B0
-3.4%
-4.8%
-3.1%
-7.2%
B0-LoRA
-3.7%
-5.1%
-3.3%
-7.5%
H1
-2.9%
-4.2%
-2.8%
-6.8%
H1-FT
-2.6%
-4.0%
-2.5%
-6.3%
• Все модели выдерживают стресс-критерии (просадка точности не превышает
допущенные 5–8 процентных пунктов).
• Система надёжна для эксплуатации в условиях реальных искажений и шумов.
14

15. Результаты

• Проведен технический анализ современных подходов классификации изображений,
выявлены их достоинства и недостатки для различных сценариев
• Разработана гибридная архитектура, соответствующая необходимым требованиям
• Экспериментальные результаты показывают, что система достигает необходимой
точности и устойчива к различным искажениям
15

English Русский Правила