938.84K

GPU (1)

1.

Подготовка инфраструктуры
для работы моделей
машинного обучения с
аппаратным ускорением
(GPU)
Опекунова Анна
Отдел технической экспертизы систем BPM
Управление технической экспертизы процессов кредитования и CRM

2.

Зачем нужны GPU
Примеры использования:
• Модели машинного обучения, чат-боты
• Работа с медиаданными, GPT
• Парсинг и поиск вхождений в pdf-документах
Главное преимущество GPU - БЫСТРОДЕЙСТВИЕ

3.

Роль сопровождения и какие задачи
перед нами ставят
• Доступность GPU в контейнере
• Освоение инструментов k8s для управления GPU
• Шеринг GPU между конкурентными процессами и пользователями
• Мониторинг

4.

K8S cluster with GPU
Установка
утилит tar make gcc gcc-toolset-11-gcc kernel-uek-devel
container toolkit
обязательное переключение версии компилятора
драйвера CUDA
Настройка containerd и проверка conf.toml
nvidia-ctk runtime configure --runtime=containerd
Проверка доступности видеокарты из контейнера

5.

Multi-instance GPU (MIG)
Преимущества слайсинга
+ изоляция на уровне железа
+ нет проблем с OOM
+ простая настройка
Минусы
- работает на ограниченном количестве видеокарт
- видеокарту можно разделить максимум на семь партиций

6.

MIG
Для конфигурирования MIG GPU-оператор использует
mig-manager
nvidia-device-plugin
Активация «разбивки» карты:
kubectl label node <node name> nvidia.com/mig.config=all-1g.5gb –overwrite

7.

Monitoring
Задачи из практики
Картинки из графаны

8.

Материалы
Ссылка на конфлюинс с инструкциями
English     Русский Правила