1.80M

Категория:

Электроника

Похожие презентации:

Телевизоры LG OLED

Основные компьютерные термины и понятия

Видеоконтроллеры

Параллельные вычислительные системы

Архитектура компьютеров и их основные характеристики

Счетчики электроэнергии Милур 107 и 307, новая линейка с расширенным функционалом

Таблица характеристик модельного ряда телевизоров LG 2017 года

Параллельные вычислительные системы. Введение

Параллельные вычисления. Лекция 1

Вычислительная техника и сети в отрасли

Parameter Efficient Fine-Tuning

1.

2.

Желаемые свойства:
• Результаты, близкие к полноценному FT
• Изменяется малая часть параметров модели
• Набор изменяемых параметров согласован для различных задач

3.

Adapter
Всего 2(2md+m+d)+2d = 4md + 2m + 4d параметров.

4.

Инициализация параметров
Цель:
- новая модель при инициализации работает, как исходная.
Предлагается инициализировать N(0,10-4).

5.

Результаты

6.

AdapterDrop
• Сокращаем число слоёв adapter
• Уменьшаем время и число параметров

7.

Compacter
• Полносвязный слой:
• PHM (parameterized hypercomplex multiplication layer):
• LPHM (low-rank PHM):

8.

Заменяем полносвязный слой на LPHM, матрицы A общие.
Для Adapter число параметров O(kd), для Compacter O(k + d).

9.

Битва адаптеров
Bitfit – меняем только biases.
PHM-Adapter – заменяем
полносвязный слой на PHM.
Compacter++ - оставляем в
каждом блоке один слой
адаптера.

10.

Prefix-tuning

11.

Случай классического FT
Обозначим
Активацией на шагу
назовём
, где
это выход j-го блока трансформера на шагу i. Вычисляется она в
авторегрессионной модели, как
. Тогда задача
классического FT

12.

13.

В случае Prefix-tuning:
На практике прямая оптимизация матрицы
работает плохо,
потому её репараметризуют более маленькой матрицой

14.

Результаты

15.

Проблемы предыдущих методов
• Adapter: замедление в режиме инференса.
• Prefix-tuning: уменьшение максимальной
длины входной последовательности.
• Предлагаемое решение: LoRA.

16.

LoRA(Low Rank Adaptation)
Общая задача параметризации:
Реализация в LoRA:
Матрицы A и B малоранговы, что заметно уменьшает число параметров.
Обновляем таким способом веса слоёв attention.

17.

Adapter vs LoRA

18.

Adapter vs Prefix-tuning vs LoRA

English Русский Правила