1.80M
Категория: ЭлектроникаЭлектроника

Parameter Efficient Fine-Tuning

1.

Parameter Efficient Fine-Tuning

2.

Желаемые свойства:
• Результаты, близкие к полноценному FT
• Изменяется малая часть параметров модели
• Набор изменяемых параметров согласован для различных задач

3.

Adapter
Всего 2(2md+m+d)+2d = 4md + 2m + 4d параметров.

4.

Инициализация параметров
Цель:
- новая модель при инициализации работает, как исходная.
Предлагается инициализировать N(0,10-4).

5.

Результаты

6.

AdapterDrop
• Сокращаем число слоёв adapter
• Уменьшаем время и число параметров

7.

Compacter
• Полносвязный слой:
• PHM (parameterized hypercomplex multiplication layer):
• LPHM (low-rank PHM):

8.

Заменяем полносвязный слой на LPHM, матрицы A общие.
Для Adapter число параметров O(kd), для Compacter O(k + d).

9.

Битва адаптеров
Bitfit – меняем только biases.
PHM-Adapter – заменяем
полносвязный слой на PHM.
Compacter++ - оставляем в
каждом блоке один слой
адаптера.

10.

Prefix-tuning

11.

Случай классического FT
Обозначим
Активацией на шагу
назовём
, где
это выход j-го блока трансформера на шагу i. Вычисляется она в
авторегрессионной модели, как
. Тогда задача
классического FT

12.

13.

В случае Prefix-tuning:
На практике прямая оптимизация матрицы
работает плохо,
потому её репараметризуют более маленькой матрицой

14.

Результаты

15.

Проблемы предыдущих методов
• Adapter: замедление в режиме инференса.
• Prefix-tuning: уменьшение максимальной
длины входной последовательности.
• Предлагаемое решение: LoRA.

16.

LoRA(Low Rank Adaptation)
Общая задача параметризации:
Реализация в LoRA:
Матрицы A и B малоранговы, что заметно уменьшает число параметров.
Обновляем таким способом веса слоёв attention.

17.

Adapter vs LoRA

18.

Adapter vs Prefix-tuning vs LoRA
English     Русский Правила