диплом

1.

Тема: Разработка и исследование методов синтеза данных на основе генеративных моделей
для повышения эффективности обнаружения мошеннических транзакций
Студент: Нечаев Д.К.
Науч. Рук.: Гасратова Н. А.

2. Введение

Технологии искусственного интеллекта и машинного обучения давно стали стандартом в построении систем
отслеживания мошеннических операций (Anti-Fraud). Однако разработка эффективных моделей сталкивается с
фундаментальной проблемой — проблемой критического дисбаланса классов. В реальных данных количество
легитимных транзакций (нормальный класс) на несколько порядков превышает количество мошеннических операций
(аномальный класс). Как правило, доля фрода составляет от 0,01% до 0,1% от общего потока транзакций. Обучение
классических алгоритмов на таких данных приводит к тому, что модель «выучивает» предсказывать все операции как
легитимные, достигая высокой кажущейся точности (accuracy), но полностью игнорируя редкие, но критически
важные случаи мошенничества.

3. Цели и задачи

Цели и задачи данного исследования:
1. Провести анализ предметной области и выявить специфику проблемы дисбаланса классов в задачах фродмониторинга, классифицировать существующие подходы к ее решению.
2. Исследовать классические методы дополнения данных и проанализировать их ограничения при работе с
многомерными финансовыми данными.
3. Разработать архитектуру генеративной модели, адаптированную для финансовых транзакций, учитывающую
смешанные типы признаков (числовые и категориальные).
4. Провести обучение и валидацию разработанной генеративной модели с использованием открытых наборов данных
или обезличенных данных, имитирующих реальный транзакционный трафик.
5. Сравнить эффективность классификаторов, обученных на исходных данных, данных, дополненных SMOTE, и
данных, дополненных синтетикой от GAN.
6. Произвести оценку качества синтезированных данных с точки зрения их реалистичности, разнообразия и
полезности для решения задачи классификации.

4. Теоретическая часть

English Русский Правила