Введение
Цели и задачи
Теоретическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Практическая часть
Заключение
4.59M

диплом

1.

Тема: Разработка и исследование методов синтеза данных на основе генеративных моделей
для повышения эффективности обнаружения мошеннических транзакций
Студент: Нечаев Д.К.
Науч. Рук.: Гасратова Н. А.

2. Введение

Технологии искусственного интеллекта и машинного обучения давно стали стандартом в построении систем
отслеживания мошеннических операций (Anti-Fraud). Однако разработка эффективных моделей сталкивается с
фундаментальной проблемой — проблемой критического дисбаланса классов. В реальных данных количество
легитимных транзакций (нормальный класс) на несколько порядков превышает количество мошеннических операций
(аномальный класс). Как правило, доля фрода составляет от 0,01% до 0,1% от общего потока транзакций. Обучение
классических алгоритмов на таких данных приводит к тому, что модель «выучивает» предсказывать все операции как
легитимные, достигая высокой кажущейся точности (accuracy), но полностью игнорируя редкие, но критически
важные случаи мошенничества.

3. Цели и задачи

Цели и задачи данного исследования:
1. Провести анализ предметной области и выявить специфику проблемы дисбаланса классов в задачах фродмониторинга, классифицировать существующие подходы к ее решению.
2. Исследовать классические методы дополнения данных и проанализировать их ограничения при работе с
многомерными финансовыми данными.
3. Разработать архитектуру генеративной модели, адаптированную для финансовых транзакций, учитывающую
смешанные типы признаков (числовые и категориальные).
4. Провести обучение и валидацию разработанной генеративной модели с использованием открытых наборов данных
или обезличенных данных, имитирующих реальный транзакционный трафик.
5. Сравнить эффективность классификаторов, обученных на исходных данных, данных, дополненных SMOTE, и
данных, дополненных синтетикой от GAN.
6. Произвести оценку качества синтезированных данных с точки зрения их реалистичности, разнообразия и
полезности для решения задачи классификации.

4. Теоретическая часть

English     Русский Правила