11.69M

W project (2)

1.

mas
ack
W
compliance
system
W

2.

1. Algorithms – использование алгоритмов
2. Ml – методы из машинного обучения
3. Ensembles – применение ансаблей, для
получения объективных результатов.
4. Request - Для получения данных из открытых
источников.
5. BeautifulSoup (bs4) - Для парсинга вебстраниц и извлечения данных.
6. Pandas (pd) - Для обработки и анализа
данных.
7. Data analysts – анализ данных
8. Асинхронная работа системы

3.

4.

1. Готовая предобработанная модель для аугментации данных и высокой точностью
2. Анализ эффективности модели по сравнению с аналогами
3. Высокоскоростная асинхронная работа
4. Понятный и простой интерфейс

5.

6.

Перенастраиваемость
адаптивным обучением
Ансамбли
Простота(скорость)
Фронтенд: streamlit
Асинхронность
риски связанные с мошенничествами
Наша система может импользовать
жадный алгоритм, который не позволит
Потенциальным мошенникам обмануть
систему или провернуть спекуляцию

7.

Кластеризация
Минусы:
1.Переобучение: Если пропуски преобладают в выборке, кластеризация может переобучиться на этих пропусках, что
приведет к неправильному разделению данных на кластеры.
2.Скорость: Кластеризационные алгоритмы, такие как K-means или DBSCAN, могут быть медленными, особенно на
больших наборах данных.
3.Интерпретируемость: Результаты кластеризации могут быть трудно интерпретируемы, особенно если данные имеют
сложную структуру.
4.Зависимость от начальных условий: Некоторые алгоритмы кластеризации, такие как K-means, могут давать разные
результаты в зависимости от начальных центроидов.
Нейронные сети
Минусы:
1.Переобучение: Нейронные сети могут переобучиться на пропусках, особенно если пропуски имеют определенное
поведение или структуру.
2.Скорость: Обучение нейронных сетей может быть медленным и требовать значительных вычислительных ресурсов.
3.Требования к данным: Нейронные сети требуют большого объема данных для эффективного обучения, что может быть
проблематично при наличии значительного количества пропусков.
4.Интерпретируемость: Нейронные сети часто являются "черными ящиками", что затрудняет интерпретацию их
результатов.
Embeddings
Минусы:
1.Переобучение: Методы на основе embeddings могут переобучиться на пропусках, особенно если пропуски имеют
определенное поведение или структуру.
2.Скорость: Обучение embeddings может быть медленным и требовать значительных вычислительных ресурсов.
3.Требования к данных: Методы на основе embeddings требуют большого объема данных для эффективного обучения,
что может быть проблематично при наличии значительного количества пропусков.
4.Интерпретируемость: Embeddings могут быть трудно интерпретируемы, особенно если они обучены на сложных
данных.

8.

Применить аугментацию и заполнить исходный датасет данными из открытых источников
Примиенить больше ансамблей для улучшения качества и объективности решения
Применить методы снижения размерности или выбрать репрезентативные признаки(features importances)
Добавить подробную статистику для анализа клиента
Использование knn, вместо minmax
AI парсер для чтения информации о клиенте по странице по н.т или ИНН
Учитывать больше признаков
учитывать подозрительные транзакции
Учитывать черный список в реестрах по н.т
Использовать дерево связей
English     Русский Правила