Решение задачи фильтрации спама методом машинного обучения

1.

Тема: «Решение задачи фильтрации спама
методом машинного обучения»
Автор : Хохлова А. Е.
Группа:19-МЗ-1
Специальность: 6В06104 «Математические методы защиты информации»
Научный руководитель:к.ф.-м.н. профессор, Бакланова О.Е.
г. Усть-Каменогорск
2023 г.

2.

Актуальность проблемы спама в электронной почте
2

3.

Цель и задачи
Цель работы заключается в реализации спам-фильтра, используя метод Наивного Байеса на
языке программирования Python. Для достижения цели были поставлены следующие задачи:
1. Провести аналитический обзор литературы на тему спама включая историю, типы и их
классификацию, а также различные методы, используемые при фильтрации спама;
2. Применить математическую
фильтрации спама;
модель
классификации
текста
при
решении
задачи
3. Построить алгоритм машинного обучения фильтрации спама, используя метод Наивного
Байеса;
4. Изучить набор данных о спам и не-спам сообщениях, который будет использоваться для
обучения
5. Создать спам-фильтр, используя метод Наивного Байеса и Python;
6. Оценить производительность и точность полученного классификатора.
3

4.

Положения, выносимые на защиту
1. Структура существующих методов фильтрации спама, основные виды и их
особенности
2. Байесовская фильтрация, типы Наивного Байесовского классификатора
3. Функционально-структурная модель спам-фильтра
4. Математическая модель спам-фильтра
5. Алгоритм программной реализации спам-фильтра
6. Результаты реализации модели машинного обучения на языке Python, с
применением Наивного Байесовского классификатора
4

5.

Практическая ценность
Фильтрация спама является важной задачей для предотвращения мошенничества,
защиты пользователей от нежелательных и опасных сообщений, а также для повышения
эффективности электронной почты как инструмента коммуникации. Примеры сфер:
Информационная безопасность
• Методы фильтрации могут применяться для защиты организаций и пользователей от
кибератак и мошенничества через электронную почту.
Маркетинг
• Методы фильтрации могут использоваться для защиты репутации компании и
снижения рисков блокировки почтовых сервисов
Образование
• Методы фильтрации могут применяться для защиты школьных и университетских
почтовых сервисов от нежелательных сообщений и защиты учащихся от вредоносных
сообщений и улучшения.
Личное использование
• Методы фильтрации могут использоваться для защиты пользователей от
нежелательных сообщений и мошенничества через личные почтовые сервисы.
5

6.

Методы и алгоритмы решения задачи фильтрации спама
Распределенные методы предполагают участие в
сборе информации о спаме от большого числа
независимых
почтовых
систем,
которые
обмениваются данными между собой.
Локальные методы работают в рамках одной
почтовой системы и не используют для работы
внешних ресурсов. В отличие от распределенных
методов фильтрации, локальные методы изначально
имеют
возможность
тонкой
адаптации
под
конкретную почтовую систему.
6

7.

Байесовская фильтрация
Одним из локальных методов фильтрации спама является Байесовская фильтрация. Каждому
встречающемуся в электронной переписке слову или тегу присваивается два значения: вероятность
его наличия в спаме и вероятность его присутствия в письмах, разрешенных для прохождения. Баланс
этих двух значений и определяет вероятность того, что письмо, в котором встречаются данные слова
и теги, является спамом.
Принцип работы Наивного Байесовского классификатора базируется на понятии условной
вероятности принадлежности документа

English Русский Правила