37.82M
Категория: ПрограммированиеПрограммирование

Деплой модели. Финальный проект

1.

Специалист по работе с большими данными
Поток DS 103
Деплой модели. Финальный проект.
Квасная Кристина Викторовна
2023 г.

2.

Цель проекта
Реализация собственного сервиса
рекомендации фильмов

3.

Задачи проекта
Загрузить и обработать данные о фильмах.
Рассчитать матрицу Tf-Idf.
Вычислить показатель сходства фильмов (матрица расстояний cosin
similarity).
Настроить переменные окружения для проекта.
Вывести топ-k самых близких фильмов.
Вывести постеры к фильмам.
Реализовать фильтр по жанру и еще одному параметру.

4.

Данные
Для построения рекомендательного
сервиса фильмов были использованы данные
TMDB 5000 Movie Dataset
Обработка датасета:
Объединены общие данные о фильмах tmdb_5000_movies и каст фильмов
tmdb_5000_credits, оставлены только фильмы которые вышли в «релиз», убраны
фильмы с пропусками в колонках [‘overview’, ‘genres’, ‘keywords’], объединены
тексты колонок [‘overview’, ‘keywords’]
Предобработка текста:
Заменены NaN в описании фильма на пустой символ ‘ ’
Удалены все английские стоп-слова
Обработанный датафрейм с фильмами сохранен под названием movies.csv.

5.

Модели и метрики
Модель: Tf-Idf. Примененная модель позволила получить математическую
матрицу, описывающую частоту встречающихся терминов.
Метрика: cosin similarity (косинусное сходство ).
Вычислен показатель сходства фильмов (матрица cosin similarity) на основе
описания и ключевых слов к фильмам, из матрицы составлен датафрейм с
“расстояниями” от фильма до фильма и сохранен под названием distance.csv.
То, что при выборе многосерийного фильма предлагаются фильмы из этой же
серии, говорит об адекватном выборе метрики и работоспособности сервиса.

6.

Демонстрация работоспособности сервиса на примере выбора многосерийных фильмов

7.

Демонстрация работы фильтрации фильмов по жанрам и рейтингу

8.

Деплой
Для деплоя был использован фреймворк Python Streamlit.
Основные возможности Streamlit:
• Быстрое развертывание
• Использование скриптов
• Виджиты и визуализация

9.

Рефлексия
Цель работы и все поставленные задачи
выполнены: сервис работоспособен.
К недостаткам можно отнести не достаточно
быструю работу сервиса, что несомненно требует
доработок.
Добавление дополнительных характеристик
фильмов, а также данных о пользователях,
которые используют рекомендательный сервис
существенно улучшили бы качество сервиса.

10.

P2P проверки
English     Русский Правила