Похожие презентации:
Social_New
1. Оценка и кластеризация сообщений с помощью больших языковых моделей
ГБОУ ШКОЛА №1533 «ЛИТ»Оценка и
кластеризация
сообщений с
помощью
больших языковых
моделей
ИСПОЛНИТЕЛИ: МЕЛЬНИКОВ АНДРЕЙ, ГЛЫБОВ АЛЕКС,
ПЬЯНОВ МАКСИМ 10.5
ЗАКАЗЧИК: ТКАЧЕНКО МАКСИМ
ДОЛЖНОСТЬ: CEO HUMANSIGNAL
2. Актуальность проекта
Растет поток текстовых данных винтернете
Создаются комментарии от ботов
Анализировать эти тексты вручную
невозможно из-за объема
3. Автоматизация анализа текстов с использованием ИИ позволяет
Автоматизация анализа текстов с использованиемИИ позволяет
УСКОРИТЬ ОБРАБОТКУ ЗАПРОСОВ
ВЫЯВИТЬ ТИПИЧНЫЕ ПРОБЛЕМЫ
ПРИНЯТЬ КЛЮЧЕВЫЕ РЕШЕНИЯ
УЛУЧШИТЬ КАЧЕСТВО ОБСЛУЖИВАНИЯ КЛИЕНТОВ
4. Целевая аудитория
Операторыслужбы поддержки
Создатели контента
Маркетплейсы
5. Аналоги
* - Nomic Atlas предоставляет ограниченныйфункционал при бесплатном тарифе
Аналоги
Название
Встроенный
сбор данных
Ручное
Интеграция с
создание
YouTube
кластеров
Описание
кластеров
Семантический
поиск по текстам
Кластеризация
отзывов
Цена
Наш проект
+
+
+
+
+
+
Бесплатно
Nomic Atlas
+
+
+
+
Бесплатно*
Looppanel
+
+
+
+
$30+/мес
MonkeyLearn
+
+
+
+
$300+/мес
+
+
+
$2000+/мес
+-
+
Freemium
Thematic
Reddit Comment
Analyzer
6. Теория. Введение
• Задача - представить тексты в компактной, информативной форме для анализа• Ключевые методы:
• Эмбеддинги - векторное представление объектов, сохраняющее семантические/контекстные связи
между словами
• Кластеризация – автоматическое группирование похожих объектов
• Основные алгоритмы:
• t-SNE – понижение размерности эмбеддингов
• K-Means - кластеризация
7. Теория. t-SNE
• Параметры:Перплексия – контролирует баланс локальная/глобальная структура
Скорость обучения (Learning Rate) – определяет размер шага, с которым модель обновляет свои параметры в процессе
обучения
• Сильные стороны
Отличное сохранение локальных структур/кластеров, устойчивость к шуму
• Недостатки
Не сохраняет расстояния между кластерами
Результаты недетерминированы
Требует подбора параметров
Только для визуализации (не для предобработки)
8. Теория. Эмбеддинги
• Отсутствие проблем one-hot encoding:• Высокая размерность = размер словаря
• Разреженность (все нули, кроме одной 1)
• Отсутствие семантики (все векторы ортогональны)
• Ключевое свойство: Семантическая близость = Близость векторов
• "яблоко" ≈ "груша" (фрукты)
• "бегать" ≈ "ходить" (движение)
• "быстро" ≈ "медленно" (наречия)
• "король" - "мужчина" + "женщина" ≈ "королева" (векторная арифметика)
9. Теория. K-means
• TODO10. Теория. Сравнение и применение
• Взаимосвязь• Эмбеддинги часто являются входными данными для t-SNE и K-Means
• Когда что использовать?
• t-SNE – интуитивная визуализация многомерных данных
• K-means – разделение данных на заданное число ‘k’ групп для дальнейшего анализа
• Эмбеддинги – преобразование текстовых данных в числовые векторы, сохраняющие смысл
11. Технологии
Frontend• HTML
• CSS
• Vue.js
Backend
• Python
• Django
• Google API
• OpenAI
• GigaChain
• Instructor
Кластеризация
• Scikit learn
• NumPy
12. Инструменты
LLMРазработка
• Git
• Pytest
• GitHub Actions
• GitHub Projects
• Cursor
• PyCharm Community
• GigaChat
• DeepSeek
• Qwen
• OpenRouter
13. Функционал
Сбор обращений и жалоб клиентовИмпорт текстов из внешний источников
Визуализация текстов
Классификация текстов
Генерация описаний кластеров
14. Функционал
0102
03
04
05
Сбор обращений
и жалоб
клиентов
Импорт текстов
из внешних
источников
Визуализация
текстов
Классификация
текстов
Генерация
описаний
кластеров