Похожие презентации:
Презентация_НИР_Новиков (1)
1.
ФГАОУ ВО «МГТУ «СТАНКИН»Институт информационных технологий
Кафедра управления и информатики в технических системах
Выпускная квалификационная работа
по направлению подготовки 09.03.03 «Прикладная информатика»,
профиль «Киберфизические системы»
на тему
«Разработка модуля ML для решения задачи семантического поиска в
текстовых документах»
Выполнил: студент группы ИДБ-22-12 Новиков Д.Д.
Руководитель ВКР:
Петров В.Е.
Москва 2025
2.
АКТУАЛЬНОСТЬ РАБОТЫКорпоративные документы
и базы знаний
Проблема: поиск по ключевым словам неустойчив к синонимам и
переформулировкам, а также плохо работает с длинными документами.
Решение: семантический поиск по эмбеддингам (Sentence Transformers) с
векторным индексом FAISS и сервисным API (FastAPI) с возможностью
расширения запросов через локальную LLM.
80%+
20%+
10 000+
Доля неструктурированных
данных в организациях
Время сотрудников на
поиск и уточнение
информации
Документов и записей в
типовой базе знаний
2
3.
ЦЕЛЬ И ЗАДАЧИЦель
Разработать ML-модуль семантического поиска по текстовым документам, обеспечивающий выдачу
релевантных фрагментов в top-k и удобную интеграцию через FastAPI.
Задачи
1. Анализ предметной области и подходов к семантическому поиску (retrieval, эмбеддинги, векторные индексы)
2. Проектирование архитектуры модуля и модели данных (документы, фрагменты, эмбеддинги, индекс,
запросы)
3. Реализация контура подготовки корпуса: предобработка, чанкинг, построение эмбеддингов
4. Реализация индексации и поиска: FAISS, top-k, постобработка и формат выдачи
5. Оценка качества и производительности: Precision@k/Recall@k/MRR, latency, рекомендации для ВКР
3
4.
КАК БУДЕТ РАБОТАТЬ СИСТЕМАПроцесс семантического поиска
1. Загрузка и извлечение текста: документы (.txt/.md; расширение до .pdf/.docx)
2. Предобработка: очистка, нормализация, удаление артефактов конвертации
3. Чанкинг: разбиение на фрагменты фиксированного размера с перекрытием
4. Эмбеддинги и индекс: Sentence Transformers → FAISS, сохранение метаданных
5. Поиск: эмбеддинг запроса → top-k → постобработка → выдача результатов
Целевой
уровень P@5: 0,60+
FastAPI
микросервис
Векторный
поиск FAISS
4
5.
АРХИТЕКТУРА ПРОГРАММНОГО РЕШЕНИЯКомпоненты системы семантического поиска
Загрузка
документов
API
Интеграция
Предобработка,
нормализация,
чанкинг
Sentence
Transformers +
FAISS
Метрики и
протоколы
Клиент
Веб/десктоп
5
6.
ТЕХНОЛОГИЧЕСКИЙ СТЕКОсновной технологический стек