585.44K

Презентация_НИР_Новиков (1)

1.

ФГАОУ ВО «МГТУ «СТАНКИН»
Институт информационных технологий
Кафедра управления и информатики в технических системах
Выпускная квалификационная работа
по направлению подготовки 09.03.03 «Прикладная информатика»,
профиль «Киберфизические системы»
на тему
«Разработка модуля ML для решения задачи семантического поиска в
текстовых документах»
Выполнил: студент группы ИДБ-22-12 Новиков Д.Д.
Руководитель ВКР:
Петров В.Е.
Москва 2025

2.

АКТУАЛЬНОСТЬ РАБОТЫ
Корпоративные документы
и базы знаний
Проблема: поиск по ключевым словам неустойчив к синонимам и
переформулировкам, а также плохо работает с длинными документами.
Решение: семантический поиск по эмбеддингам (Sentence Transformers) с
векторным индексом FAISS и сервисным API (FastAPI) с возможностью
расширения запросов через локальную LLM.
80%+
20%+
10 000+
Доля неструктурированных
данных в организациях
Время сотрудников на
поиск и уточнение
информации
Документов и записей в
типовой базе знаний
2

3.

ЦЕЛЬ И ЗАДАЧИ
Цель
Разработать ML-модуль семантического поиска по текстовым документам, обеспечивающий выдачу
релевантных фрагментов в top-k и удобную интеграцию через FastAPI.
Задачи
1. Анализ предметной области и подходов к семантическому поиску (retrieval, эмбеддинги, векторные индексы)
2. Проектирование архитектуры модуля и модели данных (документы, фрагменты, эмбеддинги, индекс,
запросы)
3. Реализация контура подготовки корпуса: предобработка, чанкинг, построение эмбеддингов
4. Реализация индексации и поиска: FAISS, top-k, постобработка и формат выдачи
5. Оценка качества и производительности: Precision@k/Recall@k/MRR, latency, рекомендации для ВКР
3

4.

КАК БУДЕТ РАБОТАТЬ СИСТЕМА
Процесс семантического поиска
1. Загрузка и извлечение текста: документы (.txt/.md; расширение до .pdf/.docx)
2. Предобработка: очистка, нормализация, удаление артефактов конвертации
3. Чанкинг: разбиение на фрагменты фиксированного размера с перекрытием
4. Эмбеддинги и индекс: Sentence Transformers → FAISS, сохранение метаданных
5. Поиск: эмбеддинг запроса → top-k → постобработка → выдача результатов
Целевой
уровень P@5: 0,60+
FastAPI
микросервис
Векторный
поиск FAISS
4

5.

АРХИТЕКТУРА ПРОГРАММНОГО РЕШЕНИЯ
Компоненты системы семантического поиска
Загрузка
документов
API
Интеграция
Предобработка,
нормализация,
чанкинг
Sentence
Transformers +
FAISS
Метрики и
протоколы
Клиент
Веб/десктоп
5

6.

ТЕХНОЛОГИЧЕСКИЙ СТЕК
Основной технологический стек
English     Русский Правила