Похожие презентации:
Кластерная индексация файлов для оптимизации поиска информации в распределенной файловой системе
1. Кластерная индексация файлов для оптимизации поиска информации в распределенной файловой системе
КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВДЛЯ ОПТИМИЗАЦИИ ПОИСКА
ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ
ФАЙЛОВОЙ СИСТЕМЕ
Кушвид Евгений Сергеевич
ст. гр. СШИм-15-1
Руководитель:
к.т.н., доцент
Чалая Лариса Эрнестовна
2. Актуальность:
02 / 24• Высокие темпы роста объема текстовой информации
• Накопление неклассифицированных данных в
распределенной структуре
• Отсутствие возможности оптимального смыслового
определения архитектуры классов
• Необходимость в высококачественном и быстром
поиске по большому массиву документов
3. Цель:
03 / 24Цель:
Целью работы является разработка метода
эффективного поиска текстовой информации в
распределенной файловой системе с высокой
производительностью и качеством при малых
ресурсных затратах приложения
4. Общая архитектура
04 / 24Общая архитектура
Предобработка
Сбор и очистка
данных
Формирование
входного
вектора для
кластеризатора
Кластеризация
Формирование
структуры
кластеров
Повторение
для каждого
кластера
Поиск
Кластеризация
запроса
Ранжирование
результатов
5. Выборка:
Иерархическая структурированная библиотекаоткрытая для скачивания объемом 21гб
05 / 24
6. Сбор и очистка данных:
СтеммингУдаление
стоп-слов
Очистка от
спецсимволов
Данные
06 / 24
Полученные
очищенные слова
данные отравляются
На формирование
входного вектора
7. Формирование входного вектора для кластеризатора
Полученныймассив слов
Частота их
встречаемости
Входной
вектор для
анализа
07 / 24
8. Существующие подходы к кластеризации:
Алгоритмk-средних
Нейронная
сеть
Кохонена
FOREL
SOINN
08 / 24
9. Существующие подходы к индексации
09 / 24Существующие подходы к индексации
Прямой индекс
Инвертированный
индекс
10. Обоснование выбранного решение:
SOINN• Устойчивость к шумам
• Скорость
• Точность
• Адаптивность
• Отсутствие необходимости в эвристиках
10 / 24
11. Формирование структуры кластеров
КластеризацияВыделения
подкластеров
Индексация
кластеров
11 / 24
12. Индексация
12 / 24Каждому кластеру присваивается уникальный индекс в
порядке вложенности
Пределом кластеризации является сведение к один
кластер это один файл и таким образом можно
определить вложенность кластеров как уникальный
HASH
13. Пример иерархической индексированной кластерной структуры файлов
13 / 240000
0001
0001
0002
0002
0001
0003
0002
0001
0001
0002
0001
0003
0001
0002
0002
0001
0002
0002
По окончанию иерархической кластеризации каждый файл отделяется в
отдельный персональный кластер
(исключение: файлы дубликаты/копии)
Индекс файла со звездочкой: 0001000300020002
14. Пример вида метаинформации в документе
14 / 2415. Пример сохраненной метаинформации в текстовом файле
15 / 2416. Поиск
16 / 24Поиск
Введение
поискового
запроса
Кластеризация и
определение
индекса иерархии
кластеров
Получение
искомого
файла
17. Имплементация:
17 / 2418. Визуальный интерфейс
18/ 2419. Поисковый запрос
19 / 2420. Расширение поискового запроса
20 / 2421. Экран настроек
21 / 2422. Анализ эффективности:
Объем выборкиСредняя загрузка оперативной памяти
Максимальная загрузка оперативной памяти
Среднее время кластеризации
Среднее время иерархической кластеризации
Среднее время поиска
Среднее время поиска с ранжированием
22 / 24
21гб
400мб
1,5гб
7 мс
18 мс
19 мс
23 мс
23. Сравнительная характеристика алгоритмов поиска
23 / 2424. Выводы
НедостаткиДостоинства