1/51

Алгоритмы и структуры данных. Лекция 5. Хеш-таблицы

1.

Алгоритмы и структуры
данных
Лекция 5. Хеш-таблицы

2.

MyQuiz.ru
302656

3.

Имеется список со значениями. Необходимо удалить повторяющиеся элементы.
Предложите алгоритм решения при О(N).

4.

Алгоритм возведения в степень. Как уменьшить количество операций при
возведений в степень 11640 ?
640 = 1 0 1 0 0 0 0 0 0 0
Генератор случайных чисел 0….7 при возможном кубике 1..5
Числа с 1 по 7 можно
представить в виде трех
битов, то есть бинарных
чисел от 000 до 111.
Каждый бросок кубика даст нам одну цифру
трехбитного числа. Если выпадет 2 или 4, назовите
результат «ноликом», если 1 или 3 — «1», если 5 —
бросайте снова. Продолжать бросать столько,
сколько необходимо, если выпадет пятерка.
Повторение этой процедуры три раза генерирует
число в диапазоне от 000 до 111.

5.

Линейный поиск
O(N)

6.

Бинарный поиск
O(log N)

7.

Интерполяционный поиск
Расчетный индекс = 0.65 * 19 ~ 12
Расстояние = значение – значения[min]
64 – 0 = 64
Значение диапазона = значение [max] – значения[min]
99 – 0 = 99
Дробь = Расстояние / Значение диапазона
64/99 ~0.65
Значение индексов = max - min
19 – 0 = 19
Оценка пристрела = min + Дробь * Значение индексов
0 + 0.65 * 19 ~ 12

8.

Интерполяционный поиск

9.

Хеш-таблицы

10.

Хеширование
Хеширование – это преобразование входного массива данных определенного типа
и произвольной длины в выходную битовую строку фиксированной длины.
Такие преобразования также называются хеш-функциями или функциями свертки,
а их результаты называют хешем, хеш-кодом.

11.

Хеширование
Результатом хеш-функции будет в число из определенного диапазона 0 , … , M-1.
Примеры.
h(x)=x mod M
h(x)=A*x + B mod M
h(x)=x, если |x|<M и h(x)=0 иначе.
С точки зрения практического применения, хорошей является такая хэш-функция,
которая удовлетворяет следующим условиям:
функция должна быть простой с вычислительной точки зрения;
функция должна распределять ключи в хэш-таблице наиболее равномерно;
функция не должна отображать какую-либо связь между значениями ключей в
связь между значениями адресов;
функция должна минимизировать число коллизий,то есть ситуаций, когда
разным ключам соответствует одно значение хэш-функции (ключи в этом случае
называются синонимами).

12.

Хеширование
Идеальной хеш-функцией является такая hash-функция, которая для любых
двух неодинаковых ключей дает неодинаковые адреса.
Наихудший случай: все ключи хэшируются в один индекс.
Хеширование полезно, когда широкий диапазон возможных значений
должен быть сохранен в малом объеме памяти, и нужен способ быстрого,
практически произвольного доступа.

13.

Варианты хэш-функции
• Метод деления
• Метод умножения
• Универсальное хэширование

14.

Метод деления
• h(k) = k mod m
• m – число позиций в хэш-таблице
• Преимущество – простота
• Недостаток – ограничения на величину m
(нежелательна степень двойки – тогда на
позицию влияют только младшие биты числа)
• Оптимально – простое число, далекое от
степени двойки

15.

Метод умножения
• h(k) = [ m * ( k*A - [ k*A ] ) ],
где [x] – целая часть x
• Кнут предложил
A ( 5 1) / 2
• Можно избежать вещественных вычислений.

16.

Универсальное хеширование
• Ясно, что для любой хеш-функции можно
подобрать значения, при которых она работает
плохо (коллизии на каждом шаге).
• Злоумышленник может посылать нам такие
значения и спровоцировать
неработоспособность нашей программы.
• Идея универсального хеширования – случайный
выбор хеш-функции так, чтобы для любой
сгенерированной злоумышленником
последовательности вероятность проблем была
мала

17.

Универсальное хеширование
Пример функции
• Пусть p – простое число, ключи – от 0 до p – 1
m – размер таблицы, h(k) – от 0 до m – 1
• Рассмотрим семейство функций вида
ha,b(k)=((ak + b) mod p) mod m
a={ 1, …, p – 1 }, b = { 0, …, p – 1 }
• Оно является универсальным

18.

Выбор хеш-функции
• Мы будем считать, что элементы массива –
целые числа
• Если они не целые числа – их всегда можно
сделать целыми (возможно, очень большими)
• Приведем примеры

19.

Пример: строки ANSI
• «Alexey»
• В памяти 65(‘A’)
108(‘l’)
101(‘e’) 120(‘x’) 101(‘e’) 121(‘y’) 0
• В числовой форме – 71933814662521
121+101*256+120*2562+101*2563
+108*2564+65*2565

20.

Хеш-таблица – это структура данных, реализующая
интерфейс ассоциативного массива, то есть она позволяет
хранить пары вида "ключ- значение" и выполнять три
операции:
операцию добавления новой пары;
операцию поиска;
операцию удаления пары по ключу.
Хеш-таблица является массивом, формируемым в
определенном порядке хеш-функцией.

21.

Хеш-таблицы должны соответствовать следующим свойствам:
Выполнение операции в хеш-таблице начинается с вычисления хеш-функции от
ключа. Получающееся хеш-значение является индексом в исходном массиве.
Количество хранимых элементов массива, деленное на число возможных значений
хеш-функции, называется коэффициентом заполнения хеш-таблицы (load factor, fill
factor) и является важным параметром, от которого зависит среднее время
выполнения операций. Оптимальное значение этого коэффициента не должно
превышать 0,7.
Операции поиска, вставки и удаления должны выполняться в среднем за время O(1).
Однако при такой оценке не учитываются возможные аппаратные затраты на
перестройку индекса хеш-таблицы, связанную с увеличением значения размера
массива и добавлением в хеш-таблицу новой пары.

22.

Хеш - таблицы
Хеш-таблицы – прямая адресация
Исходное состояние – значение всех элементов
не совпадает с номером, набор пустой
1
0
0
0
0
0
0
0
0
Добавление элемента
1
0
0
0
0
0
0
0
0
0
5
5
0
0
0
Добавление элемента
1
0
0
0
7
5
0
7
0
0
0

23.

Хеш - таблицы
Хеш-таблицы – прямая адресация
1
0
0
0
0
Поиск элемента
5
0
7
0
0
0
2
Не совпали – значит,
такого нет
Поиск элемента
Совпали – значит,
такой есть
7

24.

Хеш - таблицы
О достоинствах и недостатках схемы
• Поиск любого элемента выполняется за
фиксированное время (O(1))
• Добавление нового элемента выполняется за
фиксированное время (O(1))
• Количество требуемой памяти пропорционально
количеству возможных значений ключа

25.

Хеш - таблицы
Пример
Рассмотрим контейнер целых чисел
Для хранения – массив из 11 элементов
h(x) = x mod 11 (остаток от деления на 11)
Начальное состояние – контейнер пустой. Поскольку в
памяти что-то должно быть – заполняем невозможными
(вообще или в данной клетке) значениями.
X
X
X
X
X
X
X
X
X
X
X

26.

Пример хеш-таблицы
X
X
X
X
X
X
X
X
X
Добавление элемента
X
X
52
52 mod 11 = 8
X
X
X
X
X
X
X
X
52
X
Добавление элемента
X
37
37 mod 11 = 4
X
X
X
X
37
X
X
X
52
X
X

27.

Пример хеш-таблицы
X
X
X
X
37
X
X
X
52
Поиск элемента
X
X
Не найден
X
37
X
X
X
Поиск элемента
19 mod 11 = 8
X
16
16 mod 11 = 5
X
X
52
X
X
19
Не найден

28.

Пример хеш-таблицы
X
X
X
X
37
X
X
X
Поиск элемента
37 mod 11 = 4
52
X
X
37
Найден

29.

Коллизии
• Мы не хотим выделять память на каждое
возможное значение элемента (реально
встретившихся значений обычно много меньше,
чем возможных)
• Значит, возможных значений h(x) меньше, чем
возможных значений x и существуют такие x1, x2,
что h(x1)=h(x2)
• Значит, возможна ситуация, когда мы пытаемся
добавить элемент, а место занято.
• Эта ситуация называется коллизией

30.

Пример коллизии
X
X
X
X
37
X
X
X
52
Добавление элемента
96 mod 11 = 8
X
96
Коллизия
X

31.

Необходимо разрешение коллизий
• Правила разрешения коллизий должны
определять, что делать при коллизии (куда
поместить полученный элемент)
• Важно обеспечить, чтобы:
• Правила разрешения коллизий позволяли бы
разместить в контейнере любой набор значений
• Правила поиска позволяли найти любой элемент,
размещенный по правилам разрешения коллизий

32.

Разрешение коллизий: открытое
хеширование (хранение списков)
• Будем хранить в каждом элементе массива не
значение, а список значений
• Новое значение добавляем в конец списка
• Поиск выполняется по списку

33.

Разрешение коллизий: хранение списков,
h(x) = x mod 11, добавление
45
93
51
12

34.

Разрешение коллизий: хранение
списков, h(x) = x mod 11, поиск
17
45
12
29
89
12
93
51
Найден!
Не найден

35.

В итоге имеем таблицу массива связных списков
14

36.

Разрешение коллизий хранением
списков (открытое хеширование)
• В наихудшем случае время поиска O(N) – если
возникнет один список
• Время добавления элемента в наихудшем случае –
O(N) или O(1) [если хранить адрес последнего
элемента списка]
• Предположим, что
• Вероятности попадания элемента в любую ячейку равны
• Количество ячеек M равно количеству элементов N (или
хотя бы пропорционально)
• Тогда средняя длина списка – 1, среднее время
поиска и добавления элемента – O(1)

37.

Разрешение коллизий: закрытое
хеширование (метод сдвига)
Часто хочется упростить структуру и не хранить массив
списков
В этом случае можно применить разрешение коллизий
методом сдвига (хеширование с открытой адресацией,
метод линейного исследования)
Если мы не можем положить элемент в нужную ячейку –
пытаемся положить в следующую, и так пока не найдется
свободная
При поиске перебираем элементы, пока не встретим
пустую ячейку
Встретив конец массива – переходим на первый элемент

38.

Почему линейное исследование?
• При попытке в № i поместить значение k мы
пробуем ячейку h(k , i )
• h(k , i ) = ( h’(k) + i ) mod m
• Функция - линейная

39.

Разрешение коллизий методом сдвига ,
h(x) = x mod 11, добавление
45
12
95
24

40.

Разрешение коллизий методом
сдвига , h(x) = x mod 11, поиск
17
95
45
12
12
24
89
95
Найден!
Не найден

41.

Разрешение коллизий методом
сдвига
• Метод работает, только если длина массива не
меньше числа элементов
• Когда элементов в массиве становится
достаточно много, эффективность хеширования
мала (приходится перебирать множество
элементов)
• Этот эффект называется кластеризацией
(возникает кластер из занятых элементов)

42.

Разрешение коллизий:
квадратичное исследование
• При попытке в № i поместить значение k мы
пробуем ячейку h( k , i )
• h(k , i ) = (h’(k) + c1i + c2i2) mod m
• В отличие от линейного исследования,
кластеризация слабее

43.

Квадратичное исследование,
h(x, i) = ( x mod 11 + i + i2 ) mod 11)
45
12
95
24

44.

Квадратичное исследование,
h(x, i) = ( x mod 11 + i + i2 ) mod 11)
17
95
45
24
12
12
89
95
Найден!
Не найден

45.

Квадратичное исследование,
h(x, i) = ( x mod 11 + i + i2 ) mod 11)
45
• 45 mod 11 = 1
• (45 + 1 + 1) mod 11= 3
• (45 + 2 + 4) mod 11= 7
• (45 + 3 + 9) mod 11= 2
• (45 + 4 + 16) mod 11 = 10
• (45 + 5 + 25) mod 11 = 9
• (45 + 6 + 36) mod 11 = 10, повторная попытка

46.

Квадратичное исследование,
h(x, i) =( x mod 8 + i / 2+ i2 / 2) mod 8)
45
• 45 mod 8 = 5
• (45 + 1 / 2 + 1 / 2) mod 8 = 6
• (45 + 2 / 2 + 4 / 2) mod 8 = 0
• (45 + 3 / 2 + 9 / 2) mod 8 = 3
• (45 + 4 / 2 + 16 / 2) mod 8 = 7
• (45 + 5 / 2 + 25 / 2) mod 8 = 4
• (45 + 6 / 2 + 36 / 2) mod 8 = 2
• (45 + 7 / 2 + 49 / 2) mod 8 = 1

47.

Выводы:
• Квадратичное исследование менее подвержено
опасности кластеризации, чем линейное.
• При квадратичном исследовании важен выбор
функции так, чтобы перебрать все ячейки.

48.

Удаление элементов из хеш-таблицы с открытой
адресацией h1(x) = x % 11, h2(x) = 1 + x % 10
73
17
73
52
24
24
18
18
95
52
52
95
Найден!
Не найден

49.

Удаление элементов
• Просто удалить элемент нельзя – нарушится
поиск тех, которые были добавлены после него
• Можно заменить значение на пометку Deleted

50.

Удаление элементов
• Специальное значение Deleted позволяет
удалить элемент
• Но позиция в таблице после этого остается
занятой и замедляет поиск
• Этот подход годится, если потребность удалить
элемент возникает в результате крайне
экзотической ситуации
• Если действительно нужно удалять –
используйте разрешение коллизий методом
списков
English     Русский Правила