Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Основы обеспечения единства измерений: Обеспечение единства измерений - деятельность метрологических служб, направленная на достижение...

Генеалогическое древо Султанов Османской империи: Османские правители, вначале, будучи еще бейлербеями Анатолии, женились на дочерях византийских императоров...

Эволюция кровеносной системы позвоночных животных: Биологическая эволюция – необратимый процесс исторического развития живой природы...

Интересное:

Влияние предпринимательской среды на эффективное функционирование предприятия: Предпринимательская среда – это совокупность внешних и внутренних факторов, оказывающих влияние на функционирование фирмы...

Инженерная защита территорий, зданий и сооружений от опасных геологических процессов: Изучение оползневых явлений, оценка устойчивости склонов и проектирование противооползневых сооружений — актуальнейшие задачи, стоящие перед отечественными...

Искусственное повышение поверхности территории: Варианты искусственного повышения поверхности территории необходимо выбирать на основе анализа следующих характеристик защищаемой территории...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспунденкция

Хеширование с открытой адресацией

2021-04-18

108

0.00 из 5.00 0 оценок

Заказать работу

Содержание

⇐ ПредыдущаяСтр 41 из 41

Если в памяти имеется непрерывная область достаточных размеров, то в этом случае можно вообще отказаться от ссылок при реализации хеш-таблицы. Такой способ реализация хеш-таблицы называется хешированием с открытой адресацией [9, 14]. В [3] такая хеш-таблица называется закрытой, очевидно, имеется в виду, что она закрыта для расширения. Этот метод накладывает еще более жесткие ограничения на размер входных данных, чем метод цепочек, но для случая статических входных данных он вполне годится.

Коллизии в этом случае разрешаются следующим образом. В случае, если вычисленный по ключу хеш-адрес оказывается занятым, каким-либо способом находится другая незанятая позиция, куда и помещается новый элемент. Если все позиции заняты, то элемент вставить нельзя (место кончилось). Этот процесс поиска подходящей позиции называется исследованием хеш-таблицы [14], а количество позиций, просмотренных до того, как найдена подходящая позиция, называют количеством проб.

Наиболее простым способом разрешения коллизий является линейное зондирование. При линейном зондировании h_i(x)=(h(x)+i) mod N. Предположим, N=8, ключи a,b,c,d имеют хеш-значения h(a)=3, h(b)=0, h(c)=4, h(d)=3. Например, если мы хотим вставить элемент d, а сегмент 3 уже занят, то мы проверим 4-й сегмент, если и он занят, то 5-й, 6-й, 7-й, 0-й, 1-й, 2-й.

Пусть сначала вся хеш-таблица пуста. Поместим в неё последовательно элементы a, b, c, d. Элемент a попадёт в 3-й сегмент, b – в 0-й, c – в 4-й. При вставке элемента d оказывается, что 3-й элемент уже занят. Проверяем 4-й элемент, но он тоже занят. Пятый элемент свободен – туда и помещаем d.

0	B
1	пусто
2	пусто
3	A
4	C
5	D
6	пусто
7	пусто

Посмотрим, как выполняется поиск элемента x. Будем сначала считать, что элементы из хеш-таблицы никогда не удаляются. Тогда при поиске элемента x необходимо просмотреть всю последовательность, начиная с вычисленного хеш-адреса, пока не будет найден x, не встретится пустая позиция, или не будут просмотрены все позиции последовательности. Легко объяснить, почему при достижении пустого элемента поиск можно прекратить – ведь при вставке элемент вставляется в первый пустой сегмент, следовательно, далее элемент находиться не может.

Но если элементы из хеш-таблицы всё-таки удаляются, то при достижении пустого элемента мы уже не можем прекратить поиск, так как возможно, что искомый элемент находится в одной из следующих позиций последовательности. Для повышения скорости поиска иногда используется следующий приём – при удалении элемента его позиция помечается специальным образом, так чтобы ее можно было отличить от изначально пустой позиции. При выполнении вставки такие позиции рассматриваются как свободные.

Вернёмся к вышеприведённому примеру. Пусть нам нужно проверить, содержится ли в множестве элемент e, где h(e)=4. Проверяем сегменты 4,5 и 6. Сегмент 6 пустой, следовательно, элемента e в множестве нет.

Предположим теперь, что мы удалили элемент c и проверяем, содержится ли в множестве элемент d:

0	B
1	пусто
2	пусто
3	A
4	удален
5	D
6	пусто
7	пусто

Мы проверяем элемент 3, затем переходим к элементу 4. Он помечен как удаленный, поэтому не останавливаемся в нём и переходим к элементу 5, где и находим D.

Рассмотренное нами линейное зондирование – далеко не самый лучший способ разрешения коллизий. Как только несколько последовательных элементов будут заполнены (образуя группу), любой новый элемент при попытке вставки в эти позиции будет вставлен в конец группы, увеличивая её длину. Отсюда следует, что при таком расположении элементов увеличивается время выполнения операций поиска, вставки, удаления элемента.

Имеются методы организации хеширования с открытой адресацией, обеспечивающие в среднем меньшее количество проб, с ними можно познакомиться, например, в [10, 14].

Пример решения задачи поиска с использованием хеш-таблицы

Для примера рассмотрим следующую задачу. Необходимо реализовать быстрый поиск слов в текстовом файле. Для упрощения реализации будем считать, что достаточно определить, встречается ли заданное слово в файле и если встречается, то сколько раз. Разумеется, можно расширить такую постановку задачи и определять номера позиций (строк, страниц), в которых встречается заданное слово, при этом поиск выполнять по коллекции текстовых файлов, можно искать сочетания нескольких слов и т.д. Для демонстрации идеи использования хеш-таблицы такие детали несущественны. Важно другое — в нашей задаче разрешено потратить какое-то начальное время перед поиском на предварительное построение любой подходящей структуры в оперативной памяти (индекса), если поиск в индексе будет выполняться существенно быстрее, чем в исходном файле.

В данном случае весьма подходящей структурой индекса может оказаться не только дерево поиска, хотя этот вариант также может рассматриваться. Однако при удачном выборе хеш-функции индекс на основе хеш-таблицы может обеспечить наименьшее время поиска в среднем на обычных текстовых файлах, содержащих, например, текст на естественном языке или исходные тексты программ на каком-либо языке программирования.

В примере для вычисления хеш-значения каждого слова был использован алгоритм, подробно разобранный в [16]. Его суть в том, что вместо простого вычисления суммы кодов символов слова используется следующая рекуррентная формула:

h_i₊₁=k*h_i+s_i_,где i=0,1, …,n-1 (n – длина слова). При этом h₀=0.

Здесь s_i — очередной символ слова, k — специально подобранный множитель, его рекомендуемые значения 31 или 37 (мы взяли 31). За счет умножения частичной суммы h_i на этот множитель обеспечивается более равномерное распределение слов в хеш-таблице, чем при использовании многих других хеш-функций [16].

Для реализации хеш-таблицы был выбран метод цепочек, в качестве которых используются обычные однонаправленные связанные списки. Элементы хеш-таблицы в качестве информационной части содержат значение слова (ключ) и количество повторений этого слова в файле (связанные данные). Размер массива указателей (N=2013) выбирался, исходя из того, что общее количество различных слов в реальных текстах вряд ли превысит 10 000, выбранная хеш-функция обеспечивает хорошее равномерное их перемешивание, поэтому цепочки не должны быть слишком длинными.

#include <iostream.h>

#include <fstream.h>

#include <string.h>

#define N 2013 //размер массива указателей – простое число

//небольшая служебная функция для извлечения слов из файла

int getword(ifstream *, char *, char *,int *);

// описание всех необходимых структур данных

struct item // элемент данных

{ char word[40]; // слово

int count; //число повторений в файле

};

struct h_item // элемент хеш-цепочки

{ item data;

h_item *next;

};

h_item *a[N]; // массив указателей на цепочки

unsigned int hashnumber(char *s)// вычисление хеш-значения

{ const int k=31;

unsigned int h=0; char *a;

for (a = (unsigned char *) s; *a!= '\0'; a++)

{ h = k*h+*a;

h = h % N;

}

return h;

}

bool insert(char *w)//вставка нового значения в хеш-таблицу

{ unsigned int n=hashnumber(w);

h_item *i=a[n];

while (i)

{ if (strcmp(i->data.word,w)==0)

{ i->data.count++;

break;//нашли такое слово

}

i=i->next;

}

if (i==NULL)//слова нет, добавляем новый элемент

{i=new h_item;

strcpy(i->data.word,w);

i->data.count=1;

i->next=a[n];

a[n]=i;

return false;

}

return true;

}

//загрузка слов текстового файла в хеш-таблицу

bool create_hash(char *name)

{ ifstream f(name);

if (f.bad()) {return false;}

char s[100]="", w[40]; int first=1;

for (int n=0; n<N; n++) a[n]=NULL;

while (!getword(&f,s,w,&first)) insert(w);

return true;

}

//поиск слова в хеш-таблице, возвращает количество слов

//если слово не найдено, возвращает нуль

int seach(char *w)

{ unsigned int n=hashnumber(w);

h_item *i=a[n];

while (i)

{ if (strcmp(i->data.word,w)==0)

return i->data.count;

i=i->next;

}

return 0;

}

main()

{ // небольшая демонстрационная программа

char name[50]; // вначале строится хеш-таблица

cout<<"Vvedite imya faila "; cin.getline(name,50);

if (!create_hash(name))

{cout<< "not found"; cin.get();return 1;

}

cout<<"хеш-таблица построена"; cin.get();

char w[40];//выполняется поиск слов до ввода пустой строки

for(;;)

{cout<<"7";cin.getline(w,40); if (strlen(w)==0) break;

int i=seach(w);

if (i==0) cout<<"слово не найдено"<<endl;

else cout<<"слово встречается" <<i<<"раз"<<endl;

}

cin.get(); return 0;

}

int getword(ifstream *f,char *s, char *w, int *first)

{//служебная функция для извлечения слов из файла

char *w1=NULL;

{ if (*first)

{ w1=strtok(s,".,;()!?");

*first=0;

}

else w1=strtok(NULL,".,;()!?");

if (w1==NULL)

if (f->getline(s,80)) *first=1;

else return 1;

}

while (w1==NULL); strcpy(w,w1);

return 0;

}

В дополнение к рассмотренным методам хеширования в следующем разделе будет рассмотрен метод расширяемого хеширования применительно к файлам данных, расположенным во внешней памяти.

Введение................................................................................................................... 3

1. Основные понятия и определения.......................................................... 5

1.1. Типы данных...................................................................................... 5

1.1.1. Понятие типа данных....................................................................... 5

1.2.2. Внутреннее представление базовых типов в оперативной памяти 7

1.2.2. Внутреннее представление структурированных типов данных 9

1.2.3. Статическое и динамическое выделение памяти................... 10

1.2. Абстрактные типы данных (АТД)............................................. 11

1.2.1. Понятие АТД......................................................................... 11

1.2.2. Спецификация и реализация АТД............................................... 14

1.3. Структуры данных........................................................................ 16

1.3.1. Понятие структуры данных.......................................................... 16

1.3.2. Структуры хранения — непрерывная и ссылочная............. 17

1.4.3. Классификация структур данных............................................... 20

1.4. Алгоритмы....................... Ошибка! Закладка не определена.

1.4.1. Понятие алгоритма......................................................................... 21

1.4.2. Способы записи алгоритмов. Ошибка! Закладка не определена.

1.4.3. Введение в анализ алгоритмов.................................................... 22

1.4.3. Введение в рекурсию...................................................................... 33

1.5. Первые примеры............................................................................. 36

1.5.1. Введение в «длинную» арифметику........................................... 36

1.5.2. Рекурсия............................................................................................. 37

1.5.3. Поразрядные операции. Реализация АТД «Множество»..... 40

2. Линейные структуры данных...................................................................... 44

2.1. АТД "Стек", "Очередь", "Дек".......................................................... 45

2.2. Реализация стеков............................................................................... 50

2.2.1. Непрерывная реализация стека с помощью массива........... 50

2.2.2. Ссылочная реализация стека в динамической памяти......... 53

2.2.3. Примеры программ с использованием стеков......................... 56

2.3. Реализация очередей.............................................................................. 58

2.3.2. Непрерывная реализация очереди с помощью массива...... 58

2.3.2. Ссылочная реализация очереди в динамической памяти... 62

2.3.3. Ссылочная реализация очереди с помощью циклического списка 64

2.3.4. Очереди с приоритетами............................................................... 65

2.3.5. Пример программы с использованием очереди...................... 66

2.4. Списки как абстрактные типы данных............................................. 68

2.4.1. Модель списка с выделенным текущим элементом............... 68

2.4.2. Однонаправленный список (список Л1).................................... 70

2.4.3. Двунаправленный список (список Л2)...................................... 70

2.4.4. Циклический (кольцевой) список................................................ 71

2.5. Реализация списков с выделенным текущим элементом.............. 72

2.5.1. Однонаправленные списки........................................................... 73

2.5.2. Двусвязные списки.......................................................................... 81

2.5.3. Кольцевые списки............................................................................ 83

2.5.4. Примеры программ, использующих списки............................. 83

2.6. Рекурсивная обработка линейных списков..................................... 85

2.6.1. Модель списка при рекурсивном подходе............................... 85

2.6.2. Реализация линейного списка при рекурсивном подходе... 88

3. Иерархические структуры данных............................................................ 92

3.1. Иерархические списки........................................................................... 92

3.1.1 Иерархические списки как АТД................................................... 92

3.1.2. Реализация иерархических списков........................................... 97

3.2. Деревья и леса........................................................................................ 100

3.2.1. Определения................................................................................... 101

3.2. Способы представления деревьев............................................... 102

3.2.3. Терминология деревьев............................................................... 105

3.2.4. Упорядоченные деревья и леса. Связь с иерархическими списками 106

3.3. Бинарные деревья................................................................................. 107

3.3.1. Определение. Представления бинарных деревьев.............. 107

3.3.2. Математические свойства бинарных деревьев.................... 109

3.4. Соответствие между упорядоченным лесом и бинарным деревом.... 112

3.5. Бинарные деревья как АТД.. Ошибка! Закладка не определена.

3.6. Ссылочная реализация бинарных деревьев.................................. 118

3.6.1. Ссылочная реализация бинарного дерева на основе указателей 120

3.6.2. Ссылочная реализация на основе массива........................... 121

3.6.3. Пример — построение дерева турнира.................................. 124

3.7. Обходы бинарных деревьев и леса.................................................. 126

3.7.1. Понятие обхода. Виды обходов................................................ 126

3.7.2. Рекурсивные функции обхода бинарных деревьев............. 128

3.7.3. Нерекурсивные функции обхода бинарных деревьев........ 131

3.7.4. Обходы леса................................................................................... 136

3.7.5. Прошитые деревья........................................................................ 137

3.8. Применения деревьев........................................................................... 139

3.8.1. Дерево-формула.............. Ошибка! Закладка не определена.

3.8.2. Задача сжатия информации. Коды Хаффмана..................... 140

4. Сортировка и родственные задачи.......................................................... 149

4.1. Общие сведения..................................................................................... 149

4.1.1. Постановка задачи....................................................................... 149

4.1.2. Характеристики и классификация алгоритмов сортировки 150

4.2. Простые методы сортировки............................................................. 153

4.2.1. Сортировка выбором................................................................... 153

4.2.2. Сортировка алгоритмом пузырька.......................................... 154

4.2.3.Сортировка простыми вставками.............................................. 156

4.3. Быстрые способы сортировки, основанные на сравнении....... 157

4.3.1. Сортировка упорядоченным бинарным деревом Ошибка! Закладка не определена.

Анализ алгоритма сортировки бинарным деревом поиска Ошибка! Закладка не определена.

4.3.2. Пирамидальная сортировка....................................................... 158

Первая фаза сортировки пирамидой.................................................. 159

Вторая фаза сортировки пирамидой.................................................. 161

Анализ алгоритма сортировки пирамидой....................................... 162

Реализация очереди с приоритетами на базе пирамиды.............. 163

4.3.2. Сортировка слиянием.................................................................. 164

Анализ алгоритма сортировки слиянием.......................................... 166

4.3.3. Быстрая сортировка Хоара........................................................ 166

Анализ алгоритма быстрой сортировки............................................ 169

4.3.4. Сортировка Шелла....................................................................... 170

4.3.5. Нижняя оценка для алгоритмов сортировки, основанных на сравнениях 173

4.4. Сортировка за линейное время......................................................... 174

4.4.1. Сортировка подсчетом................................................................ 175

4.4.2. Распределяющая сортировка от младшего разряда к старшему 177

4.4.3. Распределяющая сортировка от старшего разряда к младшему 178

5. Структуры и алгоритмы для поиска данных........................................ 180

5.1. Общие сведения..................................................................................... 180

5.1.1. Постановка задачи поиска......................................................... 180

5.1.2. Структуры для поддержки поиска........................................... 182

5.1.3. Соглашения по программному интерфейсу.......................... 183

5.2. Последовательный (линейный) поиск............................................. 184

5.3. Бинарный поиск в упорядоченном массиве.................................. 186

5.4. Бинарные деревья поиска................................................................... 188

5.4.1. Анализ алгоритмов поиска, вставки и удаления.................. 189

5.4.3. Реализация бинарного дерева поиска..................................... 193

5.5. Сбалансированные деревья............................................................... 198

5.5.1. АВЛ-деревья................................................................................... 199

5.5.3. Рандомизированные деревья поиска....................................... 218

5.6. Структуры данных, основанные на хеш-таблицах.................... 222

5.6.2. Выбор хеш-функций и оценка их эффективности................ 226

Модульное хеширование (метод деления)....................................... 226

Мультипликативный метод................................................................... 227

Метод середины квадрата..................................................................... 227

Хеш-функции для строк переменной длины..................................... 228

5.6.2. Метод цепочек............................................................................... 229

5.6.3. Хеширование с открытой адресацией.................................... 231

5.6.4. Пример решения задачи поиска с использованием хеш-таблицы 233

⇐ Предыдущая 32 33 34 35 36 37 38 39 4041

Поделиться с друзьями:

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰)...