10 сент. 2010 г.

Быстрая сортировка

Быстрая сортировка

Быстрая сортировка (англ. quicksort), часто называемая qsort по имени реализации в стандартной библиотеке языка Си — широко известный алгоритм сортировки, разработанный английским информатиком Чарльзом Хоаром. Один из быстрых известных универсальных алгоритмов сортировки массивов (в среднем O(n log n) обменов при упорядочении n элементов), хотя и имеющий ряд недостатков.

Алгоритм

Быстрая сортировка использует стратегию «разделяй и властвуй». Шаги алгоритма таковы:
  1. Выбираем в массиве некоторый элемент, который будем называть опорным элементом. С точки зрения корректности алгоритма выбор опорного элемента безразличен. С точки зрения повышения эффективности алгоритма выбираться должна медиана, но без дополнительных сведений о сортируемых данных её обычно невозможно получить. Известные стратегии: выбирать постоянно один и тот же элемент, например, средний или последний по положению; выбирать элемент со случайно выбранным индексом.
  2. Операция разделения массива: реорганизуем массив таким образом, чтобы все элементы, меньшие или равные опорному элементу, оказались слева от него, а все элементы, большие опорного — справа от него. Обычный алгоритм операции:
    • Два индекса — l и r, приравниваются к минимальному и максимальному индексу разделяемого массива соответственно.
    • Вычисляется индекс опорного элемента m.
    • Индекс l последовательно увеличивается до m до тех пор, пока l-й элемент не превысит опорный.
    • Индекс r последовательно уменьшается до m до тех пор, пока r-й элемент не окажется меньше опорного.
    • Если r = l — найдена середина массива — операция разделения закончена, оба индекса указывают на опорный элемент.
    • Если l < r — найденную пару элементов нужно обменять местами и продолжить операцию разделения с тех значений l и r, которые были достигнуты. Следует учесть, что если какая-либо граница (l или r) дошла до опорного элемента, то при обмене значение m изменяется на r-й или l-й элемент соответственно.
  3. Рекурсивно упорядочиваем подмассивы, лежащие слева и справа от опорного элемента.
  4. Базой рекурсии являются наборы, состоящие из одного или двух элементов. Первый возвращается в исходном виде, во втором, при необходимости, сортировка сводится к перестановке двух элементов. Все такие отрезки уже упорядочены в процессе разделения.

Пример быстрой сортировки


Быстрая сортировка

Реализация быстрой сортировки на С++

01//Быстрая сортировка
02int n, a[n]; //n - количество элементов
03void qs(int* s_arr,int first, int last)
04{
05    int temp;
06    int i = first, j = last, x = s_arr[(first + last) / 2];
07     do {
08        while (s_arr[i]  x) j--;
09  
10        if(i <= j) {
11            if (i < j)
12            {
13               temp = s_arr[i];
14               s_arr[i]=s_arr[j];
15               s_arr[j]=temp;
16             }
17            i++;
18            j--;
19        }
20    while (i <= j);
21     if (i < last)
22        qs(s_arr,i, last);
23    if (first < j)
24        qs(s_arr,first,j);
25}
26//Исходный вызов функции qs для массива из n элементов будет
27//иметь следующий вид.
28//qs(a,0,n-1);
29/******************/

Достоинства и недостатки

Достоинства:
  • Один из самых быстродействующих (на практике) из алгоритмов внутренней сортировки общего назначения.
  • Прост в реализации.(За первые 3 года после публикации математического алгоритма он так и не был реализован на ЭВМ ни разу).
  • Требует лишь O(logn) дополнительной памяти для своей работы.
  • Хорошо сочетается с механизмами кэширования и виртуальной памяти.
  • Существует эффективная модификация (алгоритм Седжвика) для сортировки строк — сначала сравнение с опорным элементом только по нулевому символу строки, далее применение аналогичной сортировки для «большего» и «меньшего» массивов тоже по нулевому символу, и для «равного» массива по уже первому символу.
Недостатки:
  • Сильно деградирует по скорости (до Θ(n2)) при неудачных выборах опорных элементов, что может случиться при неудачных входных данных. Этого можно избежать, используя такие модификации алгоритма, как Introsort, или вероятностно, выбирая опорный элемент случайно, а не фиксированным образом.
  • Наивная реализация алгоритма может привести к ошибке переполнения стека, так как ей может потребоваться сделать O(n) вложенных рекурсивных вызовов. В улучшенных реализациях, в которых рекурсивный вызов происходит только для сортировки бо́льшей из двух частей массива, глубина рекурсии гарантированно не превысит O(logn).
  • Неустойчив — если требуется устойчивость, приходится расширять ключ.

Вывод по быстрой сортировке

При выборе опорного элемента из данного диапазона случайным образом худший случай становится очень маловероятным и ожидаемое время выполнения алгоритма сортировки — O(n log n).
Во избежание достижения опасной глубины рекурсии в худшем случае (или при приближении к нему) возможна модификация алгоритма, устраняющая одну ветвь рекурсии: вместо того, чтобы после разделения массива вызывать рекурсивно процедуру разделения для обоих найденных подмассивов, рекурсивный вызов делается только для меньшего подмассива, а больший обрабатывается в цикле в пределах этого же вызова процедуры.
С точки зрения эффективности в среднем случае разницы практически нет: накладные расходы на дополнительный рекурсивный вызов и на организацию сравнения длин подмассивов и цикла — примерно одного порядка. Зато глубина рекурсии ни при каких обстоятельствах не превысит log2n, а в худшем случае она вообще будет не более 2 — вся обработка пройдёт в цикле первого уровня рекурсии.