3 Оптимізація БД і додатки

3.1 Підтримка бази в порядку
3.1.1 Команда VACUUM
3.1.2 Команда ANALYZE
3.1.3 pg_autovacuum
3.1.4 Команда REINDEX
3.2 Використання індексів
3.2.1 Команда EXPLAIN [ANALYZE]
3.2.2 Використання зібраної статистики
3.2.3 Можливості індексів в PostgreSQL
3.2.3.2 Часткові індекси (partial indexes)
3.2.3.3 Повнотекстовий пошук
3.4 Оптимізація конкретних запитів
3.4.1 SELECT max (...) / min (...) FROM <величезна таблиця>
проблема
Рішення
3.4.2 SELECT count (*) FROM <величезна таблиця>
проблема
Рішення
3.4.3 SELECT ... WHERE ... IN (SELECT ...)
проблема
Рішення
Footnotes

Next: 4 Висновок Up: PostgreSQL: настройка продуктивності Previous: 2 Налаштування сервера
Subsections

Для швидкої роботи кожного запиту в вашій базі в основному зверніть увагу на таке:

Відсутність в базі сміття, що заважає дістатися до актуальних даних. Можна сформулювати дві підзадачі:
- Грамотне проектування бази. Висвітлення цього питання виходить далеко за рамки цієї статті.
- Прибирання сміття, що виникає при роботі СУБД.
Наявність швидких шляхів доступу до даних - індексів.
Можливість використання оптимізатором цих швидких шляхів.
Обхід відомих проблем.

3.1 Підтримка бази в порядку

У цьому розділі містяться дії, які повинні періодично виконуватися для кожної бази. Від розробника потрібно тільки налаштувати їх автоматичне виконання (за допомогою cron) і дослідним шляхом підібрати його оптимальну частоту.

3.1.1 Команда VACUUM

Використовується для «збірки сміття» в базі даних. Починаючи з версії 7.2, існує в двох варіантах:

VACUUM FULL (VACUUM до 7.2) намагається видалити всі старі версії записів і, відповідно, зменшити розмір файлу, що містить таблицю. Цей варіант команди повністю блокує оброблювану таблицю.
VACUUM (починаючи з 7.2) позначає місце, займане старими версіями записів, як вільне (див. Також пункт 2.3 ). Використання цього варіанту команди, як правило, не зменшує розмір файлу, що містить таблицю, але дозволяє не дати йому безконтрольно рости, зафіксувавши на деякому прийнятному рівні. При роботі VACUUM можливий паралельний доступ до оброблюваної таблиці.

При використанні в формі VACUUM [FULL] ANALYZE, після складання сміття буде оновлена статистика по цій таблиці, яка використовується оптимізатором. В абсолютній більшості випадків має сенс використовувати саме цю форму.

Рекомендується досить часте - в [ 7 ] І [ 8 ], Наприклад, раз на кілька хвилин (!) - виконання VACUUM ANALYZE для часто оновлюваних баз (або окремих таблиць). У звичайних випадках досить щоденного 8 виконання цієї команди. При цьому зверніть увагу: якщо «пляшкове горлечко» вашого сервера знаходиться в районі дискової підсистеми, то виконання VACUUM паралельно зі звичайною роботою може вкрай негативно позначитися на продуктивності.

Команду VACUUM FULL варто запускати досить рідко, не частіше разу на тиждень. Її також можна буде запускати вручну для конкретної таблиці після видалення або оновлення великої частини записів в ній.

3.1.2 Команда ANALYZE

Служить для оновлення інформації про розподіл даних в таблиці. Ця інформація використовується оптимізатором для вибору найбільш швидкого плану виконання запиту.

Зазвичай команда використовується в зв'язці VACUUM ANALYZE. Якщо в базі є таблиці, дані в яких не змінюються і не видаляються, а лише додаються, то для таких таблиць можна використовувати окрему команду ANALYZE. Також варто використовувати цю команду для окремої таблиці після додавання в неї великої кількості записів.

3.1.3 pg_autovacuum

Починаючи з версії 7.4, в дистрибутиві PostgreSQL поставляється програма pg_autovacuum, яка відстежує зміни в таблицях і автоматично запускає команди VACUUM і / або ANALYZE для цих таблиць по досягненні певної межі.

Використання цієї програми дозволяє відмовитися від настройки періодичного виконання команд VACUUM і ANALYZE. Більш того, в разі використання pg_autovacuum ресурси не витрачаються даремно на обробку таблиць, які практично не піддавалися змінам.

Для роботи pg_autovacuum повинен бути включений складальник статистики (див. Пункт 2.4.2 ) І включений параметр stats_row_level.

3.1.4 Команда REINDEX

Команда REINDEX використовується для перебудови існуючих індексів. Використовувати її можна буде в разі

псування індексу;
постійного збільшення його розміру.

Другий випадок вимагає пояснень. Індекс, як і таблиця, містить блоки зі старими версіями записів. PostgreSQL не завжди може заново використовувати ці блоки 9 , І тому файл з індексом поступово збільшується в розмірах. Якщо дані в таблиці часто змінюються, то рости він може досить швидко.

Якщо ви помітили подібну поведінку якогось індексу, то варто налаштувати для нього періодичне виконання команди REINDEX. Врахуйте: команда REINDEX, як і VACUUM FULL, повністю блокує таблицю, тому виконувати її треба тоді, коли завантаження сервера мінімальна.

3.2 Використання індексів

Досвід показує, що найбільш значні проблеми з продуктивністю викликаються відсутністю потрібних індексів. Тому зіткнувшись з повільним запитом, в першу чергу перевірте, чи існують індекси, які він може використовувати. Якщо немає - побудуйте їх.

Надлишок індексів, втім, теж загрожує проблемами:

Команди, які змінюють дані в таблиці, повинні змінити також і індекси. Очевидно, чим більше індексів побудовано для таблиці, тим повільніше це буде відбуватися.
Оптимізатор перебирає можливі шляхи виконання запитів. Якщо побудовано багато непотрібних індексів, то цей перебір буде йти довше.

Єдине, що можна сказати з великим ступенем визначеності - поля, що є зовн ключами, і поля, за якими об'єднуються таблиці, індексувати треба обов'язково.

3.2.1 Команда EXPLAIN [ANALYZE]

Команда EXPLAIN [запит] показує, яким чином PostgreSQL збирається виконувати ваш запит. Команда EXPLAIN ANALYZE [запит] виконує запит 10 і показує як початковий план, так і реальний процес його виконання.

Читання виведення цих команд - мистецтво, яке приходить з досвідом. Для початку звертайте увагу на наступне:

Використання повного перегляду таблиці (seq scan).
Використання найбільш примітивного способу об'єднання таблиць (nested loop).
Для EXPLAIN ANALYZE: чи немає великих відмінностей в передбачувану кількість записів і реально обраному? Якщо оптимізатор використовує застарілу статистику, то він може вибирати не найшвидший план виконання запиту.

Слід зазначити, що повний перегляд таблиці далеко не завжди повільніше перегляду за індексом. Якщо, наприклад, в таблиці-довіднику кілька сотень записів, що вміщується в одному-двох блоках на диску, то використання індексу призведе лише до того, що доведеться читати ще й пару зайвих блоків індексу. Якщо в запиті доведеться вибрати 80% записів з великої таблиці, то повний перегляд знову ж вийде швидше.

При тестуванні запитів з використанням EXPLAIN ANALYZE можна скористатися налаштуваннями, які забороняють оптимізатора використовувати певні плани виконання. наприклад,

SET enable_seqscan = false; заборонить використання повного перегляду таблиці, і ви зможете з'ясувати, чи правий був оптимізатор, відмовляючись від використання індексу. Ні в якому разі не слід прописувати подібні команди в postgresql.conf! Це може прискорити виконання декількох запитів, але сильно уповільнить всі інші!

3.2.2 Використання зібраної статистики

Результати роботи збирача статистики (див. Пункт 2.4.2 ) Доступні через спеціальні системні уявлення. Найцікавіші для наших цілей наступні:

pg_stat_user_tables

містить - для кожної користувальницької таблиці в поточній базі даних - загальна кількість повних переглядів і переглядів з використанням індексів, загальні кількості записів, які були повернуті в результаті обох типів перегляду, а також загальну кількість вставлених, змінених і віддалених записів. pg_stat_user_indexes містить - для кожного користувача індексу в поточній базі даних - загальна кількість переглядів, які використовували цей індекс, кількість прочитаних записів, кількість успішно прочитаних записів в таблиці (може бути менше попереднього значення, якщо в індексі є записи, що вказують на застарілі записи в таблиці). pg_statio_user_tables містить - для кожної користувальницької таблиці в поточній базі даних - загальна кількість блоків, прочитаних з таблиці, кількість блоків, які опинилися при цьому в буфері (див. пункт 2.1.1 ), А також аналогічну статистику для всіх індексів по таблиці і, можливо, по пов'язаної з нею таблицею TOAST. З цих уявлень можна дізнатися, зокрема

Для яких таблиць варто створити нові індекси (індикатором служить велика кількість повних переглядів і велика кількість прочитаних блоків).
Які індекси взагалі не використовуються в запитах. Їх має сенс видалити, якщо, звичайно, мова не йде про індекси, які забезпечують виконання обмежень PRIMARY KEY і UNIQUE.
Чи достатній обсяг буфера сервера.

Також можливий «дедуктивний» підхід, при якому спочатку створюється велика кількість індексів, а потім невикористовувані індекси видаляються.

3.2.3 Можливості індексів в PostgreSQL

3.4 Оптимізація конкретних запитів

У цьому розділі описуються запити, для яких з різних причин не може бути примушений оптимізатор використовувати індекси, і які будуть завжди викликати повний перегляд таблиці. Таким чином, якщо вам потрібно використовувати ці запити в вимогливому до швидкодії додатку, то доведеться їх змінити.