Як відновити трафік на website інтернет-магазину за допомогою Web Archive

Що таке Web Archive і чим він корисний?
Як відновити адреси сторінок за допомогою Web Archive
Як вивантажувати URL-адреси c допомогою Netpeak Spider
Як вивантажувати URL-адреси c допомогою Web Scraper
Як вивантажувати URL-адреси вручну
Готуємо URL-адреси для проставляння редиректів
висновок

Якщо у відкритому доступі існує база чого-небудь, SEO-фахівець повинен придумати, як її використовувати в роботі. Тим більше, якщо мова про найбільшому сховищі копій сайтів.

Але спочатку розберемося:

Що таке Web Archive і чим він корисний?

Архів інтернету - некомерційна організація, заснована Брюстером Кейлом в 1996 році в Сан-Франциско. Сервіс збирає копії веб-сторінок, графічні матеріали, відео-, аудіозаписи та програмне забезпечення, забезпечуючи зібраними матеріалами довгострокове архівування та безкоштовний доступ до даних.
По-справжньому доступними для широкої публіки збережені матеріали стали в 2001 році, коли був запущений сайт Wayback Machine . Контент сайтів періодично фіксується c допомогою бота веб-архіву. Також користувачі можуть вручну вказати адресу сторінки для створення її копії.

Сервіс дозволяє простежити історію змін будь-якого ресурсу. Наприклад, можна виявити причини будь-яких відхилень у аналітиці, трафіку або поведінкових показниках сайту. Тобто перевірити метатеги, тексти, розташування кнопок замовлення і так далі. Можна подивитися старий варіант дизайну свого сайту або скопіювати дизайн будь-якого «мертвого» сайту.

Також з мертвих ресурсів запозичують контент, який може добре ранжуватися. Багато інтернет-архів тільки так і використовують. Причому настільки часто, що вивантажені тексти обов'язково слід перевіряти на унікальність.

А ще Web Archive буде практично єдиною можливістю відновити сайт, якщо ви не робили бекап.

Втім, в пошуковій оптимізації інтернет-магазинів ми використовуємо інтернет-архів з іншою метою - для відновлення URL-адрес категорій та інших важливих сторінок. Справа в тому, що власники сайтів або менеджери, які наповнюють каталог інтернет-магазину, не стежать за зміною адрес основних сторінок сайту. В результаті вони вилітають з індексу пошукових систем, втрачають накопичене довіру і контрольний вагу.

Як відновити адреси сторінок за допомогою Web Archive

Слід очистити всі посилання від прив'язки до web.archive.org і зробити їх прямими саме для вашого ресурсу. Після цього - налаштувати 301 редіректи зі старих адрес на актуальні. По-перше, пошукові системи при 301 редирект передають практично повністю контрольний вагу зі старих URL. По-друге, користувачі при переході за старими посиланнях будуть в підсумку потрапляти на релевантну сторінку сайту.

Звичайно, можна спробувати витягти сторінки з кеша Яндекса або Гугла, але якщо ресурс недоступний вже дуже давно, то такі мертві посилання відкриваються тільки в archive.org. Правда, і там їх може не виявитися: у ботів веб-архіву обмежені ресурси. Імовірність і частота сканування сайту з маленьким трафіком вкрай низька. Але все-таки спробувати варто.

Алгоритм дій.

Відкриваємо веб-архів і вводимо адресу сайту в рядок пошуку.

Відкриваємо веб-архів і вводимо адресу сайту в рядок пошуку

Якщо сайт є в веб-архіві, рекомендуємо вибрати кілька копій сайту за різні дати протягом двох років. Для кожної обраної дати робимо вивантаження URL-адрес.

Для кожної обраної дати робимо вивантаження URL-адрес

Вивантажуємо адреси за допомогою Netpeak Spider, Web Scraper або вручну.

Як вивантажувати URL-адреси c допомогою Netpeak Spider

вказуємо в Netpeak Spider директорію, яку потрібно сканувати, додатково задаємо правила, наприклад, можливість виключити картки товарів.

Потім скануємо і вивантажуємо таблицю. Проробляємо це для кожної дати.

Важливо: зміна адрес карток товарів доцільно перевіряти в тому випадку, якщо вони приносили істотний трафік.

Якщо вказувати в Netpeak Spider URL-адресу в форматі https://web.archive.org/web/12345678901234/http://domain.com/, в правилах сканування необхідно задати домен сайту, URL якого потрібно отримати, щоб не сканувати весь веб-архів і його службові сторінки:

Отримуємо таблицю:

Як вивантажувати URL-адреси c допомогою Web Scraper

Відкриваємо веб-архів на потрібної дати та консоль розробника на тій сторінці, де в коді є всі потрібні URL-адреси. Наприклад, каталог або карта сайту.

Задаємо назву і початковий URL для сканування:

Додаємо новий селектор:

Для селектора задаємо будь-яку назву (Id), вибираємо тип селектора (Type) - Link, натискаємо «Select» і відзначаємо на сайті всі необхідні категорії. При виборі більше двох посилань автоматично формується загальний селектор.

Важливо: для URL різних рівнів (наприклад, категорій та їх підкатегорій) необхідно створювати окремі селектори.

Важливо: для URL різних рівнів (наприклад, категорій та їх підкатегорій) необхідно створювати окремі селектори

Натискаємо «Done selecting» і «Save selector». Коли всі необхідні селектори створені, запускаємо Web Scraper :

Коли всі необхідні селектори створені, запускаємо Web Scraper :

Вивантажуємо або копіюємо отриману таблицю:

Web Scraper дозволяє вивантажити URL тільки категорій, навіть якщо в URL немає загальної частини.

Як вивантажувати URL-адреси вручну

Відкриваємо вихідний код сторінки веб-архіву, знаходимо код з посиланнями на сторінки самого сайту в форматі https://web.archive.org/web/*/http://domain.com/url, копіюємо і очищаємо від зайвого коду за допомогою регулярних виразів в Notepad ++:

прибираємо всі прогалини в скопійованому коді за допомогою виразу «\ s»;
всі URL розміщуємо на початку нового рядка за допомогою заміни https://web.archive.org/web/*/ на регулярний вираз «\ n»;
всі символи після лапки видаляємо (замінюємо «". * »на порожній рядок).

Після отримання списку URL в форматі https://web.archive.org/web/*/http://domain.com/url простою заміною або за допомогою регулярних виразів наводимо його до виду http://domain.com/url.

Готуємо URL-адреси для проставляння редиректів

Завантажуємо в Netpeak Spider отриману базу і скануємо код відповіді сервера. Якщо сторінка віддає код 200 або редирект на сторінку з кодом 200, все добре і з цими URL-адресами нічого робити не потрібно.

Сторінки з кодом 404 виділяємо окремо, перевіряємо при цьому, щоб всі URL-адреси в цьому списку були унікальними. Особливо це актуально, якщо вивантажувалися URL-адреси для кількох дат.

Особливо це актуально, якщо вивантажувалися URL-адреси для кількох дат

Якщо на поточній версії сайту не міняли заголовки Н1, можна вивантажити список необхідних адрес сторінок з Н1 і зіставити два списки за допомогою простої функції VLOOKUP в таблицях Google.

Готовий список для настройки редиректів зі старих URL-адрес на нові відправляємо програмісту.

висновок

Часто трафік просідає через вилучення важливих сторінок або зміни URL-адрес. Аналіз даних веб-архіву не займе багато часу, але дозволить зберегти або відновити відвідуваність.

Алгоритм простий:

Знаходимо сайт в Web Archive.
Вибираємо кілька копій сайту за різні дати протягом двох років.
Вивантажуємо адреси за допомогою Netpeak Spider, Web Scraper або вручну.
Готуємо базу URL-адрес для проставляння редиректів.
Віддаємо програмісту список для проставляння редиректів зі старих адрес на нові.

Що таке Web Archive і чим він корисний?

Производственная компания El.Od

Як відновити трафік на website інтернет-магазину за допомогою Web Archive - Netpeak Blog

Що таке Web Archive і чим він корисний?

Як відновити адреси сторінок за допомогою Web Archive

Як вивантажувати URL-адреси c допомогою Netpeak Spider

Як вивантажувати URL-адреси c допомогою Web Scraper

Як вивантажувати URL-адреси вручну

Готуємо URL-адреси для проставляння редиректів

висновок

Как с вами связаться: