Новости
- Що таке Web Archive і чим він корисний?
- Як відновити адреси сторінок за допомогою Web Archive
- Як вивантажувати URL-адреси c допомогою Netpeak Spider
- Як вивантажувати URL-адреси c допомогою Web Scraper
- Як вивантажувати URL-адреси вручну
- Готуємо URL-адреси для проставляння редиректів
- висновок
Якщо у відкритому доступі існує база чого-небудь, SEO-фахівець повинен придумати, як її використовувати в роботі. Тим більше, якщо мова про найбільшому сховищі копій сайтів.
Але спочатку розберемося:
Що таке Web Archive і чим він корисний?
Архів інтернету - некомерційна організація, заснована Брюстером Кейлом в 1996 році в Сан-Франциско. Сервіс збирає копії веб-сторінок, графічні матеріали, відео-, аудіозаписи та програмне забезпечення, забезпечуючи зібраними матеріалами довгострокове архівування та безкоштовний доступ до даних.
По-справжньому доступними для широкої публіки збережені матеріали стали в 2001 році, коли був запущений сайт Wayback Machine . Контент сайтів періодично фіксується c допомогою бота веб-архіву. Також користувачі можуть вручну вказати адресу сторінки для створення її копії.
Сервіс дозволяє простежити історію змін будь-якого ресурсу. Наприклад, можна виявити причини будь-яких відхилень у аналітиці, трафіку або поведінкових показниках сайту. Тобто перевірити метатеги, тексти, розташування кнопок замовлення і так далі. Можна подивитися старий варіант дизайну свого сайту або скопіювати дизайн будь-якого «мертвого» сайту.
Також з мертвих ресурсів запозичують контент, який може добре ранжуватися. Багато інтернет-архів тільки так і використовують. Причому настільки часто, що вивантажені тексти обов'язково слід перевіряти на унікальність.
А ще Web Archive буде практично єдиною можливістю відновити сайт, якщо ви не робили бекап.
Втім, в пошуковій оптимізації інтернет-магазинів ми використовуємо інтернет-архів з іншою метою - для відновлення URL-адрес категорій та інших важливих сторінок. Справа в тому, що власники сайтів або менеджери, які наповнюють каталог інтернет-магазину, не стежать за зміною адрес основних сторінок сайту. В результаті вони вилітають з індексу пошукових систем, втрачають накопичене довіру і контрольний вагу.
Як відновити адреси сторінок за допомогою Web Archive
Слід очистити всі посилання від прив'язки до web.archive.org і зробити їх прямими саме для вашого ресурсу. Після цього - налаштувати 301 редіректи зі старих адрес на актуальні. По-перше, пошукові системи при 301 редирект передають практично повністю контрольний вагу зі старих URL. По-друге, користувачі при переході за старими посиланнях будуть в підсумку потрапляти на релевантну сторінку сайту.
Звичайно, можна спробувати витягти сторінки з кеша Яндекса або Гугла, але якщо ресурс недоступний вже дуже давно, то такі мертві посилання відкриваються тільки в archive.org. Правда, і там їх може не виявитися: у ботів веб-архіву обмежені ресурси. Імовірність і частота сканування сайту з маленьким трафіком вкрай низька. Але все-таки спробувати варто.
Алгоритм дій.
Відкриваємо веб-архів і вводимо адресу сайту в рядок пошуку.
Якщо сайт є в веб-архіві, рекомендуємо вибрати кілька копій сайту за різні дати протягом двох років. Для кожної обраної дати робимо вивантаження URL-адрес.
Вивантажуємо адреси за допомогою Netpeak Spider, Web Scraper або вручну.
Як вивантажувати URL-адреси c допомогою Netpeak Spider
вказуємо в Netpeak Spider директорію, яку потрібно сканувати, додатково задаємо правила, наприклад, можливість виключити картки товарів.
Потім скануємо і вивантажуємо таблицю. Проробляємо це для кожної дати.
Важливо: зміна адрес карток товарів доцільно перевіряти в тому випадку, якщо вони приносили істотний трафік.
Якщо вказувати в Netpeak Spider URL-адресу в форматі https://web.archive.org/web/12345678901234/http://domain.com/, в правилах сканування необхідно задати домен сайту, URL якого потрібно отримати, щоб не сканувати весь веб-архів і його службові сторінки:
Отримуємо таблицю:
Як вивантажувати URL-адреси c допомогою Web Scraper
Відкриваємо веб-архів на потрібної дати та консоль розробника на тій сторінці, де в коді є всі потрібні URL-адреси. Наприклад, каталог або карта сайту.
Задаємо назву і початковий URL для сканування:
Додаємо новий селектор:
Для селектора задаємо будь-яку назву (Id), вибираємо тип селектора (Type) - Link, натискаємо «Select» і відзначаємо на сайті всі необхідні категорії. При виборі більше двох посилань автоматично формується загальний селектор.
Важливо: для URL різних рівнів (наприклад, категорій та їх підкатегорій) необхідно створювати окремі селектори.
Натискаємо «Done selecting» і «Save selector». Коли всі необхідні селектори створені, запускаємо Web Scraper :
Вивантажуємо або копіюємо отриману таблицю:
Web Scraper дозволяє вивантажити URL тільки категорій, навіть якщо в URL немає загальної частини.
Як вивантажувати URL-адреси вручну
Відкриваємо вихідний код сторінки веб-архіву, знаходимо код з посиланнями на сторінки самого сайту в форматі https://web.archive.org/web/*/http://domain.com/url, копіюємо і очищаємо від зайвого коду за допомогою регулярних виразів в Notepad ++:
- прибираємо всі прогалини в скопійованому коді за допомогою виразу «\ s»;
- всі URL розміщуємо на початку нового рядка за допомогою заміни https://web.archive.org/web/*/ на регулярний вираз «\ n»;
- всі символи після лапки видаляємо (замінюємо «". * »на порожній рядок).
Після отримання списку URL в форматі https://web.archive.org/web/*/http://domain.com/url простою заміною або за допомогою регулярних виразів наводимо його до виду http://domain.com/url.
Готуємо URL-адреси для проставляння редиректів
Завантажуємо в Netpeak Spider отриману базу і скануємо код відповіді сервера. Якщо сторінка віддає код 200 або редирект на сторінку з кодом 200, все добре і з цими URL-адресами нічого робити не потрібно.
Сторінки з кодом 404 виділяємо окремо, перевіряємо при цьому, щоб всі URL-адреси в цьому списку були унікальними. Особливо це актуально, якщо вивантажувалися URL-адреси для кількох дат.
Якщо на поточній версії сайту не міняли заголовки Н1, можна вивантажити список необхідних адрес сторінок з Н1 і зіставити два списки за допомогою простої функції VLOOKUP в таблицях Google.
Готовий список для настройки редиректів зі старих URL-адрес на нові відправляємо програмісту.
висновок
Часто трафік просідає через вилучення важливих сторінок або зміни URL-адрес. Аналіз даних веб-архіву не займе багато часу, але дозволить зберегти або відновити відвідуваність.
Алгоритм простий:
- Знаходимо сайт в Web Archive.
- Вибираємо кілька копій сайту за різні дати протягом двох років.
- Вивантажуємо адреси за допомогою Netpeak Spider, Web Scraper або вручну.
- Готуємо базу URL-адрес для проставляння редиректів.
- Віддаємо програмісту список для проставляння редиректів зі старих адрес на нові.