Главная » Блог » SEO » Веб-архив. Что это и как им пользоваться?

Веб-архив. Что это и как им пользоваться?

15.09.2022

Катя Лифиренко


Веб-архив (web.archive.org) — это цифровой архив всего интернета. Ресурс хранит в себе все версии сайта начиная с даты их создания, если владелец не установил запрет на сохранение информации. В этой статье мы расскажем о возможностях Wayback Machine и о том, как их применять. 

Содержание: 

  1. Что такое веб-архив и как он работает?
  2. Практическое использование веб-архива
  3. Инструменты веб-архива
  4. Как сохранить текущую версию сайта в веб-архиве
  5. Как запретить добавление сайта в веб-архив?
  6. Как восстановить сайт из веб-архива?
  7. Выводы

Веб-архив



 

Что такое веб-архив и как он работает?

Веб-архив — это сервис для сбора и хранения копий сайтов. Его еще часто называют машиной времени, с помощью которой можно “вернуться в прошлое” и увидеть, как выглядели сайты 5, 10, 20 лет назад.  Web.archive.org это некоммерческая общедоступная цифровая библиотека, основанная в 1996 году. Заявленная миссия проекта — обеспечить «всеобщий доступ ко всем знаниям». Архив включает в себя информацию о более, чем: 

  • 525 млрд страниц;
  • 28 млн книг;
  • 14 млн аудиозаписей;
  • 6 млн видео.

Пользователи могут ввести URL-адрес для просмотра прошлых версий любого сайта, содержащегося в архиве, и взаимодействия с ними, даже если ресурс больше не существует в «живой» сети. С помощью Wayback Machine вы можете увидеть скриншоты сайта, которые сервис делает с некоторой периодичностью.

 

Практическое использование веб-архива

С помощью веб-архива, пользователи могут: 

  • восстановить свой сайт, если он был взломан или утрачен;
  • просмотреть контент или устаревшую информацию, которой уже нет на сайте;
  • проанализировать изменения выбранного ресурса в определенный период времени;
  • найти уникальную информацию для дальнейшего использования.

Анализ предыдущих версий страниц/сайта

С помощью веб-архива вы можете проанализировать изменения выбранного ресурса в определенный период времени. Для просмотра старых версий сайта перейдите на web.archive.org, укажите адрес домена.

Веб-архив

На экране вы увидите временной отрезок в диапазоне с момента основания сайта по текущий момент. Нажмите на год и выберите желаемую дату. После выбора даты кликните на нее, и Wayback Machine перенесет вас на нужную версию сайта.

Веб-архив

Поиск уникального контента 

Если сайт был удален, спустя некоторое время поисковые системы перестают его индексировать. Это значит, что опубликованный ранее текст становится уникальным. Такой контент можно добавлять на рабочий сайт, не опасаясь каких-либо санкций от поисковых систем. Для них основным критерием является уникальность контента на данный момент. Таким образом Web Archive позволит сэкономить и время, и деньги на создание контента. Для этого необходимо узнать список доменов, которые недавно освободились. Перед тем, как добавить текст на сайт, проверьте его на уникальность с помощью соответствующих сервисов. 

Восстановление сайта 

Если по какой-то причине ваш сайт перестал работать, с помощью веб-архива вы можете попробовать разархивировать его. Восстанавливать отдельно каждую HTML-страницу долго и затруднительно. Для этого воспользуйтесь специальными сервисы для парсинга Wayback Machine, например, Archivarix

Анализ истории домена перед покупкой 

Веб-архив поможет проанализировать прежнее наполнение и тематику домена, а также посмотреть, как она менялась с течением времени. Так, при помощи Wayback Machine вы минимизируете риск покупки домена с плохой репутацией.

 

Инструменты веб-архива 

Как ориентироваться в календаре

Когда вы введете сайт для анализа, веб-архив предложит выбрать дату в календаре. В нем вы увидите заметки разного цвета по датам сохранения:

  • оранжевый — ошибка клиента;
  • красный — ошибка сервера:
  • синий — положительный ответ сервера;
  • зелёный — редирект.

 

Веб-архив



Инструмент «Коллекции»

Коллекции — это группы сканирования, которые имеют разные цели или направлены на группы доменов, например, такие как ТOP-домены, страницы с неработающими ссылками или региональные сайты. С помощью этого инструмента можно узнать причину архивации конкретного URL-адреса. Для этого необходимо кликнуть по коллекции, после чего отобразится дополнительная информация о ней.

Веб-архив

Инструмент «Изменения»

Этот инструмент Wayback Machine поможет сравнить две версии сайта. Для этого кликните на раздел «Changes», и веб-архив загрузит все снимки, разделенные по годам. 

Веб-архив

Из всплывающего списка выберите два снимка сайта, далее нажмите кнопку сравнения. Например, можно сопоставить версии сайта за 3 года. 

Веб-архив

Инструмент «Сводка»

С его помощью вы можете ознакомиться со статистикой. Выбрав нужный интервал времени, вы увидите все графики и таблицы. Например, столбец New URLs говорит о том, какое количество уникальных файлов содержится в архиве.

Веб-архив



Инструмент «Карта сайта»

Для каждого года веб-архив предоставляет визуальную карту сайта в виде диаграммы. Центральный круг — это «корень» сайта, а кольца вокруг него — страницы. Чтобы перейти к архиву нужного URL-адреса, кликните на любую из отдельных станиц.

Веб-архив

 

 

Как сохранить текущую версию сайта в веб-архиве

Копии сайтов попадают в Web Archive после сканирования веб-краулера, но сделать это можно и самостоятельно. Для этого на главной странице Wayback Machine нужно найти опцию Save page now, ввести URL-адрес и нажать Save Page. Это действие есть смысл проводить каждый раз перед важными изменениями, которые вносятся на сайт, и после них. В случае потери данных или краша, вы сможете восстановить веб-страницу.

 

Как запретить добавление сайта в веб-архив?

Запретить добавление ресурса в Wayback Machine необходимо для того, чтобы:

  • сохранить уникальность контента даже после удаления сайта;
  • в будущем продать доменное имя и сделать так, чтобы ваш контент не ассоциировался с новым владельцем;
  • удалить личную информацию в открытом доступе.

Существует несколько способов запретить добавление сайта в web.archive.org

  1. Обратиться в поддержку веб-архива

Если владелец сайта обращается в поддержку, вся существующая информация о ресурсе будет удалена из архива интернета. Также краулеры не будут сканировать сайт в будущем. Чтобы запросить полное удаление сайта из Wayback Machine, необходимо написать на почту info@archive.org и указать доменное имя в тексте сообщения.

  1. Закрыть доступ с помощью файл robots.txt

С помощью файл robots.txt можно закрыть доступ только для веб-краулеров. Так они прекратят сканировать сайт, и информация о ресурсе в дальнейшем не будет попадать в архив интернета. Однако важно учитывать, что ранее просканированный материал останется в Wayback Machine, и пользователи смогут посмотреть, как сайт выглядел раньше.

Чтобы запретить доступ, необходимо добавить в файл robots.txt следующую директиву:

User-agent: ia_archiver

Disallow: /

User-agent:ia_archiver-web.archive.org

Disallow: /

Файл robots.txt должен быть в корневом каталоге домена. Также веб-краулеры не посещают сайты, которые защищены паролем.

Как восстановить сайт из веб архива?

Вы можете восстановить контент из веб-архива, если ваш сайт был потерян или взломан, а резервная копия отсутствует. Существует несколько вариантов восстановления сайта с помощью Wayback Machine.

  1. Вручную скопировать контент

Веб-архив сайтов не предоставляет услуги по хранению резервных копий и восстановлению ресурсов. Встроенного функционала, позволяющего быстро получить доступ к архиву всего сайта, не существует. Но есть возможность вручную скопировать текст и код страниц, а также сохранить картинки.

Для этого перейдите в Wayback Machine, кликните правой кнопкой мыши и выберите View page source. Скопируйте код и вставьте его в текстовый редактор, где можно сохранить его как HTML-файл.

  1. Скопировать контент с помощью скрипта

Отдельно восстанавливать HTML-страницы сайта — достаточно трудоемкий процесс. Чтобы его упростить и ускорить, используйте специальные скрипты, которые позволяют получить сразу все содержимое сайта.

Самые популярные варианты:

  • Wayback Machine Scraper
  • Wayback Scraper
  • Hartator Wayback Machine Downloader (Ruby)
  1. Восстановить сайт с помощью сторонних сервисов

Есть множество сервисов, которые помогают с восстановлением ресурса из веб-архива. Стоимость услуг будет варьироваться в зависимости от объема работы.

С восстановлением сайта вам могут помочь:

  • Archivarix
  • Web Archive Org
  • Rush Analytics
  • Wayback Machine Downloader

Первый способ подойдет, если вы хотите скопировать одну или несколько страниц. Второй и третий используют, чтобы скопировать контент всего сайта.

 

Выводы: 

  1. Веб-архив (web.archive.org) — это цифровой архив всего интернета. Ресурс хранит в себе все версии сайта с момента их создания, если владелец не установил запрет на сохранение информации. 
  2. С помощью Wayback Machine можно: проанализировать предварительные версии страниц или сайта, найти уникальный контент, восстановить сайт, посмотреть историю домена перед покупкой. 
  3. Закрыть доступ веб-архива к сайту можно с помощью файла robots.txt или обратиться в поддержку. 
  4. Восстановить сайт с помощью web.archive.org можно в несколько способов: скопировать контент вручную, с помощью скрипта или сторонних сервисов.

Последние материалы рубрики

6 способов связаться со службой поддержки Facebook

Facebook — самая популярная социальная сеть в...

Мониторим конкурентов в Facebook и Instagram. 6 способов для...

Большинство бизнесов в социальных...

12 полезных функций и формул Google Sheets. Как эффективно...

Существует множество инструментов для...

Тренды ASO: ключевые тенденции продвижения приложений в 2024 году

Тренды ASO: ключевые тенденции продвижения приложений в 2024...

В App Store размещено более 2 миллионов приложений. Эти данные свидетельствуют о высокой конкурентности среды мобильных программ, в...

Остались вопросы?
Наши эксперты готовы ответить на них

Свяжитесь по указанному ниже телефону с нашим менеджером или воспользуйтесь услугой «Перезвонить мне». Мы свяжемся с вами в ближайшее время.

Команда Webpromo реализовывает все задачи, достигая лучших КРІ
Рекомендую Webpromo как надежных партнеров
Кратно выросли показатели прироста органического трафика
Середи многих мы выбрали Webpromo
Каждый участник — мастер своего дела
Ценю Webpromo за гибкость
Команда Webpromo - это как продолжение нашего отдела маркетинга
Спокоен за продвижение своих проектов в интернете

Мы используем cookie-файлы для предоставления вам наиболее актуальной информации.

Продолжая использовать сайт, Вы соглашаетесь с использованием cookie-файлов.