Веб-архив. Что это и как им пользоваться?

12.06.2024

Наверняка каждый слышал выражение: «Все, что попадает в интернет, остается там навсегда». Причина этому — веб-архив (web.archive.org). Это виртуальное хранилище информации, которая когда-то была размещена в сети. Wayback Machine «запоминает» все версии сайтов от начала их создания, если веб-мастер не установил специальный запрет на сохранение данных.

В статье расскажем о возможностях виртуального архива и как использовать их с пользой для своего вебсайта.

Содержание:

Что такое веб-архив и как он работает?
Практическое использование веб-архива
Инструменты веб-архива
Как сохранить текущую версию сайта в веб-архиве
Как запретить добавление сайта в веб-архив?
Как восстановить сайт из веб-архива?
Выводы

Веб-архив

Что такое веб-архив и как он работает?

Веб-архив — это сервис для сбора и хранения копий сайтов. Его еще часто называют машиной времени, с помощью которой можно “вернуться в прошлое” и увидеть, как выглядели сайты 5, 10, 20 лет назад. Web.archive.org — это некоммерческая общедоступная цифровая библиотека, основанная в 1996 году. Заявленная миссия проекта — обеспечить «всеобщий доступ ко всем знаниям». Архив включает в себя информацию о более, чем:

525 млрд страниц;
28 млн книг;
14 млн аудиозаписей;
6 млн видео.

Пользователи могут ввести URL-адрес для просмотра прошлых версий любого сайта, содержащегося в архиве, и взаимодействия с ними, даже если ресурс больше не существует в «живой» сети. С помощью Wayback Machine вы можете увидеть скриншоты сайта, которые сервис делает с некоторой периодичностью.

Практическое использование веб-архива

С помощью веб-архива, пользователи могут:

восстановить свой сайт, если он был взломан или утрачен;
просмотреть контент или устаревшую информацию, которой уже нет на сайте;
проанализировать изменения выбранного ресурса в определенный период времени;
найти уникальную информацию для дальнейшего использования.

Анализ предыдущих версий страниц/сайта

С помощью веб-архива вы можете проанализировать изменения выбранного ресурса в определенный период времени. Для просмотра старых версий сайта перейдите на web.archive.org, укажите адрес домена.

Веб-архив

На экране вы увидите временной отрезок в диапазоне с момента основания сайта по текущий момент. Нажмите на год и выберите желаемую дату. После выбора даты кликните на нее, и Wayback Machine перенесет вас на нужную версию сайта.

Веб-архив

Поиск уникального контента

Если сайт был удален, спустя некоторое время поисковые системы перестают его индексировать. Это значит, что опубликованный ранее текст становится уникальным. Такой контент можно добавлять на рабочий сайт, не опасаясь каких-либо санкций от поисковых систем. Для них основным критерием является уникальность контента на данный момент. Таким образом Web Archive позволит сэкономить и время, и деньги на создание контента. Для этого необходимо узнать список доменов, которые недавно освободились. Перед тем, как добавить текст на сайт, проверьте его на уникальность с помощью соответствующих сервисов.

Восстановление сайта

Если по какой-то причине ваш сайт перестал работать, с помощью веб-архива вы можете попробовать разархивировать его. Восстанавливать отдельно каждую HTML-страницу долго и затруднительно. Для этого воспользуйтесь специальными сервисы для парсинга Wayback Machine, например, Archivarix.

Анализ истории домена перед покупкой

Веб-архив поможет проанализировать прежнее наполнение и тематику домена, а также посмотреть, как она менялась с течением времени. Так, при помощи Wayback Machine вы минимизируете риск покупки домена с плохой репутацией.

Инструменты веб-архива

Как ориентироваться в календаре

Когда вы введете сайт для анализа, веб-архив предложит выбрать дату в календаре. В нем вы увидите заметки разного цвета по датам сохранения:

оранжевый — ошибка клиента;
красный — ошибка сервера:
синий — положительный ответ сервера;
зелёный — редирект.

Веб-архив

Инструмент «Коллекции»

Коллекции — это группы сканирования, которые имеют разные цели или направлены на группы доменов, например, такие как ТOP-домены, страницы с неработающими ссылками или региональные сайты. С помощью этого инструмента можно узнать причину архивации конкретного URL-адреса. Для этого необходимо кликнуть по коллекции, после чего отобразится дополнительная информация о ней.

Веб-архив

Инструмент «Изменения»

Этот инструмент Wayback Machine поможет сравнить две версии сайта. Для этого кликните на раздел «Changes», и веб-архив загрузит все снимки, разделенные по годам.

Веб-архив

Из всплывающего списка выберите два снимка сайта, далее нажмите кнопку сравнения. Например, можно сопоставить версии сайта за 3 года.

Веб-архив

Инструмент «Сводка»

С его помощью вы можете ознакомиться со статистикой. Выбрав нужный интервал времени, вы увидите все графики и таблицы. Например, столбец New URLs говорит о том, какое количество уникальных файлов содержится в архиве.

Веб-архив

Инструмент «Карта сайта»

Для каждого года веб-архив предоставляет визуальную карту сайта в виде диаграммы. Центральный круг — это «корень» сайта, а кольца вокруг него — страницы. Чтобы перейти к архиву нужного URL-адреса, кликните на любую из отдельных станиц.

Веб-архив

Как сохранить текущую версию сайта в веб-архиве

Копии сайтов попадают в Web Archive после сканирования веб-краулера, но сделать это можно и самостоятельно. Для этого на главной странице Wayback Machine нужно найти опцию Save page now, ввести URL-адрес и нажать Save Page. Это действие есть смысл проводить каждый раз перед важными изменениями, которые вносятся на сайт, и после них. В случае потери данных или краша, вы сможете восстановить веб-страницу.

Как запретить добавление сайта в веб-архив?

Запретить добавление ресурса в Wayback Machine необходимо для того, чтобы:

сохранить уникальность контента даже после удаления сайта;
в будущем продать доменное имя и сделать так, чтобы ваш контент не ассоциировался с новым владельцем;
удалить личную информацию в открытом доступе.

Существует несколько способов запретить добавление сайта в web.archive.org.

Обратиться в поддержку веб-архива

Если владелец сайта обращается в поддержку, вся существующая информация о ресурсе будет удалена из архива интернета. Также краулеры не будут сканировать сайт в будущем. Чтобы запросить полное удаление сайта из Wayback Machine, необходимо написать на почту info@archive.org и указать доменное имя в тексте сообщения.

Закрыть доступ с помощью файл robots.txt

С помощью файл robots.txt можно закрыть доступ только для веб-краулеров. Так они прекратят сканировать сайт, и информация о ресурсе в дальнейшем не будет попадать в архив интернета. Однако важно учитывать, что ранее просканированный материал останется в Wayback Machine, и пользователи смогут посмотреть, как сайт выглядел раньше.

Чтобы запретить доступ, необходимо добавить в файл robots.txt следующую директиву:

User-agent: ia_archiver

Disallow: /

User-agent:ia_archiver-web.archive.org

Disallow: /

Файл robots.txt должен быть в корневом каталоге домена. Также веб-краулеры не посещают сайты, которые защищены паролем.

Как восстановить сайт из веб архива?

Вы можете восстановить контент из веб-архива, если ваш сайт был потерян или взломан, а резервная копия отсутствует. Существует несколько вариантов восстановления сайта с помощью Wayback Machine.

Вручную скопировать контент

Веб-архив сайтов не предоставляет услуги по хранению резервных копий и восстановлению ресурсов. Встроенного функционала, позволяющего быстро получить доступ к архиву всего сайта, не существует. Но есть возможность вручную скопировать текст и код страниц, а также сохранить картинки.

Для этого перейдите в Wayback Machine, кликните правой кнопкой мыши и выберите View page source. Скопируйте код и вставьте его в текстовый редактор, где можно сохранить его как HTML-файл.

Скопировать контент с помощью скрипта

Отдельно восстанавливать HTML-страницы сайта — достаточно трудоемкий процесс. Чтобы его упростить и ускорить, используйте специальные скрипты, которые позволяют получить сразу все содержимое сайта.

Самые популярные варианты:

Wayback Machine Scraper
Wayback Scraper
Hartator Wayback Machine Downloader (Ruby)

Восстановить сайт с помощью сторонних сервисов

Есть множество сервисов, которые помогают с восстановлением ресурса из веб-архива. Стоимость услуг будет варьироваться в зависимости от объема работы.

С восстановлением сайта вам могут помочь:

Archivarix
Web Archive Org
Rush Analytics
Wayback Machine Downloader

Первый способ подойдет, если вы хотите скопировать одну или несколько страниц. Второй и третий используют, чтобы скопировать контент всего сайта.

Выводы:

Веб-архив (web.archive.org) — это цифровой архив всего интернета. Ресурс хранит в себе все версии сайта с момента их создания, если владелец не установил запрет на сохранение информации.
С помощью Wayback Machine можно: проанализировать предварительные версии страниц или сайта, найти уникальный контент, восстановить сайт, посмотреть историю домена перед покупкой.
Закрыть доступ веб-архива к сайту можно с помощью файла robots.txt или обратиться в поддержку.
Восстановить сайт с помощью web.archive.org можно в несколько способов: скопировать контент вручную, с помощью скрипта или сторонних сервисов.