Веб-архив. Что это и как им пользоваться?
15.09.2022
Веб-архив (web.archive.org) — это цифровой архив всего интернета. Ресурс хранит в себе все версии сайта начиная с даты их создания, если владелец не установил запрет на сохранение информации. В этой статье мы расскажем о возможностях веб-архива и о том, как их применять.
Содержание:
- Что такое веб-архив и как он работает?
- Практическое использование веб-архива
- Инструменты веб-архива
- Как запретить добавление сайта в веб-архив?
- Как восстановить сайт из веб-архива?
- Выводы
Что такое веб-архив и как он работает?
Веб-архив — это сервис для сбора и хранения копий сайтов. Его еще часто называют машиной времени, с помощью которой можно вернуться в прошлое и увидеть, как выглядели сайты 5, 10, 20 лет назад. Web.archive.org — это некоммерческая общедоступная цифровая библиотека, основанная в 1996 году. Их заявленная миссия — обеспечить «всеобщий доступ ко всем знаниям». Архив включает в себя информацию о более, чем:
- 525 миллиардов страниц;
- 28 млн книг;
- 14 млн аудиозаписей;
- 6 млн видео.
Пользователи могут ввести URL-адрес для просмотра и взаимодействия с прошлыми версиями любого сайта, содержащегося в архиве, даже если сайт больше не существует в «живой» сети. С помощью веб-архива вы можете увидеть скриншоты сайта, которые сервис делает с некоторой периодичностью.
Практическое использование веб-архива
С помощью веб-архива, пользователи могут:
- восстановить свой сайт, если он был взломан или утрачен;
- просмотреть контент или устаревшую информацию, которой уже нет на сайте;
- проанализировать изменения выбранного ресурса в определенный период времени;
- найти уникальную информацию для дальнейшего использования;
Анализ предыдущих версий страниц/сайта
С помощью веб-архива, вы можете проанализировать изменения выбранного ресурса в определенный период времени. Для просмотра старых версий сайта перейдите на web.archive.org, укажите адрес домена:
На экране вы увидите временной отрезок в диапазоне с момента основания сайта по текущий момент. Нажмите на год и выберите желаемую дату. После выбора даты кликнете на нее и перейдите на нужную версию сайта:
Поиск уникального контента
После того как сайты были удалены, спустя некоторое время поисковые системы перестают их индексировать. Это значит, что опубликованный ранее текст становиться уникальным. Такой контент можно добавлять на сайт, не опасаясь каких-либо санкций от поисковых систем. Для них основным является уникальность контента на данный момент. Таким образом вы экономите и время, и деньги на создание контента. Для этого необходимо узнать список доменов, которые недавно освободились. Перед тем, как добавить текст на сайт проверьте его на уникальность с помощью соответствующих сервисов.
Восстановление сайта
Если по какой-то причине ваш сайт перестал работать, с помощью веб-архива вы можете попробовать разархивировать его. Восстанавливать отдельно каждую HTML-страницу долго и затруднительно. Для этого воспользуйтесь специальными сервисы для парсинга веб-архива, например, Archivarix.
Анализ истории домена перед покупкой
Веб-архив поможет проанализировать прежнее наполнение и тематику домена, а также посмотреть как она менялась с течением времени. Это минимизирует риск покупки домена с плохой репутацией.
Инструменты веб-архива
Как ориентироваться в календаре
Когда вы введете сайт для анализа, веб-архив предложит выбрать дату в календаре. В нем вы увидите заметки разного цвета по датам сохранения:
- оранжевый — ошибка клиента;
- красный — ошибка сервера:
- синий — положительный ответ сервера;
- зелёный — редирект.
Инструмент «Коллекции»
Коллекции — это группы сканирования, которые имеют разные цели или направленные на группы доменов. Такие, как ТOP-домены, страницы с неработающими ссылками или региональные сайты. С помощью этого инструмента можно узнать причину архивации конкретного URL-адреса. Для этого необходимо кликнуть по коллекции, после чего отобразиться дополнительная информация о ней.
Инструмент «Изменения»
Этот инструмент поможет сравнить две версии сайта. Для этого кликните на раздел «Changes» и веб-архив загрузит все снимки, разделенные по годам.
Из всплывающего списка выберите два снимка сайта, далее нажмите кнопку сравнения. Например, можно сопоставить версии сайта за 3 года.
Инструмент «Сводка»
С помощью этого инструмента вы можете ознакомиться со статистикой. Выбрав нужный интервал времени, вы увидите все графики и таблицы. Например, столбец New URLs говорит о том, какое количество уникальных файлов содержится в архиве.
Инструмент «Карта сайта»
Для каждого года веб-архив предоставляет визуальную карту сайта в виде диаграммы. Центральный круг — это «корень» сайта, а кольца вокруг него — страницы. Чтобы перейти к архиву нужного URL-адреса кликните на любую из отдельных станиц.
Как запретить добавление сайта в веб-архив?
Запретить добавление ресурса в Wayback Machine необходимо для того, чтобы:
- сохранить уникальностью контента даже после удаления сайта;
- в будущем продать доменное имя и сделать так, чтобы ваш контент не ассоциировался с новым владельцем;
- удалить личную информацию в открытом доступе.
Существует несколько способов запретить добавление сайта в web.archive.org.
1. Обратиться в поддержку веб-архива
Если владелец сайта обращается в поддержку, вся существующая информация о ресурсе будет удалена из архива интернета. Также краулеры не будут сканировать сайт в будущем. Для того чтобы запросить полное удаление сайта из веб-архива, необходимо написать на почту info@archive.org и указать доменное имя в тексте сообщения
2. Закрыть доступ с помощью файл robots.txt
С помощью файл robots.txt можно закрыть доступ только для веб-краулеров. После чего они не будут сканировать сайт и информация о ресурсе в дальнейшем не будет попадать в архив интернета. Однако важно учитывать, что ранее просканированный материал останеться в Wayback Machine и пользователи смогут посмотреть, как сайт выглядел раньше.
Для запрещения доступа необходимо добавить в файл robots.txt следующую директиву:
User-agent: ia_archiver
Disallow: /
User-agent: ia_archiver-web.archive.org
Disallow: /
Файл robots.txt должен быть в корневом каталоге домена. Также вебкраулеры не посещают сайты, которые защищенные паролем.
Как восстановить сайт из веб архива?
Вы можете восстановить контент из веб-архива если ваш сайт был потерян или взломан, а резервная копия отсутствуете. Существует несколько вариантов восстановления сайта с помощью веб-архива
1. Вручную скопировать контент
Веб-архив сайтов не предоставляет услуги по хранению резервных копий и восстановлению ресурсов. Встроенного функционала, позволяющего быстро получить доступ к архиву всего сайта, не существует. Но есть возможность вручную скопировать текст и код страниц, а также сохранить картинки.
Для этого перейдите в Wayback Machine, кликните правой кнопкой мыши и выберите View page source. Скопируйте код и вставьте его в текстовый редактор, где можно сохранить его как HTML-файл.
2. Скопировать контент с помощью скрипта
Отдельно восстанавливать HTML-страницы сайта достаточно трудоемкий процесс. Для того чтобы его упростить и ускорить используйте специальные скрипты, которые позволяют получить все содержимое сайта сразу.
Самые популярные варианты:
- Wayback Machine Scraper
- Wayback Scraper
- Hartator Wayback Machine Downloader (Ruby)
3. Восстановить сайт с помощью сторонних сервисов
Есть множество сервисов, которые помогают с восстановлением сайта из веб-архива. Стоимость услуг будет варьироваться в зависимости от объема сайта.
С восстановлением сайта вам может помочь:
- Archivarix
- Web Archive Org
- Rush Analytics
- Wayback Machine Downloader
Первый способ подойдет, если вы хотите скопировать одну или несколько страниц. А второй и третий, для того чтобы скопировать контент всего сайта.
Выводы:
- Веб-архив (web.archive.org) — это цифровой архив всего интернета. Ресурс хранит в себе все версии сайта с момента их создания, если владелец не установил запрет на сохранение информации.
- С помощью веб-архива можно: проанализировать предварительные версии страниц или сайта, найти уникальный контент, восстановить сайт, посмотреть историю домена перед покупкой.
- Закрыть доступ веб-архива к сайту можно с помощью файла robots.txt или обратиться в поддержку.
- Восстановить сайт с помощью web.archive.org можно в несколько способов: скопировать контент вручную, с помощью скрипта или сторонних сервисов.