Место, где хранится история интернета, ― веб-архив

Раньше история человечества фиксировалась на картинах, в книгах, письмах и газетах. Эти носители хранятся в картинных галереях, крупных библиотеках и исторических архивах. Сейчас значимые события обязательно появляются на сайтах, видеохостингах и в социальных сетях. Но сайты, как и книги, не вечны. Их удаляют, как только они становятся не нужны. Для сохранения этих данных есть веб-архив. Он доступен всем пользователям в любое время.


Что такое веб-архив и как им пользоваться

Веб-архив (web archive) – это бесплатная электронная библиотека, где вместо книг хранятся сайты. Сервис периодически делает снимки (снэпшоты) веб-ресурсов и сохраняет их. То есть вы всегда сможете увидеть, как выглядел сайт в момент, когда была сделана копия.

Как работает веб-архив? У каждого сайта могут быть сотни сохраненных копий. Частота снимков зависит от популярности веб-ресурса: у страниц с многотысячным трафиком копии могут делаться ежедневно или даже пару раз в день.

Есть несколько веб-архивов, например, archive.md (также он размещен на адресах archive.ph и archive.today), но самым популярным и удобным считается Wayback Machine. Сервис был создан в 1996 году Брюстером Кейлом. И создавался с целью сохранить историю развития интернета. А с 1999 года Wayback Machine стал фиксировать также аудио, видео, иллюстрации и ПО. За почти 30 лет он успел собрать 737 миллиардов страниц, поэтому далее мы будем рассматривать именно этот веб-архив.

Для чего нужен архив сайтов

  1. Для восстановления своего сайта. Никто не застрахован от поломки веб-ресурса. Конечно, лучше настраивать автоматическое резервное копирование. Но если его у вас его всё-таки нет, не беда. Найдите ближайшую версию сайта в веб-архиве и восстановите ее. Восстановить можно как вручную, так и с помощью дополнительных программ.
  2. Для анализа конкурентов. Ваши конкуренты могут тестировать лучшее расположение кнопок и баннеров, менять меню и цветовую гамму сайта. Всю историю изменений вы можете проследить в веб-архиве и сделать выводы для развития своего проекта.
  3. Поиск информации с удаленного веб-ресурса. Некоторые проекты закрываются, сайты удаляются и, возможно, ценная информация теряется. Поисковик может долго давать вам ссылку на уже нерабочий сайт. Но как узнать, что там было? Просто зайдите в веб-архив.
  4. Проанализировать историю домена перед покупкой. Покупая дроп-домен, вы рискуете приобрести веб-адрес с плохой историей: сайт на этом домене мог в лучшем случае быть непопулярным, а в худшем на нем распространялся недобросовестный контент, вследствие чего веб-адрес попал в черный список. Если у домена плохая история, проекту его нового владельца не поздоровится.
  5. Для проведения интересного расследования или погружения в приятную ностальгию. Веб-архив ― это современный кладезь знаний. В нем можно найти много интересного, проследить, как развивались крупные компании и какие интересные проекты реализовывались, на заре эры интернета.
  6. Поиск интересного контента для рерайта. Если сайт не выглядел современно, как сейчас, это не значит, что над его контентом не работали талантливые люди. Вы можете вдохновиться или даже взять информацию со старых страниц и опубликовать её на своем сайте. Но об этом мы поговорим позже.

Как посмотреть страницу в веб-архиве

Чтобы проследить историю конкретного сайта, вам нужно знать только его домен.

  1. Перейдите на сайт Wayback Machine.
  2. Введите адрес сайта или конкретной страницы.
  3. Нажмите BROWSE HISTORY:

  4. Перед вами появится временная шкала и календарь. Вы можете заметить, что разные даты имеют разный цвет:
    ✅ голубой ― при архивации не возникло проблем,
    ✅ зелёный ― был настроен редирект,
    ✅ оранжевый ― при архивации произошла ошибка на стороне клиента,
    ✅ красный ― проблемы на стороне сервера.

    Чаще всего нужны даты, которые находятся в голубых или зеленых кружках.

  5. Выберите необходимый год, месяц и дату. Теперь вы можете увидеть прошлые версии сайта. Вперед к изучению!

Вот так выглядел наш сайт в марте 2016 года

Если вы не знаете конкретный URL сайта, в поиск можно вбить ключевое слово, название компании или бренда. Архив выдаст вам все подходящие варианты, которые найдет у себя в хранилище.

С чем вы можете столкнуться

Во-первых, в некоторых версиях сайта может не быть картинок и элементов дизайна. К сожалению, тут ничего не поделаешь. В этой ситуации можно попробовать посмотреть другой снимок.

Во-вторых, сайт может вообще отсутствовать. Это происходит в случае, если:

  1. владелец веб-ресурса потребовал удалить копии его контента,
  2. снимки сайта удалили, так как проект нарушал закон о защите интеллектуальной собственности,
  3. создатели сайта ограничили доступ роботам веб-архива.

Как самостоятельно добавить версию сайта

Хотите, чтобы ваш сайт точно сохранился в архиве и копий было много?Возьмите дело в свои руки и добавьте копию сайта самостоятельно.

Для этого:

  1. В правом нижнем углу найдите поле Save Page Now.
  2. Введите в поле домен сайта и нажмите Save page:

Это актуально для небольших сайтов с маленьким трафиком, так как копии таких ресурсов делаются редко.

Как удалить копии сайта и запретить дальнейшее сохранение в веб-архив

Может случиться и обратная ситуация, когда владелец сайта не хочет, чтобы его сайт попал в веб-архив. Такое сделать тоже нетрудно. Для этого вам нужно ограничить веб-архиву доступ в robots.txt. Файл находится в корневой папке сайта. В robots.txt нужно добавить код:

User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: /

После вписанных в файл настроек существующие версии сайта удалятся из архива, а новые перестанут создаваться до тех пор, пока домен зарегистрирован и в robots.txt указаны настройки. Если регистрация домена закончится и он не будет продлен, старые версии сайта вернутся в веб-архив. То есть удалить историю сайта одним движением навсегда не получится.

Как восстановить сайт из веб-архива

Восстановление сайта можно сделать двумя способами:

  1. с использованием программ-помощников.
  2. вручную.

Хотим предостеречь! Веб-архив действительно может помочь в критической ситуации, но он ни в коем случае не заменит бэкапы. С какими проблемами вы можете столкнуться:

  1. Не все страницы сохраняются. Веб-архив не делает полную копию сайта. В основном 50-70%. Самые непопулярные страницы, скорее всего, будут потеряны. Однако, если никакой альтернативы нет, это лучше, чем ничего.
  2. Код может быть замусорен. Часто веб-архив добавляет свои строки кода, что влияет на чистоту написанного сайта. После восстановления код, скорее всего, придется чистить.
  3. Могут измениться URL страниц.

Способ 1. С использованием программ

Сейчас уже есть много программ, которые помогут скачать сайт из веб-архива. Вам останется только поместить файлы веб-сервиса на хостинг. Примеры программ:

✅ Archivarix,

✅ Wayback machine downloader,

✅ Rush Analytics,

✅ RoboTools.

Несмотря на то что сервисы платные, стоят они недорого. Также они могут почистить код и привести скачанные данные в приемлемый вид. Учитывая стоимость работ программиста, это действительно дешевле.

Способ 2. Вручную

  1. Перейдите на сервер или компьютер, куда нужно скачать копию сайта. Установите Ruby (если нет): sudo apt install ruby
  2. Теперь установим утилиту для скачивания сайта: sudo gem install wayback_machine_downloader

Дальнейшие действия зависят от того, какая версия сайта вам нужна. Если вам нужна самая последняя версия сайта, введите команду:

wayback_machine_downloader http://site.com

Где http://site.com ― URL нужного сайта.

Если вас интересует конкретная версия сайта:

  1. Перейдите в веб-архив и выберите нужную версию сайта.
  2. Скопируйте из URL, который появится при загрузке выбранной версии, только цифры, которые идут после web/:



    https://web.archive.org/web/20220322041638/https://2domains.ru/

  3. Вернитесь на сервер/компьютер, куда хотите скачать копию сайта, и введите:

wayback_machine_downloader http://example.com --from 20220322041638

или

wayback_machine_downloader http://example.com --to 20220322041638

Где 20220322041638 ― номер версии, который вы скопировали из веб-архива.

Чем отличаются команды:

✅ --from ― скачивает файлы только с указанной даты или более поздней версии;

✅ --to ― скачивает файлы только с указанной даты или более ранней версии.

Другие параметры для скачивания можно прочитать здесь. Например, при вводе параметра --exclude можно скачать файлы конкретного типа (pdf, .jpg, .txt).

Теперь ждите, когда скачаются все файлы сайта, и можете переносить их на хостинг. Скачивание файлов может занять как несколько часов, так и несколько дней. Время скачивания зависит от размера сайта.

Теперь нужно просмотреть файлы и привести все в порядок. Как мы уже говорили, у полученного из веб-архива HTML-кода может быть много ненужных строк.

Можно ли использовать уникальный контент из старых материалов

Люди работают над продвижением сайтов. Наполняют их контентом: ведут блоги, делятся советами и лайфхаками, делают расследования и создают продающие тексты. Однако проекты заканчиваются, нередко компании удаляют свои сайты, блогеры перестают вести странички и т. д. Можно ли пользоваться всем этим полезным контентом в своих целях? Конечно, да. Мы не будем рассуждать об этической составляющей этого действия. С точки зрения закона и со стороны поисковых систем никаких претензий не будет.

Через некоторое время удаленные сайты перестают индексироваться поисковыми системами, то есть, если вы перезальете текст с нерабочей страницы к себе на веб-ресурс, система будет считать его уникальным.

Главное, чтобы кто-то другой не сделал также с выбранной вами статьей. Вполне возможно, что вы ни один такой умный искатель контента. Поэтому, как только вы нашли подходящий текст, обязательно проверьте его на уникальность. Сделать это можно, например, на text.ru или content-watch.ru.

Проверить, свободен ли домен, можно в Whois или посмотреть среди освободившихся доменов.

Где хранится история интернета? Теперь вы знаете ответ. Вперед за удивительными и интересными открытиями!