Что такое sitemap.xml? Для чего нужна карта сайта?
21.10.2022
Поисковая система просматривает весь интернет в поисках страниц для включения их в индекс. Googlebot перемещается по сети с помощью ссылок. После того как бот попал на сайт, он изучает ресурс с помощью внутренних ссылок (например, в главном меню), чтобы сопоставить различные URL-адреса и страницы. Но это не гарантия того, что Googlebot найдет все страницы вашего сайта. Для того чтобы решить эту задачу, SEO-специалисты используют sitemap.xml. Карта сайта — это своего рода «навигатор» для поисковой системы. В этой статье мы расскажем как создать карту сайта и разберем распространенные ошибки в sitemap.xml.
Содержание:
- Что такое XML-карта?
- С каких элементов состоит sitemap.xml?
- Как создать sitemap.xml?
- Sitemap для изображений
- Sitemap для видео
- Sitemap для новостей
- Sitemap для мультиязычных сайтов
- Типичные ошибки в XML-Sitemap
- Выводы
Что такое XML-карта?
Sitemap.xml — это файл с наиболее важными страницами, который облегчает навигацию по сайту поисковым ботам.
Sitemap.xml помогает поисковой системе понять структуру вашего ресурса, так боты смогут эффективнее сканировать и индексировать сайт.
Карта сайта может быть:
- обычной — включает до 50 000 страниц и весит максимум 50 Мб;
- индексной — файл, объединяющий несколько обычных карт сайта. Предназначена для крупных и мультирегиональных сайтов.
Карта сайта отражается в файле robots.txt или по адресу: domen.com/sitemap.xml
С каких элементов состоит sitemap.xml?
Карта сайта — это “навигатор” для поисковой системы, поэтому она отформатирована на языке, понятном для компьютеров — XML.
Карта сайта состоит из трех обязательных частей:
- urlset — содержит все URL-адреса в sitemap.xml;
- url — тег, который является контейнером для всей информации, связанной с отдельными URL-адресами;
- loc — находиться внутри тега url, в него помещается URL-адрес, на который хотите направить сканеры.
Другие элементы не обязательны для поисковых систем, но все же очень полезны. Например, lastmod — сообщает, когда файл был изменен в последний раз.
Как создать sitemap.xml?
Создание эффективной sitemap.xml можно условно разделить на пять этапов:
1. Проработка структуры
Прежде чем создавать карту сайта, вам нужно точно знать, сколько страниц на вашем ресурсе. Просмотрите свой сайт, начав с домашней страницы. Далее отметьте остальные страницы и то, как они связаны друг с другом. Затем разместите самые важные в верхнюю часть навигации, потом все остальные, в порядке иерархии.
2. Кодирование
В зависимости от CMS, существует множество способов кодирования страницы и URL-адресов. Если вы используете WordPress, эта функция доступна через плагины (например, Yoast), которые автоматизируют процесс. Вам нужно будет найти, установить и запустить эти плагины, а затем настроить sitemap.xml в соответствии с вашей структурой. Для каждой CMS есть своя инструкция по настройке карты сайта. Также это можно сделать с помощью специальных сервисов, которые генерируют sitemap.xml. Например, xml-sitemaps.com. Или же вам нужно будет вручную закодировать каждый из ваших URL-адресов, добавив теги XML к каждому из них.
3. Проверка
Чтобы еще раз проверить правильность форматирования вашего контента, независимо от того, использовали ли вы плагин или сделали это вручную, поместите URL-адрес вашей карты сайта в XML-валидатор. Это поможет выявить и исправить проблемы, которые могут возникнуть при кодировании.
4. Размещение sitemap.xml
Карта размещается по адресу http://www.example.com/sitemap.xml (где example — доменное имя). Затем вам нужно будет найти файл robots.txt и добавить в него местоположение sitemap.xml. Robots.txt обычно находится в корневой папке сайта.
5. Отправка
Когда все эти шаги выполнены, вы можете отправить карту сайта в поисковые системы, включая Google, для сканирования и индексации. Это можно сделать через Google Search Console, которую очень легко настроить. Когда вы войдете, перейдите к «Сканирование» с левой стороны, а затем «Карты сайта» и нажмите «Добавить/Проверить». Вы можете сделать окончательную проверку здесь, а затем отправить sitemap.xml.
Sitemap для изображений
Для того чтобы поисковая система могла обнаружить изображения на сайте, которые не всегда видны ботам (например, загруженные с помощью JavaScript), вам необходимо добавить их в карту сайта. Это можно сделать двумя способами:
- указать ссылки на картинки в sitemap.xml;
- создать для изображений отдельную карту сайта.
Чтобы поисковая система могла обнаружить файл sitemap.xml для изображений, важно использовать обязательные теги XML:
- image:image — содержит необходимую информацию об изображении. Каждый тег url включает до 1000 тегов image:image.
- image:loc — указывает на местонахождение сайта. URL изображения может не совпадать с основным доменом. Для корректного сканирования в таких случаях необходимо подтвердить оба домена в Google Search Console.
Также существуют необязательные теги, такие как:
- image:caption — подпись для изображения;
- image:geo_location — локация съемки (например, страна или город);
- image:title — название изображения;
- image:license — ссылка на лицензию для изображения.
Sitemap для видео
Все видео должны быть объединены в единую sitemap.xml. Это позволяет поисковым роботам эффективно сканировать и упорядочивать контент. Карта сайта для видео включает: имя, описание, продолжительность, анимированные миниатюры и т.д. Для этого при формировании sitemap.xml используйте обязательные теги:
- loc — местоположения файла с видео;
- video:title — название видео.
- video:description — описание контента (вмещает до 2 000 символов).
- video:content_loc или video:player_loc — выберите один из вариантов. Этот тег предоставляет Googlebot прямую ссылку на ваше видео или местоположение проигрывателя.
- video:video — видеоконтейнер.
- video:thumbnail_loc — превью или миниатюра.
Также можно использовать рекомендуемые теги:
- video:duration — продолжительность видео от 1 секунды до 28 800 (8 часов);
- video:expiration_date — дата и временя, когда видео перестанет быть доступным, необходимо указывать в формате W3C.
Существует еще много необязательных тегов, с их значением можно ознакомиться в Справке Google.
Sitemap для новостей
News Sitemap — это XML-файл для передачи актуальных новостей поисковым системам.
Основными факторами ранжирования в результатах поиска новостей являются их своевременность, степень оригинальности и насыщенности контента с точки зрения текста и медиа, а также популярность издателя.
В обычной sitemap.xml теги urlset, url, loc, lastmod,и другие используются с определенной целью, для новостей эти теги немного отличаются. Файлы sitemap.xml для новостей — один из самых важных элементов в индустрии новостного SEO.
Теги в файле Sitemap для новостей:
- publication — определяет местонахождение новости.
- name — название публикации. Оно должно совпадать с именем, указанным в адресе news.google.com. Тег name является вложенным тегом publication.
- language — язык новостного контента, также является дочерним тегом publication. Он показывает страну публикации новостей и географию. Следует использовать язык ISO 639. Также является дочерним тегом publication.
- title — заголовок новости. Этот тег является жизненно важным элементом карты сайта. Он показывает содержание статьи. Тег заголовка в файле sitemap.xml для новостей не должен включать имена авторов, название публикации или дату новости, они могут занимать ненужное место в новостях Google. Более короткий заголовок может иметь лучший CTR.
- publication_date — дата публикации новости, ее следует указывать в формате W3C.
Прописывайте полную дату (YYYY-MM-DD) или дату, которая включает минуты, секунды и часовой пояс (YYYY-MM-DDThh:mm:ssTZD). Значение должно соответствовать моменту публикации статьи, а не времени ее добавления в файл sitemap.xml.
Для карты сайта можно использовать такие форматы:
- Дата: YYYY-MM-DD (1997-07-16).
- Дата с часами и минутами: YYYY-MM-DDThh:mmTZD (1997-07-16T19:20+01:00).
- Дата с часами и минутами плюс секунды: YYYY-MM-DDThh:mm:ssTZD (1997-07-16T19:20:30+01:00).
Sitemap для мультиязычных сайтов
Многоязычная карта сайта имеет тот же базовый формат, но вам необходимо добавить дополнительную информацию к каждой записи loc. Google предлагает добавить дочернюю запись xhtml:link для каждой языковой версии каждой части контента (включая исходный язык).
Таким образом, если ваш контент доступен, например, на английском (по умолчанию) и немецком языках, у вас будет две дочерние записи xhtml:link для каждой записи loc .
Пример мультиязычной карты сайта:
В этом примере вы можете увидеть еще одно дополнение — тег hreflang . Hreflang — важный инструмент для всех аспектов многоязычного SEO, а не только для карт сайта.
Тег hreflang сообщает Google, какой язык вы используете на конкретной странице. Регион является еще одним важным фактором, помимо языка. Например, вы можете использовать «en-us» для американского английского и «en-gb» для британского английского (как язык, так и страна).
Типичные ошибки в XML-Sitemap
Добавили в карту сайта неиндексируемые страницы
Google предупреждает нас, что в карту сайта следует добавлять только согласованные, полностью определенные URL-адреса. Это означает, что не стоит отправлять Google на неиндексируемые страницы. Такая sitemap.xml может запутать поисковик и боты не будут знать какие страницы мы хотим, чтобы Google сканировал и индексировал.
Индексируемые страницы — это те страницы, которые вы хотите, чтобы Google проиндексировал в соответствии с директивами. Другими словами, индексируемые URL-адреса — это любые страницы, которые:
- с 200-м ответом сервера (это не ошибка 404, перенаправление и т. д.);
- являются предпочтительными версиями страниц, а не альтернативными (например, каноническими);
- страницы с типом контента HTML;
- не содержать метатег No-Index;
Забыли обновить карту сайта после переноса
При переносе сайта можно забыть даже об основных вещах, таких как обновление sitemap.xml. Убедитесь, что при переезде со старого ресурса на новый вы обновляете XML-карту сайта, так у Google будет точный список URL-адресов. Также проверьте файл robots.txt, чтобы он ссылался на новые sitemap.xml.
Детальнее про переезд сайта: Особенности переноса сайта на другую CMS: 5 советов, которые помогуть сохранить результаты SEO
Пропустили важные страницы
Хотя sitemap.xml — не единственный способ, с помощью которого Google находит страницы. Все же важно чтобы XML-карта сайта включала все URL-адреса, которые Google должен проиндексировать.
Забыли отправить карту сайта в Google
Отправка карты сайта в Google является важным этапом, когда речь идет о сканировании и индексировании страниц. Как заявляет Google, «если страницы сайта имеют правильные ссылки, наши поисковые роботы обычно могут обнаружить большую часть контента. Тем не менее карта сайта может улучшить сканирование».
Google говорит, что отправка карты сайта особенно полезна в таких ситуациях:
- у вас большой сайт;
- нет хороших внутренних ссылок;
- не так много внешних ссылок.
Выводы:
- Sitemap.xml помогает поисковой системе понять структуру вашего ресурса, так боты смогут эффективнее сканировать и индексировать сайт.
- Sitemap.xml — не единственный способ, с помощью которого Google находит страницы, все же важно чтобы XML-карта сайта включала все URL-адреса, которые Google должен проиндексировать.
- Карта сайта состоит из трех обязательных частей: urlset, url, loc.
- Не добавляйте в карту сайта неиндексируемые страницы.
- Не забывайте обновить карту сайта после переезда.
- Включите в sitemap.xml все важные страницы.
- Не забывайте отправлять карту сайта Google.