ХМL-карта сайта (файл Sitemap)
Это документ, который сообщает поисковым системам о страницах сайта, доступных для индексации. Этот файл представляет собой ХМL-файл, в котором перечислены URL-адреса страниц сайта в сочетании с метаданными, связанными с каждым URL-адресом (дата его последнего изменения, частота изменений, его приоритетность в рамках сайта), чтобы поисковые системы могли оптимизировать процесс индексации сайта.
Если основное предназначение robots.txt — это запрет индексации, то карта сайта sitemap.xml выполняет прямо противоположные задачи. Она отвечает за ускорение и полноту индексации сайта.
В каких случаях вам может потребоваться файл sitemap.xml
- Размер сайта очень велик. Это может привести к тому, что поисковые роботы пропустят недавно созданные или измененные страницы;
- Сайт содержит большой архив страниц, которые изолированы или не связаны друг с другом. Чтобы они были успешно просканированы, их можно перечислить в файле sitemap;
- Сайт создан недавно, и на него указывает мало внешних ссылок. Робот Яндекса и другие поисковые роботы сканируют интернет, переходя по ссылкам с одной страницы на другую. Если на сайт указывает мало ссылок, нам будет сложно его найти;
- Сайт содержит большой объем мультимедийного (видео и изображения) или новостного контента. Из файлов sitemap поисковая система может получать дополнительную информацию для показа в результатах поиска.
В каких случаях вам не требуется файл sitemap:
- Сайт сравнительно невелик. Иными словами, на нем не больше 500 страниц, которые должны быть представлены в результатах поиска;
- На сайте реализована детальная система внутренних ссылок. Это означает, что роботы Яндекса и Google могут перейти во все значимые разделы сайта, следуя по ссылкам с главной страницы;
- На сайте сравнительно мало медиафайлов (например, видео и изображений) или новостных страниц, которые должны появляться в результатах поиска. Файлы sitemap помогают роботам быстрее находить и анализировать видео, изображения и новости с сайтов, Если вам не нужно, чтобы такой контент появлялся в результатах поиска по картинкам, видео или новостям, то файл Sitemap вам не потребуется.
Карта сайта должна включать в себя ссылки только на значимые страницы сайта, содержащие уникальный контент.
Sitemap может указывать поисковой системе частоту, с которой возникает необходимость в переиндексации страниц. В этом плане инструкция особенно важна для сайтов с регулярно обновляющимся контентом (новостные порталы и т.п)
Общие рекомендации в отношении файлов Sitemap:
- Указывайте полные URL, используя один и тот же синтаксис. Яндекс и Google будут сканировать в точности те URL, которые вы перечислите. Например, если адрес сайта — https://www.example.ru/, не указывайте URL https://www.example.ru/ (без www) или ./mypage.html (относительный);
- Файл Sitemap может быть размещен в любой части сайта, но влияет только на каталоги уровнем ниже родительского. Поэтому, чтобы файл Sitemap действовал на весь сайт, мы рекомендуем располагать его на корневом уровне;
- Не указывайте в добавляемых URL идентификаторы сеансов. Это может привести к избыточному сканированию страниц;
- Отмечайте иноязычные версии страницы атрибутом hrefland;
- Файлы Sitemap должны создаваться в кодировке UTF-8, а в URL необходимо применять экранирование;
- Разбивайте большие файлы Sitemap на файлы поменьше. Файл Sitemap может содержать до 50 000 URL и не должен занимать больше 50 МБ в несжатом виде. Вместо отдельных файлов Sitemap отправляйте в Яндекс их индекс;
- Включайте в файлы Sitemap только канонические URL. Если у вас две версии страницы, укажите только ту, которая должна появляться в результатах поиска. Если у вас две версии сайта (например, с префиксом www и без него), выберите основную и разместите файл Sitemap в ней, а на страницы второго сайта добавьте атрибут геl=canonical или реализуйте на них переадресацию;
- Если у мобильной и обычной версии страницы разные URL, советуем указывать только одну из них. Если все же требуется включить в файл оба URL, добавьте для них аннотации, чтобы обозначить эти версии;
- Используйте файлы Sitemap с расширенным синтаксисом для указания дополнительных MIME-типов, в частности изображении, видео и новостей;
- Если существуют версии страницы на других языках или для других регионов, вы можете указать их с помощью атрибута hrefland в файле Sitemap или тегах НТМL;
- Google не гарантирует сканирование каждого URL, указанного в файле Sitemap. Такие файлы лишь помогают роботу определить, какие страницы вы считаете важными;
- Значения в тегах
и игнорируются; - В Google используется значение в теге
, если оно всегда является гарантированно точным (например, если его точность проверяется путем сравнения с последней измененной версией страницы); - Позиция того или иного URL в файле Sitemap не важна. Роботы сканируют URL, не учитывая их порядок в этом файле.
Создавая файл Sitemap, вы сообщаете поисковым системам, какие из ваших URL следует выбирать для показа в результатах поиска. Такие URL называются каноническими.
Если вы разместили одинаковый контент по нескольким URL, выберите основной вариант страницы и включите в файл Sitemap только его.
Файл Sitemap можно сгенерировать с помощью системы управления контентом.
Например, во многих CMS существуют десятки плагинов для генерации xml-карт сайта.
Любой файл Sitemap размером больше 50 МБ необходимо разделить. Несколько файлов Sitemap можно отправить одновременно, объединив их с помощью файла индекса Sitemap. Это файл в формате XML, который по структуре очень похож на обычный файл Sitemap.
Инструкции sitemap.xml и robots.txt при правильном их использовании должны дополнять друг друга.
Существуют три важнейших правила взаимодействия этих инструкций:
- sitemap.xml и robots.txt не должны противоречить друг другу;
- все страницы, исключенные (заблокированные) в robots.txt, должны быть исключены также из sitemap.xml;
- все важные (необходимые) индексируемые страницы, разрешенные в robots.txt, должны содержаться в sitemap.xml
Наиболее часто встречающиеся ошибки:
- Несоответствие sitemap.xml страницам сайта, устаревший сайтмап.
Эта проблема возникает, когда сайтмап генерируется не динамически, а эпизодически, запуском какой-то службы в CMS, а то и сторонними сервисами. При этом возникает масса мертвых страниц, отдающих 404 ошибку (например, страницу физически удалили или перенесли в другое место, изменив адрес URL).
Кроме того, новые страницы индексируются значительно медленнее, ибо не находятся в sitemap.xml.
- Неверная структура sitemap.xml.
Эта ошибка возникает, как правило, на «самописных» CMS или при использовании неверных плагинов к популярной CMS. Вот верная структура https://www.sitemaps.org/ru/protocol.html
Модификация этой ошибки - неверная работа с датой изменения записи - поле
- Логические ошибки.
Они вызваны нарушением трех правил о сочетании sitemap.xml и robots.txt. Обязательно добавляйте сайтмапы в вебмастера и проверяйте их на серьезные ошибки.
- Дополнительно:
- Карта сайта может описывать только страницы того домена, на котором он расположен.
- Перед загрузкой файла на сайт рекомендуется проверять его корректность с помощью валидаторов файлов sitemap, расположенного в Яндекс Вебмастере и Google Search Console
- Карта сайта должна автоматически обновляться при добавлении / удалении страниц с сайта и учитывать все требования Яндекса и Google к картам.
Важная фишка
Есть SEO прием, когда для крупных сайтов с миллионами страниц, в sitemap.xml добавляют только не проиндексированные или измененные значимые страницы, удаляя из нее страницы, которые уже проиндексировались.
Где можно сгенерировать файл sitemap.xml для сайта.
Если у Вас самописная CMS, не генерирующая автоматически данный файл, то можно воспользоваться сервисам, которых довольно много в интернете.