Сегодня 31.07.2023 года, а значит давно пора актуализировать старые статьи на моём блоге. Далее пойдет актуальная, на сегодняшний день информация, а уже за ней, старая статья, так сказать для истории.
- Актуальная информация на 31 июля 2023 года
- Как бороться с дублями страниц на сайте при помощи файла robots.txt
- Что такое дубликаты страниц и почему это проблема?
- Настраиваем robots.txt для борьбы с дублями
- Как создать и настроить robots.txt?
- Убираем дубликаты с помощью robots.txt
- Как убрать дубликаты страниц
- Заключение
- Оригинальная статья от 01.04.2012
- Как убрать дубли страниц на сайте через robots.txt
- Как создать robots?
- Удаление дублей с помощью robots.txt
Актуальная информация на 31 июля 2023 года
Как бороться с дублями страниц на сайте при помощи файла robots.txt
Привет, друзья! Встречаемся снова в мире SEO. Сегодня мы затронем важнейшую тему, о которой порой забывают даже профессионалы: дубликаты страниц.
Что такое дубликаты страниц и почему это проблема?
Дубликаты страниц – это страницы на вашем сайте, содержащие идентичный контент, но имеющие разные URL. Итак, у нас есть две абсолютно одинаковые страницы, но с разными адресами. Вот в чем кроется загвоздка: поисковые системы индексируют эти страницы как разные, потому что их URL отличаются. Что происходит дальше? Ваши страницы считаются неуникальными, что приводит к снижению доверия со стороны поисковых систем и, как следствие, снижению позиций сайта в результатах поиска.
Настраиваем robots.txt для борьбы с дублями
Теперь, когда мы определили проблему, давайте приступим к решению. Один из простых и эффективных способов борьбы с дубликатами страниц — это правильная настройка файла robots.txt.
Robots.txt — это простой текстовый файл, который лежит в корневой директории вашего сайта. Этот файл сообщает поисковым роботам, какие страницы на вашем сайте они могут индексировать, а какие — нет.
Как создать и настроить robots.txt?
Создание файла robots.txt требует всего нескольких простых шагов:
- Создайте текстовый документ и назовите его «robots.txt». Этот файл следует разместить в корневой директории вашего сайта.
- Внутри файла вы можете указать следующую информацию: User-agent, Allow, Disallow, Host.
Вот пример базовой настройки:
User-agent: *
Allow: /
Disallow: /tag
Host: example.com
User-agent:
здесь мы указываем, для каких поисковых систем предназначены эти правила. Звездочка (*) означает, что правила применимы ко всем поисковым системам.Allow:
позволяет указать адреса страниц, которые допустимо индексировать. Здесь (/) означает, что разрешена индексация всех страниц.Disallow:
обратное правило, которое запрещает индексацию указанных страниц. В данном случае, все страницы с URL, начинающимся с «/tag», будут исключены из индексации.Host:
здесь мы указываем основной домен сайта.
Убираем дубликаты с помощью robots.txt
Теперь, когда мы настроили файл robots.txt, пора использовать его для устранения дублей. Давайте подумаем: какие страницы на вашем сайте могут дублироваться? Часто такими могут быть страницы с тегами, архивы по датам и авторам и т.д.
После того, как вы определите потенциальные дубли, можно исключить их из индексации, прописав соответствующий Disallow в файле robots.txt. Вот так это выглядит:
Disallow: /duplicated-page
После этого, страница «/duplicated-page» будет исключена из индексации поисковых систем.
Как убрать дубликаты страниц
Дубликаты страниц могут быть проблемой для SEO, поэтому рекомендуется принять меры для их решения. Вот несколько способов, которые могут помочь вам убрать дубли страниц на сайте:
- Используйте канонические ссылки (canonical links): Установите тег
<link rel="canonical" href="URL">
на каждой странице, указывающий на основную (каноническую) версию страницы. Это поможет поисковым роботам понять, какую страницу следует индексировать. - Используйте редиректы: Если у вас есть несколько URL-адресов, которые ведут к одной и той же странице, настроить редиректы с помощью кода статуса 301 (перемещено навсегда) или 302 (перемещено временно). Это поможет поисковым роботам понять, что страницы являются дубликатами и перенаправить их на основную страницу.
- Удалите дублирующий контент: Если у вас есть несколько страниц с одинаковым содержимым, рекомендуется изменить их, чтобы они стали уникальными. Уникальный контент поможет поисковым роботам лучше понять и индексировать ваш сайт.
- Используйте параметры URL: Если у вас есть страницы с параметрами URL, которые могут создавать дубликаты (например, сортировка или фильтрация), настройте параметры URL в Google Search Console или используйте теги
<link rel="next">
и<link rel="prev">
для указания связанных страниц.
Убедитесь, что вы понимаете, как эти методы работают, и проконсультируйтесь с разработчиком или SEO-специалистом, прежде чем вносить изменения на своем сайте.
К сожалению, я не могу предоставить вам прямой код для решения проблемы с дубликатами страниц, так как решение зависит от структуры и конкретных проблем вашего сайта.
Заключение
Борьба с дублями страниц — это один из ключевых аспектов SEO, который важно не пропустить. Надеюсь, этот небольшой гид помог вам разобраться с основами работы с файлом robots.txt и применением его для устранения дублирующих страниц. Если у вас есть вопросы, не стесняйтесь задавать их в комментариях. Вместе мы сделаем ваш сайт лучше!
Далее идет оригинальная статья…
Оригинальная статья от 01.04.2012
Всем привет! Сегодня хочу поговорить про дубликаты страниц на сайте. Дубликаты страниц — это абсолютно одинаковые по содержимому контенту страницы на сайте, но имеющие разные URL. Поисковики индексируют эти страницы, как две разные. так как адреса у них отличаются. А, как вам известно, это будет являться не уникальным контентом, который в свою очередь приведет к понижению доверия поисковика и понижению позиций сайта. Рассмотрим один, из многочисленных способов удаления дубликатов страниц из поиска.
Как убрать дубли страниц на сайте через robots.txt
Для того чтобы убрать дубли страниц с помощью robots.txt первое, что требуется – настроить данный файл. Он лежит в корневой директории вашего сайта. Если же такой файл не находится, то его требуется создать. Именно с него поисковики считывают информацию о том, как индексировать сайт.
В Robots содержится нужная для поисковых ботов информация, а именно перечень страниц, которые можно посещать, какие нельзя, какой основной домен сайта, где находится карта сайта и так далее.
Как создать robots?
Создать такой файл – просто. Достаточно сделать .txt документ с названием «robots» и загрузить его в корень сайта. В файле нужно прописать такие данные, как: User-agent, Allow, Disallow, Host. Пример:
User-agent: *
Allow: /
Disallow: /tag
Host: seo-infa.ru
Ну это необходимые вещи. А можно ещё путь к xml карте сайта прописать…
User-agent содержит информацию о поисковиках, для которых указывались правила. Allow указывает список тех адресов, которые разрешены для индексации. Disallow – обозначает перечень запрещенных для индексации адресов. Host поведает поисковой системе, какой домен у сайта является основным, с www или без, например.
Да, это считается? как два разных домена. При регистрации домена одновременно фиксируется и его зеркало. С технической стороны это выглядит, как два разных домена, но с одинаковым содержанием, поэтому нужно указать какой из них главный, а какой зеркальный. Таким образом, поисковая система, посетив зеркало\robots.txt и расшифрует, что это и есть дополнительный домен.
Удаление дублей с помощью robots.txt
Ну вот, robots.txt сделали. Следующим шагом стает непосредственное удаление дублей с сайта. Конкретные действия можно сказать, зная хотя бы, какой у вас движок, да и этого мало, если честно, надо знать адрес сайта.
А как же тогда? Да всё просто. Вы подумайте, какие страницы на сайте в у вас дублируются, где дублируются части контента. Часто бывает, что это всякие теги, архивы по дате, архивы по авторам и так далее. Подумав и обнаружив подобные страницы, закройте их от индексации в файле robots, прописав Disallow: /stranica.
Если есть какие непонятки – спрашивайте в комментариях. Порешаем.
А как тогда закрыть множество дублей вот такого рода .
20.10.2020 /?page=3
08.10.2020 /?page19
05.10.2020 /?page19
22.09.2020 /?page22
15.09.2020 /?page22
09.09.2020 /?page22
28.08.2020 /?page25
так
Disallow: /?page*
еще жестче так
Disallow: /?*
Всем ответил при обновлении статьи