Google змінив правила файла robots.txt

На цьому тижні популярна пошукова система Гугл змінила правила для файлу роботс.

Пошукові і інші боти сканують цей файл, щоб знати, до яких адрес у них є доступ, а до яких немає. Файл відомий уже 25 років, але він досі не затверджений офіційно. У файлу є власний протокол, він називається Robots Exclusion Protocol.

Найбільш помітною знімою стало те, що Гугл видалив протокол noindex , який, до речі, тільки він сам і підтримував.

Google вирішив офіційно затвердити протокол REP, і подав офіційну заявку в IETF.

Ось список того, що зміниться в правилах robots.txt:

  1. Тепер директиви можна використати не тільки до протоколів HTTP/HTTPS , а й до FTP / CoAP
  2. Пошукові павуки мають сканувати перші 512 кБ файлу, все інше не сканується і не приймається до уваги.
  3. Директиви в файлі будуть кешуватись. Звичайний кеш становитиме 24 години, витавити інший час кешу можна через заголовок Cache-Control
  4. Якщо файл перестане бути доступним для завантаження, директиви будуть використовуватись з попередньо завантаженого файлу роботс.тхт

Правила, які не будуть опубліковані в офіційній специфікації – не будуть підтримуватись Google. Саме це сталося з директивою noindex , вона перестане підтримуватись з 1.09.2019 року.

Якщо ви користувались цією директивою, вам слід замінити її на інші способи.

Відомо три способи замінити robots.txt noindex:

  1. <meta name=”robots” content=”noindex”>
  2. HTTP header X-Robots-Tag: noindex
  3. Код відповіді сервера 404 або 410

При цьому ваша сторінка гарантовано не буде індексуватись.

Картинка - гугл і робот

Один коментар до “Google змінив правила файла robots.txt”

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься.

Я spam бот