На цьому тижні популярна пошукова система Гугл змінила правила для файлу роботс.
Пошукові і інші боти сканують цей файл, щоб знати, до яких адрес у них є доступ, а до яких немає. Файл відомий уже 25 років, але він досі не затверджений офіційно. У файлу є власний протокол, він називається Robots Exclusion Protocol.
Найбільш помітною знімою стало те, що Гугл видалив протокол noindex , який, до речі, тільки він сам і підтримував.
Google вирішив офіційно затвердити протокол REP, і подав офіційну заявку в IETF.
Ось список того, що зміниться в правилах robots.txt:
- Тепер директиви можна використати не тільки до протоколів HTTP/HTTPS , а й до FTP / CoAP
- Пошукові павуки мають сканувати перші 512 кБ файлу, все інше не сканується і не приймається до уваги.
- Директиви в файлі будуть кешуватись. Звичайний кеш становитиме 24 години, витавити інший час кешу можна через заголовок Cache-Control
- Якщо файл перестане бути доступним для завантаження, директиви будуть використовуватись з попередньо завантаженого файлу роботс.тхт
Правила, які не будуть опубліковані в офіційній специфікації – не будуть підтримуватись Google. Саме це сталося з директивою noindex , вона перестане підтримуватись з 1.09.2019 року.
Якщо ви користувались цією директивою, вам слід замінити її на інші способи.
Відомо три способи замінити robots.txt noindex:
- <meta name=”robots” content=”noindex”>
- HTTP header X-Robots-Tag: noindex
- Код відповіді сервера 404 або 410
При цьому ваша сторінка гарантовано не буде індексуватись.
Один коментар до “Google змінив правила файла robots.txt”