Файл robots.txt містить інструкції, які вказують пошуковим роботам, які URL-адреси на вашому сайті їм дозволено обробляти. За допомогою цього файлу можна обмежити кількість запитів на сканування, що допомагає знизити навантаження на сервер. Однак, варто зазначити, що robots.txt не призначений для заборони показу ваших матеріалів у результатах пошуку Google. Якщо ви не хочете, щоб певні сторінки вашого сайту відображались у пошуку, потрібно додати на них директиву noindex або зробити їх доступними тільки через пароль.
Якщо ви використовуєте систему керування контентом, таку як Wix або Blogger, вам, швидше за все, не потрібно буде редагувати файл robots.txt вручну (ймовірно, у вас навіть не буде такої можливості). Натомість система керування контентом автоматично налаштовує пошукові системи через сторінку налаштувань пошуку або інший інструмент, щоб вказати, чи потрібно сканувати ваші матеріали.
Якщо ви бажаєте самостійно заборонити або дозволити пошуковим системам обробляти певну сторінку вашого сайту, варто знайти інструкцію, як керувати видимістю сторінок у вашій системі керування контентом. Приклад запиту: “wix як приховати сторінку від пошукових систем”.
Для чого потрібен файл robots.txt
Файл robots.txt використовується передусім для управління трафіком пошукових роботів на вашому сайті. Зазвичай його також можна використовувати для виключення певного контенту з результатів пошуку Google (залежно від типу контенту).
Як директиви з файлу robots.txt обробляються під час сканування різних типів файлів
Веб-сторінка
Файл robots.txt дозволяє контролювати сканування веб-сторінок у форматах, які робот Googlebot може обробити (наприклад, HTML або PDF). За його допомогою можна зменшити кількість запитів, які Google надсилає на ваш сервер, або заборонити сканування розділів сайту, де міститься неважлива або повторювана інформація.
Однак файл robots.txt не призначений для блокування показу веб-сторінок (у тому числі PDF-файлів та інших текстових форматів) у результатах пошуку Google.
Якщо на певну сторінку ведуть зовнішні посилання з інших сайтів із інформативним текстом, Googlebot може додати цю сторінку до індексу, навіть не скануючи її. Для повного виключення сторінки з пошуку слід застосувати інші методи, наприклад, заблокувати доступ через пароль або використати директиву noindex.
Сторінки, сканування яких заборонено через файл robots.txt, все одно можуть відображатися в пошуку, але без опису. Це стосується лише контенту в HTML-форматі. Інші файли (наприклад, PDF, зображення або відео), що розміщені на забороненій сторінці, будуть допущені до сканування, якщо на них посилаються інші сторінки, дозволені до індексації. Якщо у пошукових результатах сторінка показується без опису, слід видалити з файлу robots.txt запис, що блокує її сканування. Для повного виключення сторінки з пошуку краще використовувати інші методи.
Медіафайли
За допомогою файлу robots.txt можна керувати трафіком пошукових роботів, а також блокувати показ зображень, відео чи аудіофайлів у результатах пошуку Google. Така блокування не завадить іншим користувачам посилатися на ваші медіафайли. Радимо ознайомитися з наступними статтями:
- Як виключити з пошуку зображення
- Як заборонити або обмежити показ ваших відеофайлів у Google
Ресурсні файли
Файл robots.txt дозволяє заборонити сканування таких ресурсів, як допоміжні зображення, скрипти та стилі, якщо ви вважаєте, що вони мало впливають на оформлення сторінок. Однак не варто блокувати їх, якщо це може ускладнити роботам коректне інтерпретування контенту.
Які є обмеження при використанні файлу robots.txt
Перш ніж створювати або змінювати файл robots.txt, варто врахувати можливі ризики. У деяких випадках для заборони індексування краще використовувати інші інструменти.
- Підтримка різних систем. Не всі пошукові системи дотримуються правил, заданих у файлі robots.txt.
- Виконання правил не обов’язкове. Googlebot та більшість роботів дотримуються інструкцій з файлу robots.txt, однак деякі системи можуть ігнорувати їх. Для надійного приховування інформації використовуйте інші методи, наприклад, захист паролем.
- Інтерпретація різними роботами. Хоча основні пошукові системи дотримуються правил з файлу robots.txt, кожна може їх інтерпретувати по-своєму. Варто ознайомитися із синтаксисом для інших систем.
- Можливість індексації за посиланнями з інших сайтів. Якщо на сторінку посилаються інші сайти, вона все одно може бути додана до індексу, навіть якщо її сканування заборонено в файлі robots.txt. Для запобігання цьому використовуйте захист паролем або директиву noindex.
Важливо пам’ятати, що одночасне використання кількох методів може призвести до конфліктів.
Як створити та надіслати файл robots.txt
Якщо ви використовуєте послуги веб-хостингу (наприклад, Wix або Blogger), вам, ймовірно, не потрібно буде редагувати файл robots.txt вручну, або ж у вас може не бути такої можливості. Ваш хостинг-провайдер автоматично керуватиме скануванням контенту пошуковими системами за допомогою налаштувань пошуку або іншого інструменту.
Якщо ж ви хочете самостійно заборонити або дозволити пошуковим системам обробку певної сторінки вашого сайту, спробуйте знайти відповідну інформацію у вашій системі управління хостингом. Наприклад, запит: “Wix як приховати сторінку від пошукових систем”.
Що таке файл robots.txt
Файл robots.txt дозволяє вказати, які файли вашого сайту будуть доступні для пошукових роботів. Він розміщується в кореневому каталозі сайту, наприклад, на сторінці www.example.com/robots.txt
. Це звичайний текстовий файл, що містить інструкції для роботів: забороняє або дозволяє доступ до певних шляхів у домені або субдомені.
Нижче наведено приклад простого файлу robots.txt із двома правилами:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Основні рекомендації щодо створення файлу robots.txt
Кроки:
- Створіть файл robots.txt – використовуйте будь-який текстовий редактор, наприклад, Notepad, TextEdit, vi або Emacs. Важливо зберегти файл у кодуванні UTF-8.
- Додайте правила – правила вказують, які сторінки можна або не можна сканувати.
- Опублікуйте файл у кореневому каталозі сайту – на сервері файл повинен бути доступним за адресою
https://www.example.com/robots.txt
. - Протестуйте файл – перевірте, чи доступний файл для пошукових роботів через браузер або інструменти, як-от Google Search Console.
Як написати правила в файлі robots.txt
Файл складається з однієї або більше груп інструкцій. Кожна група починається зі строки User-agent
, яка вказує, якому роботу адресовані правила. Далі йдуть директиви Disallow
або Allow
, які вказують, які частини сайту можна або не можна сканувати.
Приклад директив:
- User-agent: Визначає пошукового робота.
- Disallow: Забороняє доступ до певних файлів або директорій.
- Allow: Дозволяє доступ до певних файлів або директорій.
Як завантажити файл robots.txt
Після створення файл потрібно завантажити на сервер у кореневий каталог сайту. Якщо ви не маєте доступу до кореневої папки, зверніться до хостинг-провайдера.
Як перевірити файл robots.txt
Щоб переконатися, що файл доступний, перейдіть у режим інкогніто в браузері і введіть адресу файлу, наприклад: https://example.com/robots.txt
. Якщо вміст файлу відображається, можна протестувати його за допомогою Search Console.
Як надіслати файл robots.txt у Google
Після завантаження файл автоматично буде знайдений пошуковими роботами. Якщо ви зробили зміни та хочете, щоб Google якнайшвидше оновив кеш, можна скористатися інструкціями Google для прискореного оновлення кешованих копій файлу.
Як оновити файл robots.txt
- Відкрийте URL вашого файлу в браузері (наприклад,
https://example.com/robots.txt
), скопіюйте текст і збережіть його як новий файл на комп’ютері. Переконайтесь, що зберегли файл у текстовому форматі. - За допомогою cURL або іншої подібної програми завантажте файл:arduinoКопировать код
curl https://example.com/robots.txt -o robots.txt
- В Search Console, використовуючи Звіт про файл robots.txt, можна скопіювати вміст та зберегти його на комп’ютері.
Як змінити файл robots.txt
- Редагуйте файл у текстовому редакторі (наприклад, Notepad або TextEdit), внесіть необхідні зміни згідно з синтаксисом файлу robots.txt.
- Обов’язково збережіть файл у кодуванні UTF-8.
Як завантажити нову версію файлу
- Завантажте оновлений файл у кореневий каталог сайту. Спосіб завантаження залежить від платформи або сервера, який ви використовуєте. Якщо не знаєте, як це зробити, зверніться до хостинг-провайдера або адміністратора домену.
- Якщо у вас немає доступу до кореневого каталогу, а головна сторінка розміщена на субдомені, зверніться до власника домену для внесення змін. Наприклад, якщо ваш сайт знаходиться за адресою
subdomain.example.com/site/example/
, файл robots.txt потрібно розмістити за адресоюsubdomain.example.com/robots.txt
.
Як оновити кешовану версію файлу в Google
Google оновлює кешовану версію файлу robots.txt кожні 24 години. Якщо вам потрібно прискорити процес, можна запросити повторне сканування через Search Console. Використовуйте Звіт про файл robots.txt, щоб зробити це швидше.