- Створення файлу robots.txt
- Основний синтаксис robots.txt
- Керівні принципи Вашого файлу Robots.txt для SEO
Robots.txt - це простий текстовий файл, який містить правила індексації вашого веб-сайту. Файл robots.txt - це інструмент для безпосереднього спілкування з пошуковими системами. Один з найпоширеніших способів використання файлу robots.txt - приховати певні частини вашого сайту, які можуть бути неповними або на стадії розробки від сканерів пошукових систем. Це в основному говорить пошуковим системам, яку частину вашого сайту вони можуть сканувати і яку частину не повзати. WordPress сам по собі містить віртуальний robots.txt. Навіть якщо у вас немає файлу robots.txt, пошукова система все одно індексуватиме ваш сайт. Однак мати власний ручний файл robots.txt дає кращий контроль над речами. У цій статті ми поговоримо про те, як створити та оптимізувати WordPress robots.txt для SEO.
Створення файлу robots.txt
- Просто створіть файл txt з ім'ям robots.txt .
- Завантажте його через FTP у кореневу папку. Хорошим правилом є збереження файлу robots.txt в тому ж місці, що й файл індексу .
Встановлення правил всередині robots.txt
Robots.txt має свій власний синтаксис для визначення правил, які називаються " директивами ".
Основний синтаксис robots.txt
Кілька термінів, які ви повинні бути знайомі при написанні правил.
- User-Agent - визначає сканер пошукової системи, як Googlebot, Bingbot і т.д.
- Заборонити - Дозволяє сканеру не сканувати певні файли, сторінки або каталоги
- Зірочка (*) - визначає універсальні директиви. Вибір усіх з них
Файл robots.txt зазвичай починається з імені агента користувача. Потім за ним вказують вказівки Дозволити або Заборонити в наступному рядку. Якщо ви хочете заблокувати всі пошукові роботи з усього веб-сайту, ви повинні налаштувати файл robots.txt таким чином:
User-agent: * Disallow: /
Аналогічно, наступний код дозволить лише повноцінному доступу Вашого сайту до Google, де всі інші сайти не можуть сканувати на вашому веб-сайті.
User-agent: Googlebot Disallow: User-agent: * Disallow: /
Додатковий синтаксис
Ось ще кілька синтаксисів:
- Дозволити - Дозволяє сканувати ботів на сервері
- Sitemap - повідомляйте сканерам, де знаходиться ваша мапа сайту
Дозволити використовується, коли ви хочете надати пошуковим системам доступ до певних частин вашого сайту
Агент користувача: * Дозволити: /wp-includes/my-file.php Disallow: / my-includes /
Наведений вище код дозволить пошуковим ботам отримувати доступ лише до мого файлу . php файл всередині мого - включає в себе каталог . Ви також можете додати рядки мапи сайту до файлу robot.txt. Лінії директиви sitemap покажуть пошуковим системам, де знайти мапу сайту вашого сайту.
Мапа сайту: http://www.mustbeweb.com/sitemap_index.xml Карта сайту: http: // www.mustbeweb.com /post-sitemap.xml Карта сайту: http: // www.mustbeweb.com /page-sitemap.xml Карта сайту : http: // www.mustbeweb.com /category-sitemap.xml Карта сайту: http: // www.mustbeweb.com /post_tag-sitemap.xml
Примітка: Корисність прив'язки XML-мапи сайту до файлу robots.txt є спірним. Таким чином, краще буде додавати їх вручну до інструментів Google і Bing Webmaster. У нас є ціла Розділ статей про файли Sitemap, які можна прочитати, щоб дізнатися більше про файли Sitemap.
Керівні принципи Вашого файлу Robots.txt для SEO
- Рекомендується не використовувати файл robots.txt, щоб приховати вміст низької якості.
- Не використовуйте файл robots.txt, щоб завадити Google індексувати вашу категорію, дату та інші сторінки архіву
- Не потрібно додавати свою сторінку входу до WordPress, адмін-каталог або сторінку реєстрації в файл robots.txt, тому що WordPress не додав тег індексу як мета-тег на цих сторінках.
- Рекомендується заборонити файл readme.html у файлі robots.txt. Заборона файлу readme приховує версію вашого WordPress і захищає вас від цих масових атак.
- Заборонити ваш каталог плагінів WordPress для посилення безпеки вашого сайту.
- Не використовуйте коментарі в файлі Robots.txt.
- Не зберігайте простір на початку будь-якого рядка і не створюйте звичайний простір у файлі.
Що таке ідеальний файл Robots.txt?
Ось приклад файлу robots.txt, який ми використовуємо на нашому сайті.
sitemap: http://www.mustbeweb.com/sitemap_index.xml Агент користувача: * Disallow: / cgi-bin / Disallow: / wp-admin / Disallow: / wp-includes / Disallow: / archives / Disallow: *? replytocom Disallow: / comments / feed / User-agent: Mediapartners-Google * Дозволити: / User-agent: Googlebot-Image Дозволити: / wp-content / uploads / User-agent: Adsbot-Google Allow: / User-agent: Googlebot -Мобільний дозвіл: /
Налаштування файлу robot.txt є важливим кроком для SEO. Однак заборона доступу Google до занадто великої кількості вашого сайту може мати негативний вплив на рейтинг результатів пошуку. Сучасною тенденцією є мінімальне налаштування robots.txt . Також переконайтеся, що файл robots.txt налаштований правильно. Якщо файл robots.txt неправильно налаштований, його можна повністю ігнорувати пошуковими системами, що призведе до повного зникнення вашого сайту з пошукових систем. Тому ваш файл robots.txt повинен бути добре оптимізований і не повинен блокувати доступ до важливих частин вашого блогу.
Файл Robot.txt є дискусійною темою. Немає узгодженого стандарту для кращої практики налаштування файлу robots.txt у термінах SEO. Тому ми рекомендуємо вам створити власний файл robots.txt відповідно до ваших вимог.
Наступні дві вкладки змінюють вміст нижче.
Кантиман Байрачарья - позаштатний веб-розробник. Він комп'ютерний ініціатор, який має ступінь бакалавра з комп'ютерної інженерії. Він заслужив багато задоволених клієнтів, працюючи на численних успішних проектах. Він також є творцем теми WordPress і автором веб-статті. У вільний час він любить читати філософські книги, подорожувати і грати в шахи.
Txt?Xml Агент користувача: * Disallow: / cgi-bin / Disallow: / wp-admin / Disallow: / wp-includes / Disallow: / archives / Disallow: *?