Robots.txt to prosty plik tekstowy zawierający zasady indeksowania witryny. Plik robots.txt to narzędzie do bezpośredniej komunikacji z wyszukiwarkami. Jednym z najczęstszych zastosowań pliku robots.txt jest ukrycie pewnych części witryny internetowej, które mogą być niekompletne lub na etapie tworzenia od robotów wyszukiwarek. Zasadniczo informuje wyszukiwarki, które części witryny mogą indeksować, a które nie indeksować. WordPress sam w sobie zawiera wirtualny robots.txt. Nawet jeśli nie masz pliku robots.txt, wyszukiwarka nadal będzie indeksować Twoją witrynę. Jednak posiadanie własnego ręcznego pliku robots.txt zapewnia lepszą kontrolę nad rzeczami. W tym artykule omówimy, jak tworzyć i optymalizować WordPress robots.txt dla SEO.
Tworzenie pliku robots.txt
- Wystarczy utworzyć plik txt o nazwie robots.txt .
- Prześlij go przez FTP do folderu głównego. Dobrą zasadą jest przechowywanie pliku robots.txt w tym samym miejscu, co plik indeksu .
Ustawianie reguł wewnątrz robots.txt
Robots.txt ma własną składnię do definiowania reguł zwanych „ dyrektywami ”.
Podstawowa składnia robots.txt
Kilka warunków, które powinieneś znać podczas pisania reguł.
- User-Agent - definiuje robota wyszukiwarki, takiego jak Googlebot, Bingbot itp.
- Disallow - nakazuje przeszukiwaczowi, aby nie przeszukiwał zdefiniowanych plików, stron lub katalogów
- Gwiazdka (*) - definiuje uniwersalne dyrektywy. Wybieranie ich wszystkich
Plik robots.txt zwykle rozpoczyna się od nazwy agenta użytkownika. Następnie następuje polecenie Zezwól lub Nie zezwalaj w następnym wierszu. Jeśli chcesz zablokować wszystkie boty wyszukiwania z całej witryny, skonfiguruj robots.txt w następujący sposób:
User-agent: * Disallow: /
Podobnie poniższy kod zezwala tylko Google na pełny dostęp do Twojej witryny, ponieważ wszystkie inne witryny nie mogą indeksować w Twojej witrynie.
User-agent: Googlebot Disallow: User-agent: * Disallow: /
Dodatkowa składnia
Oto kilka dodatkowych składni:
- Zezwól - umożliwia indeksowanie botów na serwerze
- Mapa strony - Powiedz robotom indeksującym, gdzie znajduje się Twoja mapa witryny
Zezwól jest używany, gdy chcesz dać wyszukiwarkom dostęp do pewnych części Twojej witryny
User-agent: * Allow: /wp-includes/my-file.php Disallow: / my-includes /
Powyższy kod pozwoli robotom wyszukującym uzyskać dostęp tylko do mojego pliku . plik php w katalogu my - includes . Możesz także dodać linie związane z mapą witryny do pliku robot.txt. Linie dyrektywy sitemap powiedzą wyszukiwarkom, gdzie znaleźć mapę witryny Twojej witryny.
Mapa strony: http://www.mustbeweb.com/sitemap_index.xml Mapa strony: http: // www.mustbeweb.com /post-sitemap.xml Mapa strony: http: // www.mustbeweb.com /page-sitemap.xml Mapa witryny : http: // www.mustbeweb.com /category-sitemap.xml Mapa strony: http: // www.mustbeweb.com /post_tag-sitemap.xml
Uwaga: przydatność łączenia mapy witryny XML z robots.txt jest kontrowersyjna. Lepszym sposobem będzie więc ręczne dodanie ich do Narzędzi dla webmasterów Google i Bing. Mamy cały sekcja artykułów o mapach witryn, które możesz przeczytać, aby dowiedzieć się więcej o mapach witryn.
Wytyczne Twój plik Robots.txt dla SEO
- Zaleca się nie używać pliku robots.txt do ukrywania treści niskiej jakości.
- Nie używaj pliku robots.txt, aby uniemożliwić Google indeksowanie kategorii, daty i innych stron archiwum
- Nie jest konieczne dodawanie strony logowania WordPress, katalogu administracyjnego lub strony rejestracyjnej do robots.txt, ponieważ WordPress nie dodał żadnego indeksu jako metatagu na tych stronach.
- Zaleca się zablokowanie pliku readme.html w pliku robots.txt. Niedopuszczenie do pliku readme ukrywa wersję twojego WordPressa i chroni cię przed tymi masowymi atakami.
- Nie zezwalaj swojemu katalogowi wtyczek WordPress na wzmocnienie bezpieczeństwa twojej witryny.
- Nie używaj komentarzy w pliku Robots.txt.
- Nie przechowuj spacji na początku żadnej linii i nie twórz zwykłego miejsca w pliku.
Jak powinien wyglądać idealny plik Robots.txt?
Oto przykład robots.txt, którego używamy w naszej witrynie.
sitemap: http://www.mustbeweb.com/sitemap_index.xml User-agent: * Disallow: / cgi-bin / Disallow: / wp-admin / Disallow: / wp-includes / Disallow: / archives / Disallow: *? replytocom Disallow: / comments / feed / User-agent: Mediapartners-Google * Zezwól: / User-agent: Googlebot-Image Zezwalaj: / wp-content / uploads / User-agent: Adsbot-Google Zezwól: / User-agent: Googlebot -Zezwalaj na telefon komórkowy: /
Konfiguracja pliku robot.txt jest ważnym krokiem dla SEO. Jednak uniemożliwienie Google dostępu do zbyt dużej części witryny może mieć negatywny wpływ na ranking wyników wyszukiwania. Współczesnym trendem jest minimalna konfiguracja robots.txt . Upewnij się również, że plik robots.txt jest poprawnie skonfigurowany. Jeśli plik robots.txt jest nieprawidłowo skonfigurowany, może zostać całkowicie zignorowany przez wyszukiwanie silników, co spowoduje całkowite zniknięcie witryny z wyszukiwarek. Dlatego plik robots.txt powinien być dobrze zoptymalizowany i nie powinien blokować dostępu do ważnych części bloga.
Plik Robot.txt jest tematem dyskusyjnym. Nie ma uzgodnionego standardu najlepszych praktyk dotyczących konfigurowania robots.txt pod względem SEO. Dlatego zachęcamy do stworzenia własnego pliku robots.txt zgodnie z własnymi wymaganiami.
Następujące dwie karty zmieniają zawartość poniżej.
Kantiman Bajracharya jest niezależnym twórcą stron internetowych. Jest maniakiem komputerowym, który posiada tytuł licencjata w dziedzinie inżynierii komputerowej. Zdobył wielu zadowolonych klientów podczas pracy przy wielu udanych projektach. Jest także twórcą motywów WordPress i autorem artykułów internetowych. W wolnym czasie lubi czytać książki filozoficzne, podróżować i grać w szachy.
Txt?Xml User-agent: * Disallow: / cgi-bin / Disallow: / wp-admin / Disallow: / wp-includes / Disallow: / archives / Disallow: *?