- Co to jest robots.txt?
- Jak utworzyć plik robots.txt?
- Jakie instrukcje dajesz?
- Agent użytkownika, Disallow i Allow
- Zalety i wady robots.txt dla optymalizacji pod kątem wyszukiwarek (SEO)
- Testowanie przez Google
- Na koniec kilka punktów, na które należy zwrócić uwagę
Co sądzisz o tym artykule?
(Średnia 3,8 / 5)
Plik robots.txt to bardzo ważny sposób informowania Google o tym, do czego mogą uzyskać dostęp, a czego nie. Oprócz Google wszystkie główne wyszukiwarki obsługują podstawową funkcjonalność tego pliku instrukcji. Używanie go jest zwodniczo proste, aw tym artykule możesz przeczytać, co możesz z nim zrobić. Ale uwaga: błąd i witryna mogą być niepoprawnie zaindeksowane.
Co to jest robots.txt?
Plik robota to plik tekstowy, który umieszczasz (przez FTP) w katalogu głównym domeny. Plik zawiera ścisłe instrukcje przeznaczone dla robotów indeksujących, takich jak Google. Gdy Google przychodzi do Twojej witryny, robot najpierw sprawdza, czy istnieje plik robots.txt. Robot następnie określa, które strony witryny są odwiedzane i indeksowane przez Google.
Już zauważyłeś, że ten plik może być ważny w optymalizacji Twojej wyszukiwarki. W końcu czasem chcesz, aby strony lub części Twojej witryny nie były wyszukiwane przez Google. Przeczytaj o tym w tym artykule to pisałem wcześniej. Nawiasem mówiąc, roboty złośliwego oprogramowania, które szukają naruszeń bezpieczeństwa, ignorują plik pomocy.
Możesz:
- Wyszukiwarki odmawiają dostępu do niektórych sekcji
- Zapobiegaj duplikowaniu treści
- Spraw, by wyszukiwarki przeszły bardziej efektywnie w Twojej witrynie.
Jak utworzyć plik robots.txt?
Tworzenie pliku robots.txt jest łatwe. Otwierasz swój program notatnika i możesz wydawać instrukcje. Następnie zapisujesz plik małymi literami (robots.txt), a nie kapitałem (robots.txt, Robots.TXT). Następnie umieszczasz plik tekstowy w katalogu głównym („root”) Twojej domeny, zazwyczaj za pośrednictwem FTP. Zwykłym katalogiem głównym jest /www/jedomeinnaam.nl lub public_html.
Wyszukiwarki znajdują plik robots.txt za pośrednictwem https://www.jedomeinnaam.nl/robots.txt
Zawsze używaj pliku robots.txt, nawet jeśli jest on pusty (a roboty indeksujące mogą odwiedzić wszystko). Podczas przesyłania pliku robots.txt można zapisać ruch danych, błędy 404 (nie znaleziono) i długie pliki dziennika błędów. Po prostu określ, ile wymaga wiedzy technicznej. (Odciążamy klientów naszej strony internetowej: zawsze umieszczamy plik robots.txt).
Jakie instrukcje dajesz?
Teraz masz plik robots.txt i wiesz, jak go umieścić na swojej stronie. Ale jakie instrukcje podajesz?
Agent użytkownika, Disallow i Allow
Agent użytkownika oznacza nazwę wyszukiwarki, która przychodzi do odwiedzenia. Disallow oznacza instrukcje za pośrednictwem robots.txt, które wykluczają sekcje witryny. Googlebot ma również zasady włączenia. W ten sposób określasz, które pliki są dozwolone w indeksie. Robisz to za pomocą Pozwól.
- PRZYKŁAD: Nie chcesz, aby robot przeszukiwał dowolną stronę. To jest instrukcja:
Robots.txt: pomóż Google odwiedzić Twoją witrynę
Agent użytkownika: *
Disallow: /
Linia User-agent: * wskazuje, że instrukcje dotyczą wszystkich przeszukiwaczy, a linia Disallow: / wskazuje, że przeszukiwacz nie może odwiedzać żadnej strony. Nie zapomnij użyć ukośnika.
- PRZYKŁAD: Chcesz, aby robot mógł odwiedzać wszystkie pliki w folderze głównym i podfolderach. To jest instrukcja:
Agent użytkownika: *
Disallow:
- PRZYKŁAD: Chcesz, aby przeszukiwacz pomijał pliki w określonych folderach. To jest instrukcja:
Agent użytkownika: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / images /
W tym przykładzie nie można indeksować folderu z obrazami, tmp i cgi-bin. Pliki w innych folderach mogą być odwiedzane.
- PRZYKŁAD: Chcesz wykluczyć niektóre szkodliwe programy. To jest instrukcja (przykładowa):
Agent użytkownika: BadBot
Disallow: /
W takim przypadku BadBot jest wykluczony. Każdy inny robot ma dostęp.
- PRZYKŁAD: Chcesz podać konkretne instrukcje Google. To jest instrukcja (przykładowa):
Agent użytkownika: Google
Disallow: /underconstruction.html
W tym przykładzie nie zezwalasz Google na odwiedzanie pliku underconstruction.html.
- PRZYKŁAD: Chcesz mieć pewne foldery WordPress (nie) odwiedzane w określony sposób. Jest to najczęstsza instrukcja dla witryn WordPress:
Disallow: / wp-admin /
Zezwól: /wp-admin/admin-ajax.php
Przy okazji, jeśli użyjesz disallow: / wp-admin /, zdaj sobie sprawę, że ma to ograniczoną wartość. Zapytanie inurl: wp-admin jest lubiane przez złośliwe strony, aby znaleźć (login) Twojej witryny.
- PRZYKŁAD: Chcesz udostępnić Google tylko folder plików PDF, ale nie inne foldery.
Agent użytkownika: Googlebot
Disallow: /
Zezwól: / pdf /
- PRZYKŁAD: Chcesz zastosować pewne filtry, które mogą i nie mogą być odwiedzane. Na przykład może być przydatny w sklepach internetowych:
# Filtry
Disallow: / * size =
Disallow: / * categoriel =
Disallo: / * pc accesories =
Zalety i wady robots.txt dla optymalizacji pod kątem wyszukiwarek (SEO)
Każda witryna ma „dodatek” na liczbę stron, których używa robot indeksujący. Jeśli zablokujesz niektóre części, możesz użyć tego dodatku dla innych sekcji. Może to być przydatne w miejscach, w których chcesz oczyścić swoje SEO.
Wadą jest to, że za pomocą pliku robots.txt nie można polecić Google, aby nie wyświetlał pewnych adresów URL w wynikach wyszukiwania. Oznacza to, że Google może ominąć Google. Na przykład, jeśli robot indeksujący znajdzie wystarczającą liczbę (zewnętrznych) linków do konkretnej strony w witrynie, zostanie po prostu wyświetlony w Google.
Testowanie przez Google
Możesz go mieć narzędzie do testowania robots.txt z Google, aby zobaczyć, jak Google odwiedza Twoją witrynę.
Na koniec kilka punktów, na które należy zwrócić uwagę
Następujące punkty są często pomijane, gdy zaczynasz używać SEO dla swojego SEO.
- Każdy może uzyskać dostęp do pliku robots.txt. Ponieważ plik jest publiczny, nie przechowuj żadnych informacji osobistych ani tajnych. Lepiej nie dołączać folderów, takich jak / secret, / secret / logowanie do pliku tekstowego
- Robots.txt nie jest obowiązkowy: jeśli nie wiesz, jak zaimplementować plik pomocy, nie rób tego samodzielnie i zlecaj go na zewnątrz.
- Linki zewnętrzne mogą ignorować Twoje instrukcje. Jeśli inne witryny odwołują się do wykluczonych części witryny, Google może je jeszcze indeksować.
- Możesz dodać mapy witryn do swojego kontekstu, ale lepiej dodać je ręcznie za pomocą Google Search Console. Nie jesteś zależny od momentów, w których robot przychodzi na twoją stronę: możesz poinstruować Google, aby ponownie przyszedł.
- Uważaj na prawidłowe instrukcje, ale nie bój się ich używać.
- Czytaj także Wytyczne Google dotyczące plików robots.txt .
- Robots.txt jest aktywny głównie w tle. Roboty meta pomagają robotom indeksującym na Twojej stronie z instrukcjami takimi jak index / noindex i follow / nofollow. Możesz przeczytać, jak to działa dokładnie w tym artykule .
Txt?
Jakie instrukcje dajesz?
Txt?
Txt?
Jakie instrukcje dajesz?
Ale jakie instrukcje podajesz?