- тэхна і цэнаўтварэнне на баку, ёсць два радкі:
- RAM: чым больш, тым лепш!
- 64-бітны ці нічога
- Файл канфігурацыі ScreamingFrogSEOSpider.l4j.ini
- Фільтр карысныя і бескарысныя URL-адрасоў
- Прапусціць старонкі NoIndex
- Не вынікайце NoFollow спасылкі
- павага robots.txt
- Абмежаванне глыбіні URL-адрасоў
- Каб ігнараваць інтэграцыі Google Analytics і Search Console
- сегментацыя сайта
- Акрамя таго, увага да рэсурсаў вэб-сервера!
- Перасяленне Якія крычаць жабы воблака
Нагадаю для тых, хто высадзіць у SEO, карыснасць шукальнікам: гэта праграма (анлайнавы сэрвіс, або «боты»), якія просяць, каб прагледзець сайт ад спасылкі да спасылцы на ўраджай усе выкарыстоўваныя дадзеныя ў SEO (назва, мета, памер, колькасць выходных спасылак, глыбіня і г.д.). Ёсць мноства бясплатнага абслугоўвання «усё ўключана», калі гэта лепш не мець марскіх вожыкаў у кішэнях. Ва ўсякім выпадку, гусенічны важна, калі хто-небудзь хоча, каб прааналізаваць сайт.
тэхна і цэнаўтварэнне на баку, ёсць два радкі:
- Рашэнні для настольных кампутараў, якія з'яўляюцца традыцыйнымі праграмамі, устаноўленыя на працоўнай станцыі (Якія крычаць жаба адзін з іх)
- онлайн рашэння, якія часам называюць рашэння «воблака» або «Саас» (праграмнае забеспячэнне як паслуга).
Якія крычаць жабы SEO Павук, безумоўна , зорка гусенічным « працоўнага стала». Зроблена ў SEO для SEO, ён вельмі папулярны ў супольнасці дзякуючы свайму суадносінах кошту / якасці.
95% часу (гэты паказчык можа вар'іравацца ў залежнасці ад аднаго пастаўшчыка / праекта да іншага), Якія крычаць Жаба «ластаўчын» любы сайт ... але калі далі вялікі праект, ўключаюць у сябе больш 100000 URL-адрасоў, на гусенічным выяўляе сябе хутка з заднімі зубамі, якія купаюцца: перапыненне поўзаць, запаволенне, аварыя, насычаны RAM з'яўляецца найбольш вядомымі эфектамі. У адрозненне ад пошукавых робатаў Saas Якія крычаць жабы залежыць ад прадукцыйнасці вашай машыны. Гэта не «які маштабуецца». І самае горшае, верагодна, апрацоўка дадзеных у далейшым, Excel, напрыклад, дзе найменшае можа заняць доўгія гады. На самай справе, першае, што трэба праверыць на крычала Frog з'яўляецца тое, што «Break On выкарыстання памяці» пазначана (па змаўчанні), проста каб захаваць і аднавіць сканаванне пасля.
Але бачыць, рашэнне, каб рассунуць межы бясконцыя! Мэтай гэтага паста з'яўляецца дваякай: абмежаваць спажыванне рэсурсаў Якія крычаць жабы, і асабліва скараціць экспарт дадзеных для «казаць» , то Excel (ці іншай табліцы).
RAM: чым больш, тым лепш!
На працягу ўчастка поўзаць, тым больш яна будзе прымаць аператыўную памяць для захоўвання дадзеных. Калі запусціць Якія крычаць Жаба на ноўтбуку з менш чым 4 Гб аператыўнай памяці, ваш поўзаць, верагодна, перарываюць наваколлі 40000 URL. Калі ваша машына мае больш за 4 ГБ аператыўнай памяці, вам трэба будзе зрабіць некаторыя налады, але будзьце ўпэўненыя, гэта вельмі проста.
64-бітны ці нічога
Для таго, каб выкарыстоўваць больш за 4 ГБ аператыўнай памяці, ваша працоўнае асяроддзе павінна быць імператыўна «поўны 64-бітны.» У прыватнасці, аперацыйная сістэма (Windows вышэй) павінна быць 64-бітнай. Але гэта яшчэ не ўсё, Якія крычаць жаба таксама будзе працаваць з версіяй Java Runtime 64bit калі вы хочаце, каб ваш любімы сканер не застанецца анарэксіяй! Ніколі не бойцеся, Windows, 64-разрадная сістэма можа вельмі добра жыць з 32-разраднай версіяй. Але, каб зрабіць вялікую частку аператыўнай памяці, гэта яшчэ адзін хак, каб ...
Файл канфігурацыі ScreamingFrogSEOSpider.l4j.ini
Цяпер мы павінны ўсталяваць Якія крычаць жабу, каб вызначыць выдзеленую памяць. У каталогу ўстаноўкі, адрэдагуйце файл ScreamingFrogSEOSpider.l4j.ini: Калі вы, напрыклад, 16 Гб аператыўнай памяці, павярнуць гісторыю -Xmx12g не задыхнуцца аперацыйнай сістэмай. Увага база значэнне па змаўчанні ўсталёўваецца на прыліўных рамонкаў ці 512 Мб аператыўнай памяці!
Цяпер, калі слоты памяці працуюць з OCD і RAM сканфігураваць з лукам, ёсць яшчэ шмат рычагоў, каб памножыць магутнасць Якія крычаць жабы і зрабіць яго абжора дадзеных. Вы можаце нават разгледзець сайты каля аднаго мільёна адрасоў! Цяпер мы павінны ўсталяваць дакладна SF.
Фільтр карысныя і бескарысныя URL-адрасоў
непатрэбныя рэсурсы
URL-адрас не абавязкова азначае старонку HTML ;-) Я маю на ўвазе, любы іншы рэсурс, такія як JavaScript-файлы, малюнкі, CSS і г.д., не маюць вялікае перавага SEO. На самай справе, калі мы спрабуем захаваць аператыўную памяць, таму не нагружаць свае рэчы з непатрэбнымі URL-адрасоў! Але не спакушайцеся: гэта не дастаткова , каб зняць усе , што не цікавае для SEO (IMG, JS, CSS і г.д.) у Налады> Павук> Basic , таму што Якія крычаць жабы да гэтага часу захоўваюць адрасы гэтых рэсурсаў , Для гэтага патрабуецца crééer правіла выключэння наступным чынам:
У меню Configuartion> Exlude, дадайце наступныя радкі (адаптуюцца ў выпадку неабходнасці):
. *. Jpg. *
. *. Jpeg, *.
. *. Png. *
. *. Gif. *
. *. Css. *
. *. Js. *
. *. Zip. *
Калі вы прывыклі да рэгулярных выразаў, вы заўважыце, што я не абраў фармат *. Jpg $ URL, таму што часам «малюнак» у цяперашні час палубных параметры, як можна бачыць з WordPress, напрыклад.
Я б рэкамендаваў, каб запусціць першы частковы поўзаць, прыязную 10 ці 20%, без выключэння, закліканага бачыць рэсурсы. Часам знойдзеныя скрыпты для адлюстравання малюнкаў, такіх як photo.php? ID = ххх, якія не маюць ніякай цікавасці да якога-небудзь аналізу. У гэтым выпадку дадайце правіла выключэння ў наладах> Выключыць з (напрыклад). Photo.php *. *.
Прапусціць старонкі NoIndex
Ён таксама ахвяруючы старонкі NoIndex праз меню налады> Павук> Пашыранага праверкі «Респект NoIndex». Калі аб'ём вялікі, такім чынам, вызваляе аператыўную памяць і асабліва экспарт у CSV / XLS.
Сцеражыцеся пабочных эфектаў з гэтай опцыяй! Старонка катэгорыі, якая не мае ніякіх падставаў для індэксавання (дублюецца змест і г.д.) шмат добрых прычын, каб мець NoIndex дырэктыву. Але калі выключыць гэтыя старонкі шукальніку, гэта будзе вельмі цяжка знайсці старонкі ў выніку! Акрамя таго, NOINDEX не абавязкова звязаны з NoFollow.
Зноў жа я рэкамендую выконваць частковае сканаванне, каб ацаніць тыпалогію NoIndex старонак. Калі сцэнары form.php або panier.php стыль з'яўляецца асноўнай часткай URL-адрасы метатекли noindex, то гэта будзе пераважней, каб выключыць іх, як паказана непасрэдна перад. Ва ўсіх выпадках, пераканайцеся , каб звесці да мінімуму перашкоды выявіць старонкі гусенічным (і рухавіка!).
Не вынікайце NoFollow спасылкі
Увогуле, калі спасылка мае атрыбут NoFollow з'яўляецца тое, што ён не хоча бачыць мэтавую старонку ў пошукавых сістэмах. Можна без асаблівых ваганняў зніміце адносныя NoFollow параметры ў Setup> Павук> Basic. Гэта таксама дапамагае наблізіцца да «рухавіку бачання" (Googlebot). Пасля таго, як я прызнаюся, што часта я сустракаю асацыяцыі выдаўцоў без метатега noindex і NoFollow адрозненні з наступствамі, якія мы ведаем. Часам неабходна зрабіць поўзаць прымушаючы SF прытрымлівацца гісторыі NoFollow, каб убачыць, калі няма спасылак ігнаруюцца.
павага robots.txt
Як і NOFOLLOW згадвалася ледзь вышэй, можна таксама спытаць Кулака Frog выконваць дырэктывы robots.txt. У некаторых праектах, аб'ём URL-адрасы, прадстаўленых забараніць часам значным. Паклапаціцеся , каб зняць «Паказваць ўнутраныя URL - адрасы заблякаваны ў файле robots.txt» у Налады> Павук> Basic, тое ж самае для «Ігнараваць robots.txt.» Я памятаю, хоць, што гэты савет асабліва ставіцца да палягчэння аператыўнай памяці, але гэты від апцыёна можа забяспечыць пэўны плюс у звычайны час.
Абмежаванне глыбіні URL-адрасоў
Sacrilege якая ідэя! Паўзці толькі справядліва , калі яна будзе завершана! Вы кажаце, што ...
Вядома! Асабліва падчас аўдыту, калі мы хочам, каб паказаць кліенту, што яго старонкі зраўняць 6+ ня асушыць арганічнага руху, яны павінны быць сабраны добра. Калі не ўсё яшчэ маюцца выпадкі, калі гэта абмежаванне можа быць ўжыта: я працаваў шмат аднаўлення «рэшата» праекты, генераваных URL-адрасы бясконцага цыкл, Drupal мой пераможца ў гэтым рэгістры. Так як мы ўсталявалі (хутка) праблема, мяжа фіксаваны, Налада> Павук> Limit. У чым бліжэй вы да пэўнага "выгляд рухавіка», таму што праз некаторы час Сканеры выявіць бясконцыя цыклы (павук пасткі) і спыніць шукальнік.
Гэтая логіка таксама можа быць адаптаваная да «Абмежаванне колькасці радкоў запыту», гэта значыць параметраў URL-адрасоў, якія стэка не будзе канца. На участках з дрэнна структураванай URLs архітэктуры, то лепш за ўсё ўсталяваць мяжа, асабліва, калі ён пераходзіць у бясконцы цыкл.
Каб ігнараваць інтэграцыі Google Analytics і Search Console
З версіі 4 і 5 Якія крычаць жабы, можна аднавіць ГВ і дадзеныя SC праз API з іх. Гэта аб'яднанне дадзеных, несумненна, з'яўляецца выдатным і катастрафічна не хапае ў SF візаві «Saas» сваіх канкурэнтаў. Але на сайтах з вялікім аб'ёмам, павялічвае дэ-факта маса сабраных дадзеных. Мая парада ігнараваць на паўзці, але захаваць / звязаць гэтыя дадзеныя пазней у Excel, напрыклад (гл мой падручнік па ВПР і супер комба SEO ).
сегментацыя сайта
Гэта ідэя, якая мае сэнс, але гэта не неістотнае. Такім чынам, мы зрабілі некалькі абыходаў у адпаведнасці з вэб-сайта розных частак: подобластей, блог, каталог і г.д. На самай справе гэта апошні сродак, утопія. Калі сайт з'яўляецца настолькі вялікім, каб сегментаваць доўг, увесь экспарт, аналіз, дублявання, аб'яднання і г.д., таксама будуць размежаваны. Асабіста я не магу так працаваць. Мне патрэбен агляд, каб зрабіць надзейныя статыстычныя дадзеныя. Гэта не замінае мне вызначыць розныя тэмы / часткі сайта пазней выйсці статыстыку сегментаваць.
Пры наяўнасці некалькіх мільёнаў старонак, гэта здарылася са мной, так што я накіроўваюся да рашэнняў Саас, як напрыклад DeepCrawl. Але я лічу, што значна менш гнуткім (і больш дарагія), чым комба SF + Excel. Кожнаму сваё ў рэшце рэшт.
Акрамя таго, увага да рэсурсаў вэб-сервера!
Нягледзячы на тое, што гэта крыху не па тэме, але паблажлівы з серверам сайта, які вы будзеце поўзаць, асабліва калі гэта бездань ў URL-адрасоў! Калі вы некалькі не абмяжоўвае колькасць адрасоў папоўз у секунду, вы можаце падкрэсліць яго, убачыць яго на калені. Аддаюць перавагу ноч поўзае, і паменшыць крыло ў Налады> Хуткасць.
Перасяленне Якія крычаць жабы воблака
Манеўр можа здацца прывабным: выкарыстоўваючы сілу аблокі для запуску крычала жаб. Amazon, як Google прапануе арандаваць віртуальныя машыны «маштабуюцца» у тэорыі, якая дазваляе SF праглынуць любы тып праекта. У сувязі з гэтым, я прапаную вам прачытаць гэта вельмі падрабязная артыкул (EN), які падрабязна тлумачыць, як усталяваць.
Калі вы хочаце, мой пункт гледжання, гэта не варыянт для мяне. Кошт і час выканання, а прымушае мяне звярнуцца да прылад Саас як Botify або DeepCrawl. справа звычкі таксама!