Азбука кластеризації

Що таке кластеризація?
Об'єднання запитів з однаковим ІНТЕНТ
Перевірка сумісності просуваються запитів
Підведемо підсумки

Автор: Олексій Чекушіна - SEO-Експерт Kokoc.com (Kokoc Group), творець сервісу Just-Magic.org

У своїй попередній статті: « Непорочне просування: як рухати сайти без посилань »Я назвав кластеризацию одним з ключових факторів успіху в просуванні. У цій публікації я докладно розбираю, що таке кластеризація, і як правильно застосовувати її.

Що таке кластеризація?

Це автоматичне об'єднання запитів в групи, яке вирішує два важливі завдання:

Об'єднання схожих запитів (з однаковим «ІНТЕНТ») незалежно від їх семантичної схожості. ( «Интент» = намір користувача). Наприклад, запити «зняти квартиру» і «оренда квартир» - висловлюють одне і те ж бажання користувача.
Перевірка сумісності просуваються запитів: чи можна їх просунути на одній сторінці в топ Яндекса одночасно. Тобто чи можливо підлаштувати оптимізацію сторінки під всі ці запити. Або ж якісь запити вимагають винесення на окрему сторінку.

З усіх існуючих сьогодні методів найбільш ефективно ці завдання вирішує, так звана, «кластеризація по топів», коли запити порівнюються за кількістю однакових URL-ів в топ-10 Яндекса.

Тепер поговоримо про кожному пункті докладніше.

Об'єднання запитів з однаковим ІНТЕНТ

Що таке запити з однаковим ІНТЕНТ? Це різні запити, в яких людина, насправді, шукає одне і те ж. Очевидно, що запити «телевізори самсунг» і «телевізори samsung» повинні просуватися на одній сторінці. Але це - явні речі.

Однак існують і куди менш очевидні приклади:

«Спецодяг» - «робочий одяг»
«Іпотека» - «кредит під заставу квартири»
«Автоломбард» - «кредит під заставу авто»

Семантично ці пари зовсім не схожі, але фактично означають одне і те ж. Класичні способи пошуку таких запитів, що володіють єдиним ІНТЕНТ (наміром користувача), грунтуються на синоніми. Як правило, з цією метою використовують словники синонімів або синоніми Яндекса. Однак в обох методах є свої серйозні мінуси.

Якщо ми будемо користуватися словниками синонімів, то знайдемо там вельми дивні зв'язку. Наприклад, відповідно до одного з найпопулярніших словників, синонімом до «мобільний телефон» є:

мобіла
мобільник
радіотелефон
Сотовик
стільниковий телефон
телефон
ебонітовий один

Стільниковий телефон - однозначно корисний синонім. А ось «радіотелефон» - зовсім інший тип товару. Ну а хто такий «ебонітовий друг», залишається тільки здогадуватися.

Другий варіант пошуку синонімів - спробувати «вицепіть» їх з висвітлює Яндекса. Але це пов'язано з двома проблемами:

По-перше, підсвічуються не тільки синоніми, а й інші слова. Наприклад, в підсвітку за ключовою фразою «мобільний зв'язок» потрапляє не тільки синонім «мобільні», а й: «ціни», «москва», «купити», «каталог», які підсвічуються з інших причин. В цілому, це проблема вирішувана, обхідні шляхи є.

По-друге, синоніми в Яндексі є навзамін. Наприклад, входження «мобільні телефони» є синонімом до запиту «мобільний зв'язок», а в зворотному порядку це вже не працює. «Стільникові телефони" не буде синонімом до «мобільні телефони», і цей момент стає критично важливим. Як зрозуміти, що запит «мобільний зв'язок» співвідноситься із запитом «мобільні телефони», якщо слово «стільникові» по ньому не підсвічується?

Нарешті, як ви зрозумієте, що запити «ювелірний магазин», «ювелірні вироби» та «ювелірні прикраси» володіють однією ІНТЕНТ, якщо, з точки зору Яндекса, вони не є синонімами?

Рішення проблеми приходить через кластеризацію запитів по топів. Знаходження в топі однакових URL-ів сигналізує про однакове ІНТЕНТ. Ось приклад роботи кластерізатора just-magic:

Ось приклад роботи кластерізатора just-magic:

Начебто, кластерізатор все правильно об'єднав: «мобільні телефони» поклав в одну групу з «стільниковими», а «ювелірні вироби» - в групу, де присутній «ювелірний магазин». Чому ж тоді «ювелірні прикраси» потрапили в окрему групу, незважаючи на те, що тематика тут та сама (це видно по стовпчику «spec-grp»)?

Відповідь на це питання наводимо в наступній частині статті.

Перевірка сумісності просуваються запитів

Для просування нам не просто потрібно зібрати на сторінці схожі запити, необхідно ще й перевірити їх сумісність.

В Яндексі немає єдиної формули ранжирування під всі запити. Запити поділяються на велику кількість типів. І формули для різних типів запитів часто пред'являють до сторінці взаємовиключні вимоги для потрапляння в топ. Причому часто візуально ці запити дуже схожі. Наприклад, запити «смартфон» і «смартфони». Перший - некомерційний, геонезавісімий. Другий - комерційний геозалежний. Як видно, в даному випадку єдине і множина - несумісні на одній сторінці!

Якщо ви раптом подумали що це логічно, то ось ще один приклад: запити «ноутбук» і «ноутбуки». Вони обидва комерційні і геозалежні і прекрасно поєднуються на одній сторінці.

Комерційний і геозалежні - лише два найбільш очевидних ознаки. Насправді, їх набагато більше. Наприклад, головну або внутрішню сторінку пошук хоче бачити в топі за запитом. Коли ми не знаємо всього різноманіття ознак, єдиний спосіб визначити можливість спільного просування запитів на сторінці - це подивитися, чи є URL-и, які одночасно показуються по двом запитам, і підрахувати, скільки їх.

Логіка тут наступна:

Якщо за запитами в топі перебувають однакові URL-и, значить їх можна просунути на одній сторінці.
Якщо за запитами загальних URL-ів немає, то ми не знаємо, чи можливо просунути запити на одній сторінці. Швидше за все, це неможливо.

І тут ми стикаємося з питанням: як саме об'єднувати запити на підставі топів? Я розрізняю два методу - так звані, «soft» і «hard» кластеризації.

Наступна картинка наочно пояснює різницю між ними:

Soft-кластеризація зводиться до наступного: для формування групи береться один «центральний» запит і всі інші порівнюються з ним по кількості загальних URL-ів в топ-10 Яндекса. Якщо кількість загальних URL-ів перевищує поріг - запит додають в групу.

При hard-кластеризації запити об'єднують в групу, тільки якщо є загальний для всіх запитів набір URL-ів, який показується по всіх цих запитах в топ-10.

Soft-кластеризація дає групи бὸльшего розміру, але часто помиляється у визначенні можливості спільного просування запитів на сторінці.

Класичний приклад: уявімо собі, що в якості «центрального» був обраний запит, по якому в топі 5 головних і 5 внутрішніх сторінок. До нього можуть виявитися прив'язані два запити, у одного з яких в топі 10 «морд», в іншого - 10 «внутряк». Очевидно, що з цих трьох запитів ми можемо просунути тільки два (в залежності від типу сторінки, який виберемо - головна або внутрішня). У разі hard-кластеризації поява такої групи неможливо.

Але це все лірика. Перейдемо до чисельних оцінками.

Отже, у нас є два критерії оцінки кластеризації:

Наскільки повно зібрана група запитів. Тобто, чи потрапили в неї все запити, що мають один і той же «Интент». За 100% візьмемо ситуацію, коли всі запити з одним ІНТЕНТ - потрапили.
Наскільки потрапили в групу запити сумісні між собою. За 100% візьмемо ситуацію, коли всі потрапили в кластер запити сумісні між собою.

Ключовий параметр кластеризації - мінімальна кількість загальних URL-ів для створення групи. Це число називають «порогом кластеризації». Чим він вищий - тим точніше одержувані групи, але при цьому вони закономірно зменшуються в розмірах. Експериментальним шляхом було визначено, що мінімальний робочий поріг для «hard» -кластерізаціі - 3 URL-а, для «soft» - 4 URL-а. Працювати з меншим числом - немає сенсу: занадто багато «лівих» запитів потрапляє в групи.

Ось приклад результатів для різних порогів для hard-кластеризації:

Використовуючи сервіс just-magic.org, ми провели порівняння двох методів кластеризації на вибірках з різних тематик. Нижче представлений зведений графік:

Нижче представлений зведений графік:

Порівняння проводилося для методів «soft» і «hard». Для числа пересічних URL-ів від 3-х до 6-ти (це мінімальне число загальних URL-ів для формування кластера).

Як видно з графіка, hard-кластеризація показує дуже високу точність вже при порозі в 3 URL-а - 92%. Щоб читачі статті розуміли, наскільки це велика цифра, наведу приклад: у виконанні досвідченого оптимізатора без інструментів точність буде складати близько 70%, а якщо за роботу візьметься недосвідчений фахівець, точність не буде перевищувати 30%. При цьому, однак, повнота виходить досить низька - всього 40%. Але, знову ж таки, дивлячись, з чим порівнювати. «Руками» оптимізатори набирають максимум 20%.

Soft-кластеризація демонструє дуже хороші показники повноти, але точність - «кульгає на обидві ноги». Прийнятні для просування значення виходять тільки на порозі «5», але при цьому повнота падає до 23%.

Чи означає це, що даний метод непридатний? Ні. Все залежить від вашого завдання. Якщо ви займаєтеся «трафіковий» просуванням, і вам важливо вивести на сторінці якомога більше запитів - неважливо яких, то вам підійде soft-кластеризація. Саме тому, коли в січні цього року в сервісі just-magic.org з'явилася hard-кластеризація, для модуля «маркери» був збережений «soft» -режим.

Якщо ж вам важливо вивести на сторінці певний набір запитів, то ваш вибір однозначний - тільки hard-кластеризація, тільки хардкор. Ще один плюс hard-кластеризації полягає в тому, що одержувані групи - однозначні. Тобто, запити, які опинилися в одній групі з 4 URL-ам, не можуть виявитися в різних групах по 3 URL-ам (при використанні soft-кластеризації, таке запросто може бути). Тому кластерізатор Just-Magic відображає групи відразу по 3,4,5 і 6 URL-ам.

Варто окремо відзначити, що якщо ми хочемо в подальшому проводити текстовий аналіз сторінки, то допустимо використовувати тільки hard-кластеризацию. Справа в тому, що будь-який текстовий аналіз по групі запитів для сторінки дуже строго співвідноситься з якістю цієї групи. Тільки hard-кластеризація забезпечує групи потрібної якості.

Підведемо підсумки

Отже, які бонуси дає кластеризация?

По-перше, це прискорення процесу розбору великих ядер. Раніше на це йшли тижні і місяці роботи. За допомогою кластерізатора оптимізатор робить це за пару годин.

По-друге, це можливість розподілити запити по сторінках таким чином, щоб їх було можливо одночасно просунути. «Ручний» альтернативи кластеризації тут немає - навіть досвідчений оптимізатор здійснює до 30% помилкових розподілів, якщо діє «на око».

Виходячи з другого пункту, стає зрозуміло, що кластеризацию при просуванні потрібно використовувати завжди. Навіть якщо ядро менше 100 запитів, зробити правильно розподіл запитів по сторінках «на око» ви не зможете. Винятком можуть стати лише тематики з наднизькою конкуренцією, де кластеризація по топів перестає працювати через відсутність в топах релевантних відповідей.

Якщо ви займаєтеся «трафіковий» просуванням, то можете користуватися як «soft», так і «hard» методами кластеризації. Якщо ж здійснюєте «позиційне» просування, коли важливо вивести в топ все запити, то підійде тільки метод «hard». Також, з текстовим аналізом сумісний тільки «hard» -режим.

Використовуйте кластеризацию в своїй роботі, і ви знайдете щастя і гармонію, а обнародувано вами запити гарантовано потраплять в топ!

Що таке кластеризація?
Що таке кластеризація?
Як зрозуміти, що запит «мобільний зв'язок» співвідноситься із запитом «мобільні телефони», якщо слово «стільникові» по ньому не підсвічується?
Нарешті, як ви зрозумієте, що запити «ювелірний магазин», «ювелірні вироби» та «ювелірні прикраси» володіють однією ІНТЕНТ, якщо, з точки зору Яндекса, вони не є синонімами?
Чому ж тоді «ювелірні прикраси» потрапили в окрему групу, незважаючи на те, що тематика тут та сама (це видно по стовпчику «spec-grp»)?
І тут ми стикаємося з питанням: як саме об'єднувати запити на підставі топів?
Чи означає це, що даний метод непридатний?

Заказ курсовой работы недорого

Статьи

Азбука кластеризації

Що таке кластеризація?

Об'єднання запитів з однаковим ІНТЕНТ

Перевірка сумісності просуваються запитів

Підведемо підсумки

Новости