Продавать мозги, а не руки: как в MOAB автоматизируют рутину в SEO — Маркетинг на vc.ru

→ Оригинал (без защиты от корпорастов) | Изображения из статьи: [1]

Семантическое ядро таких гигантов, как Ozon или Hoff, содержит сотни тысяч или миллионы запросов. Как собрать и почистить такую семантику всего за 10-15 часов? Ответ на этот вопрос — в большом техническом гайде с внутренней SEO-кухни MOAB. Все описанное читатель сможет повторить самостоятельно с минимальными усилиями.

Последние годы SEO переживает новый ренессанс: по сути, сейчас это единственный способ дотянуться до аудитории Google. Мы в MOAB тоже столкнулись со значительным ростом интереса к услуге, в первую очередь, со стороны крупного и среднего e-com — сейчас мы работаем с OZON, Эвотор, Hoff, VK Group, Divers.ru, Музторгом и многими другими.

Чем больше проектов — тем быстрее агентство утыкается в лимит по производительности. Работа есть — а сделать ее некем (про ситуацию на рынке труда в IT пояснять, наверное, не стоит).

Впрочем, плюс такой ситуации в том, что это — лучший стимул для автоматизации процессов. Фишка автоматизации также и в том, что она продает сама себя:

На пресейле продавцы всегда могут сказать: ну, вот мы тут ядро собрали между делом, посмотрите на файл, в нем 100500 запросов, заняло всего часов 5. Вау-эффект гарантирован: проверено.
На продакшене мы продаем мозги, а не руки: там, где конкуренты дают оценку в 50-100 часов для SEO-специалистов, мы просим 10-15 часов — но для разраба. Часы разраба дороже, но сумма — меньше, и это работает.

В этой статье мы расскажем, как мы автоматизировали работу с семантикой для крупных проектов.

На данный момент для сбора и очистки ядра размером в 50 или 100 тысяч фраз мы тратим от силы 10-15 часов рабочего времени.

Долго, дорого и скучно: как обычно работают с семантикой

Как выглядит типовой процесс работы с семантикой в агентстве?

В агентство приходит проект, и до начала работы нужно собрать семантику и построить прогноз трафика. Иногда у заказчика есть уже настроенный мониторинг позиций — и тогда нужно оценить, можно ли расширить эту выборку и много ли дополнительной частотности даст это расширение.

Все эти процессы — крайне трудозатратные: нужно собрать маркерные запросы, распарсить семантические хвосты, затем очистить их от мусора, и только потом можно что-то оценивать.

Если речь о пресейле — таким анализом не будет заниматься почти никто, прогноз просто «нарисуют» по оценке конкурентов в Spywords.

Если речь о работе после подписания договора, то здесь другая проблема — обычно бюджета не хватает на то, чтобы проработать все ядро, поэтому от него отрезают те или иные куски, тем самым снижая охват.

Нам в MOAB хотелось давать клиентам адекватные прогнозы и быстро собирать максимально полные сем. ядра — так, чтобы бюджет задачи был незначительным даже для малого и среднего бизнеса.

После нескольких экспериментов мы разработали методологию т.н. «масок URL», которую применяем для быстрого формирования больших пулов запросов в e-com.

Ниже мы расскажем о теории процесса на упрощенном примере, а затем покажем практический кейс.

Маски URL для быстрого сбора и очистки семантики: как это работает

Итак, представим, что ваш клиент — крупный ритейлер электроники, и перед вами стоит задача продвижения раздела «Смартфоны».

В процессе сбора семантики вам предстоит:

Собрать все маркерные запросы со словом «смартфон» и «телефон», брендовые маркеры (Xiaomi, Сяоми, ксиаоми, etc).
Убрать из массива запросы, не имеющие отношения к смартфонам (пример).
Убрать из массива некоммерческие запросы (пример).

Оставшиеся в массиве запросы будут отвечать нескольким условиям:

это запрос про смартфоны;
это коммерческий запрос;
запрос проходит нужный нам ценз по частотности.

Самое простое — частотность, тут все понятно. Но как автоматизированно выяснить, что запрос а) точно про смартфоны и б) коммерческий?

Анализируем структуру URL конкурентов

Для этого обратимся к структуре URL некоторых конкурентов, который ранжируются в этой тематике.

Тип запроса: категорийный, безбрендовый

Ссылки из выдачи:

Тип запроса: категорийный, безбрендовый

Ссылки из выдачи:

Тип запроса: категорийный, брендовый

Ссылки из выдачи:

Тип запроса: товарный, брендовый

Что мы можем узнать из анализа данных серпов и URL в них:

Если запрос коммерческий — в выдаче будет ссылка на Маркет (Спасибо, Кэп!).
Структура URL значительного количества сайтов содержит повторяющиеся паттерны, которые мы называем масками. Мы можем отследить частоту встречаемости этих паттернов по тому или иному запросу, и затем сделать вывод о том, полезный этот запрос для нас или нет.

Во всех примерах ниже звездочка «*» означает любые символы.

Все URL МВидео, как категорийные, так и товарные, будут содержать маску *mvideo.ru/smartfon* (товар, бренд, категория).

К сожалению, структура URL не содержит повторяющихся паттернов.

Очень удобная для нас структура URL, которая, как вы увидите в дальнейшем, выручит нас там, где нас подвела структура URL Ozon. Содержит повторяющийся паттерн: *avito.ru*telefon* (категория, товар, бренд).

Маркет: здесь довольно интересный случай.

Наличие Маркета в выдаче Яндекса — один из самых точных признаков того, что запрос — коммерческий. В то же время ситуация осложняется тем, что однозначный паттерн не выявляется, скорее, их три:

*market.yandex.ru* — признак того, что запрос коммерческий;
*market.yandex.ru*telefon* — признак того, что это коммерческий категорийный запрос про смартфоны;
*market.yandex.ru*smartfon* — признак того, что это коммерческий товарный запрос про смартфоны.

На практике в последнее время Яндекс нередко показывает по категорийным запросам URLы Маркета вида search, что как раз и вынуждает нас учитывать самую общую маску типа *market.yandex.ru*.

В общем, суть ясна: в большинстве случаев сайты используют повторяющиеся паттерны URL, и мы можем этим воспользоваться. Можно было бы собрать маски по брендовым магазинам Huawei, Oppo, Vivo, Apple и других, но для упрощенного примера достаточно и того, что есть.

Что дальше делать с масками

Мы составляем вот такую табличку:

Здесь мы приводим для примера абстрактный файл про смартфоны, ниже разберем практический кейс с нашим клиентом — компанией Hoff.

Итак, мы собрали маски URL, которые могут появляться в выдаче по коммерческим запросам про смартфоны. Затем мы снимаем выдачу Яндекса (можно и Google, тут зависит от задачи), и смотрим, попадает ли та или иная маска в выдачу по конкретному запросу.

Если маска ozon.ru*smartfon* найдена в топ-10 — записываем значение «1», если нет — «0»:

В последнем столбце, как можно видеть в табличке, считается сумма вхождений. В грубом приближении — чем больше сумма, тем более «коммерческий» запрос и тем более вероятно, что он про смартфоны.

С практической точки зрения мы обычно применяем следующие фильтры:

Маркет = 1, это позволяет сразу надежно отсечь некоммерческие запросы:

Сумма вхождений: от «≥2» до «≥4»

Чем больше сумма вхождений — тем чище выборка.

Но чем чище выборка — тем больше вероятность отрезать «целевые» запросы.

Тут надо искать баланс вручную, исследуя то, как меняется суммарная частотность запросов, количество фраз и их чистота в зависимости от установленного фильтра. Если же страсть к исследованиям вам несвойственна — воспользуйтесь готовой рекомендацией:

4 или более вхождений масок в выдаче,
1 из вхождений — Яндекс.Маркет,
если в вашей тематике Маркет не ранжируется (авто, недвижка), то либо подбирайте такой же аналог, прибитый гвоздями в топе (Авто.ру, Циан), либо, чтобы перестраховаться, ставьте «5 или более вхождений масок в выдаче».

Практический кейс: сбор семантики для HOFF.RU

Вообще, методика масок URL лучше всего работает в конкурентных, охватных нишах, где выдача уже сформирована, есть устоявшиеся лидеры, а количество запросов измеряется десятками и сотнями тысяч.

Для HOFF.RU такая методика подходила идеально, поэтому было решено использовать ее на полную мощность. Расскажем о процессе по шагам.

Сбор маркеров и хвостов

Маркеры брали максимально широкие:

стол
стул
кресло
диван
кровать
тарелка
сервиз и так далее.

Затем собирали «все, что включено» из Wordstat в 2 уровня по указанным маркерам.

Всего получилось 168 маркеров и 762 000 «грязных» запросов.

Сбор масок URL

Всего в базе масок 26 разделов, для каждого — 10-12 масок, «Диваны» — один из них.

Для некоторых сайтов используется несколько масок, например, в «Кухнях»:

*sbermegamarket.ru*kuhonnye-garnitury*
*sbermegamarket.ru*modulnye-kuhni*

Логика в этом случае такая: при нахождении любой из масок в выдаче по запросу, записываем в ячейку «1», даже если (что крайне маловероятно), будут найдены 2 маски по одному сайту — все равно записываем «1».

Результат после сбора выдачи — Диваны

Самое интересное — пример финального файла.

Итак, всего в файле «Диваны» было 85 642 «грязных» запроса, собранных по маркеру «диван»:

После применения фильтров:

осталось 8750:

Можно видеть, что мусорных фраз в файле практически нет.

Суммарная частотка:

до: 813 320
после: 105 101

Общий результат: 55 209 коммерческих фраз по 26 разделам, трудозатраты — около 12 часов.

Использование масок для работы с товарными запросами

Впрочем, методика масок URL не ограничивается задачами сбора и фильтрации категорийных запросов. Одно из возможных применений — массовая генерация товарных запросов из XML-фида, методика разработана совместно с Виктором Репиным из OZON.

Процесс строится так:

Берем XML-фид с товарами.
Берем все слова из названия товара, строим все возможные комбинации фраз, содержащие 2 слова и более (в некоторых случаях можно ставить 3+). Как правило, получаем 5-15 вариантов фраз на товар, при желании можно добавить библиотеку транслитераций (samsung → самсунг).
Все полученные комбинации прогоняются через проверку масками (документ с масками по тематикам, пользуйтесь бесплатно, актуальность — около 8 месяцев назад).
Запросы, по которым более 3 вхождений разных товарных масок — очевидно, товарные.
На следующем этапе пробивается частотность в виде «!», убираются нулевки.
Итог — полностью автоматизированное получение очень обширного НЧ-ядра практически по любым товарам.

Стоит отметить:

Мы осознанно пробиваем сначала выдачу, а потом частотку: на больших объемах, с которыми мы работали в OZON (десятки миллионов фраз), это дешевле. Себестоимость съема выдачи ниже, поэтому проще сначала уменьшить размер списка, а потом снимать уже более «дорогой» Wordstat.
Нужно учитывать специфику ранжирования тех или иных масок при создании фильтров. Очевидно, что маска *avito.ru*telefon* будет реже встречаться по категорийным запросам, но чаще — по товарным.
При желании можно создавать «минус-маски», например, если вам надо исключить товарные запросы из массива, во многих тематиках страницам товаров свойственно использование *product*, *goods*, *item*.

Пример готового файла, сделанного по такой методологии для компании MUZTORG:

Математика там такая: из ~300 приоритетных товаров мы получили около 8000 комбинаций, после фильтрации осталось 323 «товарных» запроса.

Как генерировать семантику своими руками

Обычно авторы таких статей в разделе «Практическое применение» предлагают читателям учить Python или же использовать AParser/Zennoposter. Не умаляя всех достоинств этих способов автоматизации, отметим, что они сильно сужают круг тех, кто применит рекомендации в реальности.

Мы все же предпочитаем автоматизацию, максимально близкую к формату «одной кнопки»: зашел, нажал, получил результат. Поэтому мы сделали микросервис «Генерация запросов» в MOAB Tools.

Как его использовать:

Для тех, кто не любит читать документацию, мы подготовили небольшое видео с кратким описанием основных возможностей:

Скринкаст с описанием микросервиса «Генерация запросов»

Нейро-SEO: реальность опережает прогнозы

Если начал говорить про автоматизацию в SEO — рано или поздно скатишься в обсуждение нейросетей. Порой кажется, что спекуляции на тему ChatGPT — один из самых эффективных способов собрать лайки на vc.ru для авторов, которых в других случаях просто не замечают.

Как широкое использование ИИ повлияет на SEO-индустрию: наша точка зрения.

Государства рано или поздно сделают маркировку генеративного контента обязательной, а отказ от маркировки — нарушением (в Китае уже готовятся запрещать). Владельцев нейросетей, вероятно, заставят вести реестр сгенерированного контента. Это позволит маркировать сниппеты и/или понижать в выдаче материалы без маркировки.

Качество контента возрастет.

Пресловутый EAT неслучайно превратился в EEAT. Еще одна «E» — это Experience. По сути, нейросети не создают новый контент — в зависимости от качества датасета, они формируют плохую или хорошую компиляцию на его основе.

В условиях засилья генеративного контента дополнительный бонус в ранжировании получат сайты, где будет уникальный по смыслу контент, объединяющий в себе информацию, которая до момента публикации существовала лишь в головах у экспертов в конкретной нише.

(нормальный) Контент станет дороже.

Это создаст дополнительные проблемы для малого бизнеса и вытеснит с рынка дешевых «копирайтеров» и «рерайтеров». Конкурентные экспертные тексты они не потянут, а писать простые технические тексты клиенты «наймут» нейросеть.

На их место придут серьезные редакции, умеющие работать с экспертами, разбираться в технических вопросах и структурировать информацию.

Безусловно, в выдаче будет много генеративного контента, в том числе тогда, когда он реально нужен для выполнения чисто технической функции — описания товаров, тексты «как варить пельмени» и «график праздников 2023». Но в то же время по запросу [деревянный дом под ключ проекты и цены] преимущество получит кто-то типа GoodWood, с контентом такого типа.

И это отличная перспектива.

Прозвучит парадоксально, но чем сложнее — тем лучше, чем дороже — тем лучше, чем больше препятствий — тем лучше.

Маркировка рекламы у блогеров грозит уничтожить рынок нативок? Не проблема, мы разобрались и уже продаем блогерам и заказчикам консультации по маркировке.

Чаще всего фискальные, регулятивные и технические ограничения — это решаемая проблема для профессионала и неразрешимое препятствие для новичка.

Если в бизнесе вы можете решить проблему за деньги — это не проблема, это возможность. Главное, помните о том, скольких конкурентов эта проблема убрала с вашего пути.

P.S. Редакция MOAB выражает глубокую признательность CMO Hoff.ru Виталию Шахматову за возможность поделиться данными по сбору семантики для проекта.

6.5K показов

8.7K открытий